synOCR synOCR - GUI für OCRmyPDF

geimist · 05. Okt. 2020

Ich kann ja nur für mich sprechen:
Mein Scanner scannt die Dokumente und legt sie gleich via FTP auf dem NAS in den Eingangsordner ab. 1x stündlich läuft synOCR, macht die Texterkennung und arbeitet die Regeln zur Umbenennung und Einsortierung ab. Der Zielordner wird bei mir durch Synology Drive mit den Clients abgeglichen.

driftkingisback · 06. Okt. 2020

Vielen Dank für deine Antwort. Welchen Scanner hast du wenn ich fragen darf?
Könntest die Regeln eventuell mal hier hinzufügen, vielleicht passen viele Regeln und ich könnte ein Teil übernehmen, wäre super hilfreich.
Nochmals vielen Dank für deine Hilfe

geimist · 07. Okt. 2020

Mein Scanner ist ein BROTHER-ADS2600W

Meine Regeldatei werde ich hier nicht veröffentlichen, weil da u.a. meine Kundennummern, Versicherungsnummern ect. drinstehen.
Ich kann dir aber ein abgeändertes Beispiel für eine Regel geben:

YAML:

tagVersicherung_01:
    tagname: "Versicherung Allianz"
    targetfolder: "Versicherung"
    condition: any
    subrules:
    - searchstring: 29.?039.?450.?7
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false
    - searchstring: "67459423"
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: "Allianz"
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
tagauto_01:
    tagname: "KFZ"
    targetfolder: "KFZ"
    condition: any
    subrules:
    - searchstring: "AutoTeileUnger"
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: M.?AA.?1234
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false
tagrechnung_01:
    tagname: "Rechnung"
    targetfolder: "Rechnungen"
    condition: any
    subrules:
    - searchstring: "Rechnung"
      searchtyp: is
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: "ALDI"
      searchtyp: is
      isRegEx: false
      source: content
      casesensitive: true

geimist · 07. Okt. 2020

gergi schrieb:
Hi,
funktioniert leider nicht.

Code:

? move to category directories tag directories "/volume1/Dokumente/XYZ" exists? ? OK [absolute path] target: /volume1/Dokumente/XYZ.pdf set a hard link cp: cannot create hard link '/volume1/Dokumente/XYZ': Invalid cross-device link Failed at 1082: cp -l "${outputtmp}" "${output}"

Wenn ich den Output Ordner direkt auf volume1/Dokumente setzte und nicht auf volume1/Michael lasse, funktioniert es so wie ich es benötige.

Gruß

Sorry für die späte Antwort.
Wird die Datei evtl. trotz der Fehlermeldung korrekt erstellt?
In deiner Version prüfe ich nämlich die Fehlerausgabe und lass ggf. nachher direkt kopieren.

(Bitte schickt mir immer ein komplettes Log - das macht es mir einfacher)

CSchmitt · 09. Okt. 2020

Hallo zusammen,

da ich aktuell meine Dokumente mit dem iPhone und Scanner Pro (macht OCR) erstelle und dann auf meinem NAS im richtigen Ordner ablege, bin ich auf der Suche nach einer eleganteren Lösung (Dokumentenscnner und NAS). Nun bin ich über synOCR gestolpert und wollte mir diese Lösung mal ansehen. Wie im ersten Post beschrieben, habe ich das Paket installiert (auch die Quelle hinzugefügt). Danach habe ich habe die Ordner in den Einstellungen auf meine angepasst (mit volume1/).
Nach dem Klick auf "manuellen durchlauf" ist nach ca. 3 Sekunden Schluss und es passiert nichts. Docker ist installiert und läuft, aber es passiert gar nichts. Es wird kein Image geladen und gestartet.

Mein Benutzer hat Adminrechte und ich kann auch andere Docker Images laden und starten.
Hat jemand eine Idee was ich falsch mache?

Aktuell läuft das Paket auf der DS920+ alternativ könnte ich es auch auf der DS718+ noch versuchen. Da die Dokumente aber auf der DS920+ liegen wäre es gut wenn's dort direkt klappt.

Gruß Christian

geimist · 09. Okt. 2020

CSchmitt schrieb:
Einstellungen auf meine angepasst (mit volume1/).

Das sollte problemlos funktionieren.
Allerdings beginnt der Pfad mit einem /

CSchmitt · 09. Okt. 2020

geimist schrieb:
Das sollte problemlos funktionieren.
Allerdings beginnt der Pfad mit einem /

Hallo Stephan,

mein Pfad beginnt mit einem "/"
Siehe Anhang.

geimist · 09. Okt. 2020

Wie sieht die Startseite aus (dort, wo du einen manuellen Programmlauf starten kannst). Ist da ein grüner Haken oder eine blaue Sanduhr?

CSchmitt · 09. Okt. 2020

Ich weiß nicht wieso, aber hab auch mal ein anderes PDF reingelegt und nun kommt die blaue Sanduhr. Scheint wohl an dem PDF gelegen zu haben.

geimist · 09. Okt. 2020

Vielleicht auch an dem eingestellten Suchpräfix …

mamema · 10. Okt. 2020

geimist schrieb:

YAML:

tagVersicherung_01:
    tagname: "Versicherung Allianz"
    t/CODE]

Du hast Deine Strings mittels Hochzeichen erfasst.Ich nicht. Spielt das eine Rolle? Du weisst ja, ich hab etwas Probleme mit den Targetfoldern

geimist · 10. Okt. 2020

Das macht nach meiner Beobachtung keinen Unterschied.

Ich habe dich auch noch nicht vergessen … ?

QuickMik · 10. Okt. 2020

geimist schrieb:
Die Spotlightsuche auf dem Mac funktioniert dafür aber nicht.

warum nicht? bei mir funktioniert das 1A. es ist zwar ein wenig langsamer, aber es funktioniert.

geimist · 10. Okt. 2020

Das hat Synology anfangs auch als Spotlightsuche beworben, dann aber selbst abgeändert. Die Spotlightsuche ist das, was man mit CMD+Space oder mit der Lupe in der Menüleiste aufrufen kann (der lokale Index wird genutzt). Darüber findest du keine Inhalte vom NAS. Dazu muss man explizit (wie in deinem Screenshot) im gemounteten Laufwerk die Findersuche bemühen. Nur hier kann der Index von UniversalSearch angezapft werden. Das sind zwei paar verschiedene Schuhe.

CSchmitt · 18. Okt. 2020

Guten Morgen zusammen,

jetzt habe ich doch nochmal eine frage. Es werden Out-of-the-box keine Bilder angezogen bei mir.
OCRmyPDF kann ja auch Images nach PDF konvertieren, leider tut sich wenn Bilder im Ordner liegen gar nichts bei synOCR.
Wenn ich allerdings ein png zu pdf umbenenne, läuft alles los und OCRmyPDF merkt das dann glückliicherweiße auch.

Code:

 ? OCRmyPDF-LOG:
               reading file from standard input
               Input file is not a PDF, checking if it is an image...
               Input file is an image

Welche Einstellungen müssen noch gemacht werden das auch Bilder angezogen werden?

Gruß Chris

geimist · 18. Okt. 2020

Ja, das kann gut gehen, muss es aber nicht. Die Konvertierung ist seitens synOCR derzeit (noch) nicht implementiert.

CSchmitt · 18. Okt. 2020

Ich kenne die Implementierung von synOCR nicht, aber wenn ich OCRmyPDF direkt auf Ubuntu verwende ist der Aufruf der gleiche wie für PDFs.

Wäre das sehr viel Aufwand das zu ergänzen?

geimist · 18. Okt. 2020

Bilder sollten korrekt konvertiert werden. Das funktionierte bei mir nicht mit jedem Bild - also nicht zuverlässig. Und wenn ich es einbaue (dann wahrscheinlich über image2pdf in einem separaten Dockercontainer), sollten auch mehrere Bilder in ein PDF gemerged werden können.

CSchmitt · 18. Okt. 2020

Ich hab es in der Tat nur mit einem Screenshot gestest. Das Ergebnis war aber 1a. Wäre es möglich das ohne zusätzlichen Container also über OCRmyPDF und ein Settingtoggle einzubauen?

geimist · 18. Okt. 2020

Durch Anpassung der Suche geht das wahrscheinlich einfach. Aber dann wundern sich wieder User, wenn es nicht immer funktioniert. Ich gucke es mir nochmal an. Vorher sind aber noch ein paar Bugfixes dran, die auch noch warten - und die DSM 7 Integration (akutell habe ich kaum Zeit für synOCR).

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat