synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Ich kann ja nur für mich sprechen:
Mein Scanner scannt die Dokumente und legt sie gleich via FTP auf dem NAS in den Eingangsordner ab. 1x stündlich läuft synOCR, macht die Texterkennung und arbeitet die Regeln zur Umbenennung und Einsortierung ab. Der Zielordner wird bei mir durch Synology Drive mit den Clients abgeglichen.
 

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Vielen Dank für deine Antwort. Welchen Scanner hast du wenn ich fragen darf?
Könntest die Regeln eventuell mal hier hinzufügen, vielleicht passen viele Regeln und ich könnte ein Teil übernehmen, wäre super hilfreich.
Nochmals vielen Dank für deine Hilfe
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Mein Scanner ist ein BROTHER-ADS2600W

Meine Regeldatei werde ich hier nicht veröffentlichen, weil da u.a. meine Kundennummern, Versicherungsnummern ect. drinstehen.
Ich kann dir aber ein abgeändertes Beispiel für eine Regel geben:

YAML:
tagVersicherung_01:
    tagname: "Versicherung Allianz"
    targetfolder: "Versicherung"
    condition: any
    subrules:
    - searchstring: 29.?039.?450.?7
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false
    - searchstring: "67459423"
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: "Allianz"
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
tagauto_01:
    tagname: "KFZ"
    targetfolder: "KFZ"
    condition: any
    subrules:
    - searchstring: "AutoTeileUnger"
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: M.?AA.?1234
      searchtyp: contains
      isRegEx: true
      source: content
      casesensitive: false
tagrechnung_01:
    tagname: "Rechnung"
    targetfolder: "Rechnungen"
    condition: any
    subrules:
    - searchstring: "Rechnung"
      searchtyp: is
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: "ALDI"
      searchtyp: is
      isRegEx: false
      source: content
      casesensitive: true
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Hi,
funktioniert leider nicht.
Code:
  ? move to category directories
                  tag directories "/volume1/Dokumente/XYZ" exists? ?  OK [absolute path]
                  target:   /volume1/Dokumente/XYZ.pdf
                  set a hard link
cp: cannot create hard link '/volume1/Dokumente/XYZ': Invalid cross-device link
Failed at 1082: cp -l "${outputtmp}" "${output}"

Wenn ich den Output Ordner direkt auf volume1/Dokumente setzte und nicht auf volume1/Michael lasse, funktioniert es so wie ich es benötige.

Gruß
Sorry für die späte Antwort.
Wird die Datei evtl. trotz der Fehlermeldung korrekt erstellt?
In deiner Version prüfe ich nämlich die Fehlerausgabe und lass ggf. nachher direkt kopieren.

(Bitte schickt mir immer ein komplettes Log - das macht es mir einfacher)
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Hallo zusammen,

da ich aktuell meine Dokumente mit dem iPhone und Scanner Pro (macht OCR) erstelle und dann auf meinem NAS im richtigen Ordner ablege, bin ich auf der Suche nach einer eleganteren Lösung (Dokumentenscnner und NAS). Nun bin ich über synOCR gestolpert und wollte mir diese Lösung mal ansehen. Wie im ersten Post beschrieben, habe ich das Paket installiert (auch die Quelle hinzugefügt). Danach habe ich habe die Ordner in den Einstellungen auf meine angepasst (mit volume1/).
Nach dem Klick auf "manuellen durchlauf" ist nach ca. 3 Sekunden Schluss und es passiert nichts. Docker ist installiert und läuft, aber es passiert gar nichts. Es wird kein Image geladen und gestartet.

Mein Benutzer hat Adminrechte und ich kann auch andere Docker Images laden und starten.
Hat jemand eine Idee was ich falsch mache?

Aktuell läuft das Paket auf der DS920+ alternativ könnte ich es auch auf der DS718+ noch versuchen. Da die Dokumente aber auf der DS920+ liegen wäre es gut wenn's dort direkt klappt.

Gruß Christian
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Wie sieht die Startseite aus (dort, wo du einen manuellen Programmlauf starten kannst). Ist da ein grüner Haken oder eine blaue Sanduhr?
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Ich weiß nicht wieso, aber hab auch mal ein anderes PDF reingelegt und nun kommt die blaue Sanduhr. Scheint wohl an dem PDF gelegen zu haben.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Das hat Synology anfangs auch als Spotlightsuche beworben, dann aber selbst abgeändert. Die Spotlightsuche ist das, was man mit CMD+Space oder mit der Lupe in der Menüleiste aufrufen kann (der lokale Index wird genutzt). Darüber findest du keine Inhalte vom NAS. Dazu muss man explizit (wie in deinem Screenshot) im gemounteten Laufwerk die Findersuche bemühen. Nur hier kann der Index von UniversalSearch angezapft werden. Das sind zwei paar verschiedene Schuhe.
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Guten Morgen zusammen,

jetzt habe ich doch nochmal eine frage. Es werden Out-of-the-box keine Bilder angezogen bei mir.
OCRmyPDF kann ja auch Images nach PDF konvertieren, leider tut sich wenn Bilder im Ordner liegen gar nichts bei synOCR.
Wenn ich allerdings ein png zu pdf umbenenne, läuft alles los und OCRmyPDF merkt das dann glückliicherweiße auch.

Code:
 ? OCRmyPDF-LOG:
               reading file from standard input
               Input file is not a PDF, checking if it is an image...
               Input file is an image

Welche Einstellungen müssen noch gemacht werden das auch Bilder angezogen werden?

Gruß Chris
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Ich kenne die Implementierung von synOCR nicht, aber wenn ich OCRmyPDF direkt auf Ubuntu verwende ist der Aufruf der gleiche wie für PDFs.

Wäre das sehr viel Aufwand das zu ergänzen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Bilder sollten korrekt konvertiert werden. Das funktionierte bei mir nicht mit jedem Bild - also nicht zuverlässig. Und wenn ich es einbaue (dann wahrscheinlich über image2pdf in einem separaten Dockercontainer), sollten auch mehrere Bilder in ein PDF gemerged werden können.
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Ich hab es in der Tat nur mit einem Screenshot gestest. Das Ergebnis war aber 1a. Wäre es möglich das ohne zusätzlichen Container also über OCRmyPDF und ein Settingtoggle einzubauen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Durch Anpassung der Suche geht das wahrscheinlich einfach. Aber dann wundern sich wieder User, wenn es nicht immer funktioniert. Ich gucke es mir nochmal an. Vorher sind aber noch ein paar Bugfixes dran, die auch noch warten - und die DSM 7 Integration (akutell habe ich kaum Zeit für synOCR).
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat