synOCR synOCR - GUI für OCRmyPDF

yasmin_k

Benutzer
Mitglied seit
15. Aug 2009
Beiträge
285
Punkte für Reaktionen
0
Punkte
16
Ich bleibe am Ball. Gib mir bitte etwas Zeit. Ich werde mich, sobald ich kann, damit befassen.
Sorry, dass ich nicht gleich eine Lösung habe.

Alles gut, nicht schlimm, danke, dass du reinschaust!
?
 

JackON

Benutzer
Mitglied seit
15. Okt 2019
Beiträge
10
Punkte für Reaktionen
0
Punkte
7
Ich hab das ganze in der GUI eingerichtet. Im Bereich KONFIGURATION.

synOCR1.jpg
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Mir scheint es, dass du ein Profil "Rechnung" erstellt hast. Dein Log, welches du mir hochgeladen hast, war aber vom Profil "default" ausgegeben worden.

Zum Verständnis:
Profile dienen der Unterscheidung für verschiedene Userszenarien. Z.B. wird ein Profil von User A für geschäftliche Abläufe benutzt. Ein Kind hat als User B ein Profil für die ganzen Schulangelegenheiten. Profile haben nichts mit Tags zu tun.
 

e91

Benutzer
Mitglied seit
26. Jul 2020
Beiträge
14
Punkte für Reaktionen
6
Punkte
53
Vielen dank für die tolle Umsetzung! Habe es heute installiert und bin bisher sehr zufrieden. Habe aktuell noch das Problem, dass ich bei - searchstring: nach "Online-Bestellung 7262538" suchen will. Das funktioniert leider nicht. Die Tag_Config sieht so aus:

nureintest:
tagname: Online-Bestellung
targetfolder: /volume1/DMS/Archiv/fürdentest
condition: any
subrules:
- searchstring: "Online-Bestellung 7262538"
searchtyp: contains
isRegEx: false
source: content
casesensitive: true

Hatte das vorher in meinen Scripten so gelöst:

mv -i $(pdfgrep -i "Online-Bestellung 7262538" /mnt/dms/Scanordner/Output/*.pdf | cut -d: -f1 | sort -u) /mnt/dms/Archiv/irgendeinordner

Kann ich auch in synocr nach Text inkl. einem Leerzeichen dazwischen, suchen?

Vielen Dank vorab!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Bei mir funktioniert eine ähnliche Suche mit und ohne Anführungszeichen.
Bitte stell mal das Logging auf "erweitert" und sieh dir das Textfile im Log-Ordner an. Möglicherweise wurde dein Suchausdruck nicht korrekt geocrt.
(bzw.: wie viele Leerzeichen interpretiert die Texterkennung?)
 
Zuletzt bearbeitet:

JackON

Benutzer
Mitglied seit
15. Okt 2019
Beiträge
10
Punkte für Reaktionen
0
Punkte
7
@geimist

Versteh ich jetzt nicht ganz. Benutzer kann ich doch gar nicht angeben?
Bei Konfiguration steht doch:

Über die Profile kannst du beliebig viele Konfigurationen anlegen, welche alle bei jedem Programmlauf abgearbeitet werden. Man kann jedes Profil über das entsprechende Feld auch deaktivieren.

Also wo ist denn da mein Fehler?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Ein NAS kann doch in einem sehr gemischten Umfeld eingesetzt werden. Dafür ist es z.T. notwenig, unterschiedliche Konfigurationen anzugelgen, um den nötigen Workflow abbilden zu können. Um deine Dokumente zu klassifizieren (Tag-Suche / Einsortierung), reicht es in der Regel, alle Einstellungen in EINEM Profil zu hinterlegen.
 

JackON

Benutzer
Mitglied seit
15. Okt 2019
Beiträge
10
Punkte für Reaktionen
0
Punkte
7
OK. Und wie mach ich das dann genau?
Ich wollte halt Rechnungen in einen Ordner RECHNUNGEN, Angebote unter Ordner ANGEBOTE usw. haben.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
  1. Entweder du gibst die einzelnen Tags mit der einfache Methode an (Infos im blauen Info-i):
    Rechnung=Rechnungen;Angebot=Angebote;Allianz=Versicherungen
    Bei dieser Methode werden die Begriffe vor dem = im Dokument gesucht. Nach dem (optionalen) = steht der Kategorieordner, in welchem die Dokumente mit entsprechend gefundenen Tag einsortiert werden
  2. die erweiterte Methode funktioniert über eine externe YAML-Regeldatei. Diese hast du dir schon über den blauen Button erstellt.
    Diese Methode ist komplexer, aber dafür wesentlich umfangreicher. Z.B. kannst du nach "Lohnabrechnung Müller GmbH" suchen und dafür den Tag "Gehalt JackON" setzen
    Die Erläuterung zu der Syntax steht in der Beispieldatei (bei dir heißt sie für das Profil Rechnung: /volume1/Media/Dokumente/Eingang/_TagConfig_[profile_Rechnung].txt wie in deinem Screenshot zu lesen ist)
 

JackON

Benutzer
Mitglied seit
15. Okt 2019
Beiträge
10
Punkte für Reaktionen
0
Punkte
7
Müssen bei Methode 1. absolute Pfade verwendet werden?
Oder wo muss der Ordner RECHNUNGEN z. B. dann angelegt werden?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Wenn du es wie in meinem 1. Beispiel konfigurierst, dann würden die Ordner "Rechnungen", "Angebote" ect. bei Bedarf automatisch im OUTPUT-Ordner erstellt werden. Ob auch hier ein absoluter Pfad funktioniert, habe ich gerade nicht auf dem Schirm. Erstmal relativ versuchen und wenn alles funktioniert, dann mal mit einem absoluten Pfad probieren. Wahrscheinlich funktioniert es auch mit absoluten Pfaden.
 

JackON

Benutzer
Mitglied seit
15. Okt 2019
Beiträge
10
Punkte für Reaktionen
0
Punkte
7
OK. Super. Das scheint zu klappen.
Was müsste ich jetzt machen, dass auch im endgültigen Dateinamen auch die Firma oder ähnliches auftaucht?
Also z. B.

2020-07-27_#Rechnung_Scan_20200727_131029.pdf --> 2020-07-27_#Rechnung_Schornsteinfeger_Schwarz.pdf
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Mit der einfachen Methode müsstest du nach der Zeichenfolge "Rechnung_Schornsteinfeger_Schwarz" suchen (also in diesem Fall mit Unterstrich, was ja eher unwahrscheinlich ist). Alternativ bleibt dir dann nur die erweiterte Regeldatei. Bereits konfigurierte Tags sollten beim Konvertieren (Button neben dem Tag-Feld in der GUI) in ihrer Form übernommen werden (können dann halt noch wie gewünscht verfeinert werden).

Dort könnte dass dann so aussehen:
YAML:
schorni_regel_01:
    tagname: "Rechnung_Schornsteinfeger_Schwarz"
    targetfolder: ""
    condition: all
    subrules:
    - searchstring: "Rechnung"
      searchtyp: is
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: "Schornsteinfeger"
      searchtyp: is
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: "Schwarz GbR"
      searchtyp: is
      isRegEx: false
      source: content
      casesensitive: false

Wenn alle Subrules erfüllt sind, würde der Tag "Rechnung_Schornsteinfeger_Schwarz" gesetzt.
 

Nicky_1818

Benutzer
Mitglied seit
31. Jan 2014
Beiträge
88
Punkte für Reaktionen
4
Punkte
8
Kurze Rückmeldung noch von mir:

die ersten 1400 Dokumente sind erfolgreich durchgelaufen; durchschnittliche Seitenanzahl liegt irgendwo bei 120. Sobald die fehlenden 3000 PDFs durch sind, gebe ich nochmal eine Meldung. Bin gespannt, wie das "Zurücksortieren" im Anschluss dann abläuft.

Gruß Dominique
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Bin gespannt, wie das "Zurücksortieren" im Anschluss dann abläuft.
(y) Ich auch, aber ich bin zuversichtlich, wenn es im kleinen Rahmen auch funktioniert. In der Indexdatei stehen ja alle Pfade drin - das Wissen ist also nicht verloren.
 

Nicky_1818

Benutzer
Mitglied seit
31. Jan 2014
Beiträge
88
Punkte für Reaktionen
4
Punkte
8
Kurze Zwischenfrage:
Wird beim erfolgreichen scannen eines Dokuments der Summer der Diskstation kurz angesteuert? Irgendwie piept meine DS in unregelmäßigen Abständen ganz kurz. Deckt sich ungefähr mit der Abarbeitung einzelner Dokumente ?
 

Christian72D

Benutzer
Mitglied seit
29. Apr 2010
Beiträge
715
Punkte für Reaktionen
12
Punkte
44
Erst mal: großes Lob, gerade eingerichtet, läuft super, VIELEN DANK!

Eine Frage (wollte jetzt keine 49 Seiten lesen): wäre es möglich, mehrere Pfade zu setzen?
Ich teile mir das NAS mit meinen Eltern, und meion Vater steht mit der OCR Funktion seines Brother auf dem Kriegsfuß. :D
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Wird beim erfolgreichen scannen eines Dokuments der Summer der Diskstation kurz angesteuert?
Dafür gibt es eine Einstellung in der GUI (Konfiguration ? DSM-Benachrichtigung und sonstige Einstellungen ?Systembenachrichtigung (Piep))

… wäre es möglich, mehrere Pfade zu setzen? Ich teile mir das NAS mit meinen Eltern, und meion Vater steht mit der OCR Funktion seines Brother auf dem Kriegsfuß
Genau dafür sind die Profile in der GUI gedacht. Ein Profil für dich und eins für deine Eltern. Somit kannst du jeweils völlig unabhängige Szenarien konfigurieren. Du müsstest es beim Scannen nur so steuern, dass die Dokumente jeweils im userspeziefischen Ordner landen, oder durch einen Präfix, bzw. Suffix unterschieden werden können (ist ja logisch: würdet ihr beide den gleichen INPUT-Ordner verwenden und sich die Dateien nicht unterscheiden, dann würden die darin vorhandenen PDFs vom ersten Profil verarbeitet werden - unabhängig, wem es gehört).
 

lueddich

Benutzer
Mitglied seit
10. Dez 2012
Beiträge
52
Punkte für Reaktionen
8
Punkte
8
Moin Stephan!

Ich habe gerade ein Dokument im Querformat eingescannt. Die Texterkennung hat hierbei nichts Vernünftiges erkannt. Das Dokument NACH Erkennung habe ich hier einmal angehängt. Weltklasse wäre gewesen, wenn es automatisch zu einer PDF im Querformat mit korrekter Texterkennung gewandelt worden wäre. Ist da was drin?

Viele Grüße,
Jan
 

Anhänge

  • ##20200729.pdf
    6,3 MB · Aufrufe: 16


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat