synOCR synOCR - Aufbau einer YAML Datei - Verwendung Regulärer Ausdrücke

Chr!s · 03. Jan 2024

So, wie angekündigt ein Feedback zum Editor. Er funktioniert und war und ist bis jetzt eine mega Hilfe. Alleine schon die Regeln übersichtlich in Excel zu bearbeiten und ggf. Filtern zu können ist genial!

Schwierigkeiten hatte ich allerdings mit dem Trustcenter, auch funktionierts nach dem Update leider nicht mehr. Der Konfigurator öffnet sich dann nicht mehr, anklicken der verschiedenen Schaltflächen führt zu diversen Laufzeitfehlern. Ich habe leider nicht dran gedacht rechtzeitig alle Fehler zu dokumentieren ein paar Screenhots habe ich allerdings und hänge sie hier an. Ich kann nur nicht sagen ob die Fehler an meiner Bedienung, einer Konfiguration oder an sonst einem Bug liegen.

Nach dem ich den Editor durch löschen verschiedener Dateien in den AppData Verzeichnissen, wieder zum laufen gebracht habe, hatte ich die Updates nicht mehr durchgeführt und ausgeschaltet. (meine Version 1.05.00) Damit konnte ich die letzten Tage schon gut arbeiten.

Bis jetzt habe ich allerdings nur meine bereits vorhandene YAML Datei entsprechend dem Aufbau bzw. der Logik des Editors angepasst und zur weiteren Bearbeitung importiert. Die Logik des Konfigurators mit Verwendung der Kategorien habe ich verstanden jedoch bis jetzt nur 2 oder 3 komplett neue Regeln damit angelegt da ja schon eine Basis an Regeln vorhanden war.
Meine Fokus lag bisher vor allem darauf die vorhandenen Regeln weiter zu optimieren gerade in Bezug aufs Taggens bzw. Umbenennen unter Verwendung von Regex Ausdrücken, diese Möglichkeit kannte ich noch nicht oder war zum damaligen Zeitpunkt noch nicht implementiert.
Im Prinzip wurden im Nachgang einige Einzelregeln ergänzt und vorhanden nochmals modifiziert. Der Großteil entspricht nun deiner Empfehlung aus obigem Post somit auch der Logik die sich aus dem Konfigurator ergibt. Wenn man es verstanden hat macht das so auf jeden Fall Sinn, zumindest ist das meine bisherige Erkenntnis. Ansonsten hat mir funktional am Configurator bisher noch nichts gefehlt noch habe ich etwas vermisst, einfach Klasse.

Des Weiteren hatte ich mich auch lange mit dem Thema Betreff als Tag wie hier im Post #16 beschäftigt. Grundsätzlich habe ich eine Regex gebastelt die für mich in den meisten Fällen bis jetzt funktioniert hat. So ganz sauber oder optimal ist diese laut Regextester noch nicht und führt auch je nach länge des Textes zum "Catastrophic Backtracking" Ich habe kein Plan wie die REGEX aussehen müsste dass diese wirklich korrekt ist und mir den Text/Inhalt zwischen Leerzeile und z.B. "Sehr geehrter...." ausgibt. Auch hatte ich durch Zufall einen Fehler dass im Betreff ein % vor kam und in den Dateinamen geschrieben wurde, damit hat dann die Diskstation ein Problem und musste umbenannt werden. Wie und an welcher Stelle könnte ich solche sonder Zeichen ausließen, geht das?

hier mal meine Regex

Code:

(?i)(?<=)(\N+\n|\S)(\N+\n|\S)\N+\S?(?=\n*(Sehr geehrte.|Guten Tag|Hallo Frau|Liebe Mitarbeiter.*\s))

Dieserfunktioniert auch bei meinem bisherigen längsten Betreff mit 5 Zeilen wobei ich eigentlich nur die Oberste Zeile benötigen würde, ich habe hier allerdings festgestellt dass der Tag automatisch durch synOCR??? gekürzt wird.

Code:

service@sparkassenversicherung.de
Mannheim, 02.10.2015




Wachstum des Versicherungsschutzes
SV Rentenversicherung Nr. 54321
Bisherige Versicherungs-Nr. 12345
Versicherungsnehmer und versicherte Person:
Name, Straße 99,54321 Stadt




Sehr geehrter Herr....

das zu Ihrer Versicherung vereinbarte Wachstum der Beiträge bewirkt, dass sich auch der

Besten Dank schonmal Vorab!
Chris

Struppix · 04. Jan 2024

Hallo Chris,

vielen Dank für Dein umfassendes Feedback. Bisher das am umfassendste

Das mit dem Update Fehler tut mir leid. Da die Fehlermeldungen eher unspezifisch sind vermute ich mal, dass Du Dir einfach nur den Editor zerschossen hattest. In dem Fall hätte ein Export und ein neu Laden in einer frischen Version* reichen sollen. Aber vielleicht liegt es auch an der virtuellen Maschine.
Ein Hinweis hierzu. Soweit ich mich erinnere sind dann die Laufwerke nur quasi links (zb. via smb Freigabe), richtig? Damit hat dann Excel vermutlich Probleme, darauf zuzugreifen. Hier sind harte mounts bzw. feste Netzwerkadressen der bessere Weg. Installationsanleitung Seite 4
*Immer daran denken sich die original Variante aufzuheben.

Zu dem Thema mit der Suche im Betreff schicke mir mal mehr "Futter" (siehe mein Signatur), dass müsste ich mir genauer anschauen.

Chr!s schrieb:
Dieserfunktioniert auch bei meinem bisherigen längsten Betreff mit 5 Zeilen wobei ich eigentlich nur die Oberste Zeile benötigen würde, ich habe hier allerdings festgestellt dass der Tag automatisch durch synOCR??? gekürzt wird.

Ja das ist leider korrekt.

Liebe Grüße
Karsten

Chr!s · 04. Jan 2024

Hallo Karsten, Danke auch an dieser Stelle für deine Hinweise. Excel läuft schon lokal nur halt auf einem eher schwachbrüstigen ThinClient mit jungfreulichem Windows 10 Professional. Ich greife nur über Remotdesktop darauf zu weil ich nicht noch einen weiteren Rechner mit Maus, Tastatur und Bildschirm auf dem Schreibtisch aufbauen kann, ausserdem habe ich so auch Zugriff von Unterwegs was während der letzten Tage ganz praktisch war. Da der Editor für mich gerade gut funktioniert verschiebe ich die Fehlersuche noch etwas bis ich meine Dokumente in Ordnung habe aber für die Zukunft möchte natürlich gerne auch Up to Date bleiben.

bezgl. mehr Futter... Ich lade dir mal das Bsp. mit dem % im Betreff hoch oder benötigst du etwas Konkretes?

Grüße Chris

Struppix · 05. Jan 2024

Chr!s schrieb:
Des Weiteren hatte ich mich auch lange mit dem Thema Betreff als Tag wie hier im Post #16 beschäftigt. Grundsätzlich habe ich eine Regex gebastelt die für mich in den meisten Fällen bis jetzt funktioniert hat. So ganz sauber oder optimal ist diese laut Regextester noch nicht und führt auch je nach länge des Textes zum "Catastrophic Backtracking" Ich habe kein Plan wie die REGEX aussehen müsste dass diese wirklich korrekt ist und mir den Text/Inhalt zwischen Leerzeile und z.B. "Sehr geehrter...." ausgibt. Auch hatte ich durch Zufall einen Fehler dass im Betreff ein % vor kam und in den Dateinamen geschrieben wurde, damit hat dann die Diskstation ein Problem und musste umbenannt werden. Wie und an welcher Stelle könnte ich solche sonder Zeichen ausließen, geht das?

Hallo Chris,
das % Zeichen dort herauszubekommen über eine RegEx in Kombination mit unserem synOCR und dessen grep geht leider nicht. Dazu hatte ich ja schon diverses ausgeführt. Dazu müssten wir etwas zerlegen und wieder zusammensetzen können.
Wie oft kommt denn das vor?
Was Du machen kannst findest Du in unserem YT Kanal Nummer 7.
Verwende dort statt dem Leerzeichen einfach das %.

"Catastrophic Backtracking"

Hierzu nur kurz, Du musst einfach mal versuchen den Such Algorithmus zu vereinfachen, um die Systemlast zu reduzieren und die Performance zu steigern. Sie hierzu auch das wiki.

Versuche mal

Code:

(?i)(?<=)(\N+?\.|\S)(\N+?\.|\S)\N*\S?(?=\n+?(Sehr geehrte.*|Guten Tag|Hallo (Frau|Herr)|Liebe.* Mitarbeiter.*\s+?))

Die Steigerung ist schon sehr ordentlich.

Gruß
Karsten

guidovg · 28. Jan 2024

Hallo, ich versuche gerade mich in das Tagging von SynOCR einzuarbeiten. Als erste teste ich nun an den Schreiben von meiner Versicherung.
Mit folgender Regel finde ich nun die Dokumente anhand der eindeutigen Versicherungsnummer (XX YYY ZZZ).

YAML:

rule_1002:
    tagname: Versicherung_
    tagname_RegEx: (?|\d{2}\s\d{3}\s\d{3})
    condition: any
    subrules:
    - searchstring: (?|Versicherung)
      searchtyp: contains
      isRegEx: true
      source: content
    - searchstring: (?|\s*\d{2}\s\d{3}\s\d{3})
      searchtyp: contains
      isRegEx: true
      source: content

Die Dokumente werden auch gefunden, nur leider habe ich damit auch die Leerzeichen aus der Versicherungsnummer im Dateinamen. Gibt es eine Möglichkeit, gefundene Leerzeichen durch einen Unterstrich zu ersetzen?

Anstelle von 2024-01-01_12 345 678.pdf hätte ich gerne 2024-01-01_12_345_678.pdf.

Struppix · 28. Jan 2024

Hallo,

natürlich geht dies. Hierzu einfach mal in unseren Youtube Kanal schauen.

Außerdem der Link aus der Videobeschreibung mit einem kurzen Erklärvideo und eine Howto Datei.

Bei Fragen einfach melden.

Gruß Karsten

guidovg · 28. Jan 2024

Hallo,

besten Dank, da hatte ich aber wohl die ganz dunkle Sonnenbrille auf als ich heute bei YouTube geschaut habe.

Gruß Guido

Yippie · 04. Feb 2024

Bräuchte wieder Mal Unterstützung bei einer RegEx. Folgender Text wurde im PDF extrahiert:

8. Januar 2024
Jahreskontoauszug für den Zeitraum 01.01.2023 - 31.12.2023 Seite 1 von 2
Pramiensparen flexibel 6353534555

Mein tagname_RegEx sieht wie folgt aus, siehe auch regex101.com

tagname_RegEx: (?i)(Jahreskontoauszug)(?:.+)((?:19|20)\d{2})(?:.+\s+?)(Pr.miensparen flexibel)\s+?(\d{8,12})

Für meine Zwecke würde ich gerne aus diesem RegEx die vier Gruppen für den Dateinamen verwenden:

Der Dateiname sollte also die Wörter/den Namen "Jahreskontoauszug 2023 Pramiensparen flexibel 6353534555" erhalten.
Ich habe ja letztendlich vier Gruppen ermittelt. Wie muss ich die RegEx ergänzen, damit ich exakt diese vier Gruppen erhalte?

Geht das so überhaupt?

Danke,
Michael

SPK001:
tagname: "§yocr4-§mocr-§docr Jahreskontoauszug §tagname_RegEx"
tagname_RegEx: (?i)(Jahreskontoauszug)(?:.+)((?:19|20)\d{2})(?:.+\s+?)(Pr.miensparen flexibel)\s+?(\d{8,12})
targetfolder: /Sparkasse/
condition: all

Struppix · 04. Feb 2024

Yippie schrieb:
Geht das so überhaupt?

Hallo Michael,

das geht, aber leider nicht in einer Regel, da wie beschrieben wir ja nur eine Kommandozeile haben und so zusammenhängende Suchbegriffe nicht ausgeben können.

Wenn die weiteren Treffer im Dokument, also Jahreskontoauszug und Prämiensparen flexibel keine festen / immer wiederkehrenden Begriffe sind, musst Du für die jeweils weitere Regeln ergänzen

Wichtig: Bitte unbedingt BEACHTEN. Bitte füge Dir mindestens eine weitere Subregel hinzu, die das Dokument eindeutig zuordnet, zB Kontonummer. Ansonsten matched die Regel bei Sparkasse immer, und produziert zu mindestens unnötig Fehlermeldungen.

Code:

# synOCR_YAMLRULEFILE   # keep this line!


rule_1001:
    tagname: §yocr4-§mocr-§docr Jahreskontoauszug §tagname_RegEx
    tagname_RegEx: (?i)(Jahreskontoauszug)(?:.+)\K((19|20)\d{2})
    condition: all
    subrules:
    - searchstring: Sparkasse
      searchtyp: contains


rule_1002:
    tagname: Praemiensparen flexibel §tagname_RegEx
    tagname_RegEx: (?i)(Pr.?miensparen flexibel)\s+?\K((\d{8,12}))
    condition: all
    subrules:
    - searchstring: Sparkasse
      searchtyp: contains

Mein Testfile:

Meine Ausgabe:

Gruß Karsten

Yippie · 04. Feb 2024

Aha! Solche Tricks hast du drauf

aber Hauptsache es funktioniert! Habs jedoch noch nicht getestet.

Yippie · 04. Feb 2024

Muss leider nochmals nachhaken, weil ich deinen Tipp befolgen und zusätzliche Rules aufnehmen wollte.
synOCR erkennt folgenden Text:

9. Januar 2023
Jahreskontoauszug für den Zeitraum 01.01.2022 - 31.12.2022 Seitelvon2
= Prämiensparen flexibel 22342342

wo auch immer das = Zeichen herkommt...

Folgende Regel SPK002 existiert (neben einer zweiten SPK001 so wie von dir oben vorgeschlagen), aber bei beiden funktioniert die Subrule mit dem RegEx nicht:

SPK002:
tagname: Prämiensparen flexibel §tagname_RegEx
tagname_RegEx: (?i)(Pr.?miensparen\s+?flexibel)\s+?\K((\d{8,12}))
targetfolder: /Sparkasse/
condition: all
subrules:
- searchstring: Sparkasse
searchtyp: contains
isRegEx: false
source: content
casesensitive: true
- searchstring: (?i)(Pr.?miensparen\s+?flexibel)
searchtyp: contains
isRegEx: true
source: content
- searchstring: Jahreskontoauszug
searchtyp: contains
isRegEx: false
source: content
casesensitive: false

search by tag rule: "SPK002" ➜
➜ condition: all
➜ tag: Prämiensparen flexibel §tagname_RegEx
➜ destination: /Sparkasse/
➜ RegEx for tag: (?i)(Pr.?miensparen\s+?flexibel)\s+?\K((\d{8,12}))
➜ multilineregex: [value for multilineregex is empty - "false" is used]
[Subrule]:
[value for multilineregex is empty - "false" is used]
>>> search for: Sparkasse
isRegEx: false
searchtype: contains
source: content
casesensitive: true
multilineregex: false
grep parameter:
➜ Subrule matched
[value for casesensitive is empty - "false" is used]
[value for multilineregex is empty - "false" is used]
>>> search for: (?i)Pr.?miensparen\s+?flexibel
isRegEx: true
searchtype: contains
source: content
casesensitive: false
multilineregex: false
grep parameter: i
➜ Subrule don't matched
>>> Rule is not satisfied

Wenn ich das RegEx in regex101.com mit obigen erkannten Text teste, so stimmt das Ergebnis, der Text wird gefunden.

(?i)(Pr.?miensparen\s+?flexibel)

Nur synOCR kann das RegEx nicht auflösen! Sehe ich den Wald vor lauter Bäumen nicht?

Struppix · 04. Feb 2024

Dein Rechner scheint Probleme mit Umlauten zu haben, wenn ich das richtig sehe. Muss ich mir morgen mal anschauen.

Lass mal die subregel weg. Wenn er dann "Prämiensparen flexibel §tagname_RegEx" ausgibt ist dem wohl so.

Yippie · 04. Feb 2024

Die Frage ist, welcher Rechner? Du meinst den Windows PC, richtig? Also zum Editieren der YAML Datei verwende ich Notepad++ und ich denke dieses erkennt die Datei als Linux File. Hab den PC grad nicht mehr am Laufen.

Ach ja, Notepad++! Ich poste zwar in diesem Thread aber nutze nicht deinen Excel Editor. Thematisch passt dies halt hier gut rein...

Nichtsdestotrotz, ist ja an der Stelle, wo eigentlich das Ä sitzen soll, ja ohnehin der "Platzhalter" vorhanden, von daher sollte es ja keine Rolle spielen ob der PC Probleme mit Umlauten hat.
synOCR (Habe verschiedene Docker Images getestet) erkennt im PDF nicht immer das Ä. Von daher passt.? im regulären Ausdruck schon ganz gut.

Ich habe tatsächlich bereits die subrule gekürzt auf:

(?i)(sparen\s+?flexibel)

und damit klappts auch.

Apropos, das gleiche musste ich auch im tagname_regex machen, denn auch dort wird der RegEx nicht (mehr) erkannt.

Struppix · 05. Feb 2024

Yippie schrieb:
Die Frage ist, welcher Rechner?

Hallo Michael,
nein ich meinte natürlich Dein NAS. Letztlich ist das ja nichts anderes, aber etwas unglücklich ausgedrückt.

Das lässt darauf schließen, dass das NAS Probleme mit der Codepage hat. Gut Problem ist wiederum auch wieder nicht die richtige Umschreibung. Dies kann ua. dadurch entstehen, dass wenn die Platten auf ein neues NAS migriert worden sind, und die alte DSM Version ein "paar" Tage älter war. Frag jetzt nicht wie man das umstellen / ändern kann. Hierzu habe ich bisher keinen wirklich funktionierenden Weg gefunden.
Wenn jemand die Lösung kennt, gerne hier mal verlinken oder kurz beschreiben. Danke

Kurzum schaue bitte mal mittels Konsole und dem user admin / root in Dein Standard Output Verzeichnis des synOCR. Sollten da noch andere Kandidaten mit Sonderzeichen vorhanden sein, die Du nicht mit der Filestation sehen kannst, dann ist dem wohl so.

Das mit dem Kürzen der beiden RegEx ist der einfachste Weg. Eine Frage: Wird der Umlaut denn richtig im Filenamen ausgegeben, also auf der Konsole?
Man kann natürlich das Thema der Umlaute / Sonderzeichen im Zusammenhang mit synOCR, sagen wir mal umgehen. Dies ist aber nur durch Editierung von Programm Dateien möglich, und damit nichts für diesen Thread.

Gruß
Karsten

Yippie · 05. Feb 2024

Struppix schrieb:
Das mit dem Kürzen der beiden RegEx ist der einfachste Weg. Eine Frage: Wird der Umlaut denn richtig im Filenamen ausgegeben, also auf der Konsole?

Ja, alle Dateienamen sind korrekt, auch solche mit dt. Umlauten und Sonderzeichen generell.

Das Einzige was noch in diese Richtung verweisen würde ist, wie ich hier in der Log-Ausgabe bemerkt habe:

run user defined post scripts:
➜ postscript_SPK002_236424386
chown: changing ownership of '/volume2/homes/@DH-DOMAIN/0/michael-5/##Dokumente/!Sparkasse/Pr'$'\303\244''miensparen/.': Operation not permitted

Das Log gibt hier auch den Buchstaben Ä encoded aus:

Pr'$'\303\244''miensparen

Auch schon etwas seltsam. Ich denke der Eintrag im Log wird dabei 1:1 aus der YAML-Datei zitiert. Dies wiederum würde darauf hinweisen, das die Datei möglicherweise ein Codepage-Problem hat und damit auch die RegEx nicht korrekt funktionieren wird. Aber nur, wenn ich tatsächlich auch in der Regel das Ä verwenden würde.

Aktuell nutze ich das ä/Ä jedoch nicht:

(?i)(Pr.?miensparen\s+?flexibel)

Möglicherweise sind aber noch weitere, nicht codepagekonforme Zeichen in der RegEx vorhanden. Da ja offensichtlich

(?i)(sparen\s+?flexibel)

funktioniert, sind dies ggf. die Zeichen vor dem Wort sparen.

Ich muss dies jetzt alles nochmals prüfen, komme jedoch nicht vor Abend dazu...

Yippie · 05. Feb 2024

Kurze Rückmeldung: Die YAML Datei ist lt. Notepad++ im Linux/Unix-Format und obendrein UTF-8.
Sollte somit alles OK sein.

Habe nun noch

(?i)(miensparen\s+?flexibel)

was ebenfalls erkannt wurde und dann wiederum

(?i)(Pr.?miensparen\s+?flexibel)

was nicht erkannt wurde.

Habe zwischenzeitlich die YML-Datei im Windows Notepad per Copy und Paste aus Notepad++ kopiert und dann wieder zurück.
Dann nochmals in den Synology Texteditor, ebenfalls per Copy und Paste aus NPP, kopiert.

Aber keine weitere Erfolge erzielt. Ich belasse jetzt das RegEx nun auf weils ja korrekt funktioniert.

(?i)(miensparen\s+?flexibel)

Da die RegEx einen bzw. mehrere mögliche Buchstaben zwischen Pr und miensparen außer Acht lässt, gehe ich davon aus, dass die Texterkennung hier ein Problem macht und möglicherweise das Pr nicht richtig verarbeiten kann.

Btw.

(?i)(.?miensparen\s+?flexibel)

funktioniert ebenfalls ;-)

Struppix · 05. Feb 2024

Also wenn er das ä findet dann versuche es mal so

Code:

(?i)(Pr.*?miensparen)\s+?(flexibel)

Edit: geht auch nicht

Yippie · 06. Feb 2024

Struppix schrieb:
Edit: geht auch nicht

Bedeutet dies, dass du das Problem nachstellen konntest?

Struppix · 06. Feb 2024

Guten Morgen,

natürlich konnte ich das. Nur ganz nachvollziehen kann ich es noch nicht.

Gruß Karsten

Yippie · 06. Feb 2024

Ich habe den debug-level von synOCR immer auf den Wert 2 gestellt und dabei dumpt synOCR ja auch den im PDF erkannten Text in eine .txt Datei.

Wenn ich dann in der Shell, auf der Synology, mittels des im Wiki aufgezeigten grep Kommandos, das RegEx auf die Datei loslasse, so findet der Befehl einen Treffer, wie erwartet.

grep -Pzi "(?i)(Pr.?miensparen\s+?flexibel)" "dump.txt"

Also kann es eigentlich nicht direkt am Inhalt der PDF bzw. am erkannten Text liegen, oder?

synOCR synOCR - Aufbau einer YAML Datei - Verwendung Regulärer Ausdrücke

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat