synOCR synOCR - GUI für OCRmyPDF

Struppix · 18. März 2023

adallmo schrieb:
Moin Stephan,

danke für den Tipp. Ich will die innerfamiliären Akzeptanzprobleme klein und die Bedienung so einfach wie möglich halten. Mein Brother ADS 1700 W liegt noch verpackt in der Ecke. Ich glaube, der kann mehrere Profile. Ich probiere das demnächst aus.

Also auf dem Scanner ein zweites Scanprofil anlegen und auf dem NAS ebenfalls ein zweites Synocr-Profil, das dann vom Scanner gefüttert wird? Die Synocr-Profile werden ja automatisch nacheinander abgearbeitet, richtig? Reicht es, wenn das zweite Synocr-Profil lediglich einen eigenen Input-Ordner hat und die ocr-ten-Dokumente per YAML-Regel in einen eigenen Unterordner im gemeinsamen Out-put-Ordner ablegt? Und bestenfalls auch den log- und Backup-Ordner des ersten Profils mitbenutzt?

Schönes Wochenende

Ansgar

Geht alles so wie Du schreibst. Der Brother hat denke ich 20 Profile, und eben so viele Schnelltasten, wobei jew. 4 auf dem Display sind. Ansonsten muss man nach li/re blättern.

Gruß Karsten

c0smo · 18. März 2023

Irgendwie läuft es seit dem letzten Update nicht mehr geschmeidig. Hängt sich bei jedem Vorgang auf und muss neu gestartet werden.
Konnte das noch jemand beobachten?
Kanns nicht festmachen woran es liegt.

Struppix · 19. März 2023

Bei mir läuft alles stabil. Habe die letzte Beta im Einsatz. Was benutzt Du?

Was mir einbilde, wie gesagt nur einbilde, dass die Erkennungsrate in den Randbereichen schlechter geworden ist. Oder war das schon immer so?

Gruß Karsten

geimist · 19. März 2023

Ich gehe hier von einem Fehler mit OCRmyPDF aus (dessen Container sich aufhängt) und wir stehen in Kontakt. Ursache und Lösung für diesen Fall ist aber noch nicht gefunden.

adallmo · 19. März 2023

Hallo,

ich brauche nochmal Eure Hilfe:

Die ärztlichen Befunde von meiner Frau und mir sollen getrennt in einen Ordner "Gesundheit" abgelegt werden. Der Name muss also immer als searchstring enthalten sein, verschiedene andere Begriffe wie "Befund", "Labor" oder "Vorsorge" sollen nur jeweils in Kombination mit dem Namen die Zuordnung auslösen. Dieser Fall ist mit condition all, any, oder none nicht abzubilden.

Muss für jeden Begriff eine eigene Regel erstellt werden oder git es eine YAML-Regel, die diese Bedingungen erfüllt? Ein searchstring aus Begriff (Befund, Labor,..) und Name funktioniert leider nicht, vermutlich weil Begriff und Name nicht in einer Zeile stehen.

Sorry, ich habe einen Knoten im Hirn.

Danke, schöne Grüße

Ansgar

Benares · 19. März 2023

Sag mal, wie viele "ärztliche Befunde" kommen denn da so pro Stunde?
Lohnt es sich wirklich, wesentlich mehr Zeit für eine automatische Einordnung zu investieren, anstatt das einfach manuell zu machen?

DeeKay1 · 19. März 2023

geimist schrieb:
Dazu möchte ich noch anmerken, dass ich mit synOCR jetzt auf Github umgezogen bin. Das betrifft auch das Wiki. Das alte Repo bleibt aber zunächst noch erreichbar, damit Verlinkungen auf Code in diesem Thread gültig bleiben.

Und du hast das yaml-wiki noch um einiges erweitert. Coole Sache

Frage dazu. Bei den Regex-Beispiel hast du manchmal "searchtyp: is" und manchmal "searchtyp: contains" verwendet. Gibt bei der Verwendung von Regex zwischen den beiden einen Unterschied?

Struppix · 19. März 2023

adallmo schrieb:
Hallo,

ich brauche nochmal Eure Hilfe:

Die ärztlichen Befunde von meiner Frau und mir sollen getrennt in einen Ordner "Gesundheit" abgelegt werden. Der Name muss also immer als searchstring enthalten sein, verschiedene andere Begriffe wie "Befund", "Labor" oder "Vorsorge" sollen nur jeweils in Kombination mit dem Namen die Zuordnung auslösen. Dieser Fall ist mit condition all, any, oder none nicht abzubilden.

Muss für jeden Begriff eine eigene Regel erstellt werden oder git es eine YAML-Regel, die diese Bedingungen erfüllt? Ein searchstring aus Begriff (Befund, Labor,..) und Name funktioniert leider nicht, vermutlich weil Begriff und Name nicht in einer Zeile stehen.

Hey Ansgar,
das geht schon. Wieviele Regeln Du brauchst, hängt von der Anzahl der Suchbegriffe ab. So wie Du schreibst denke ich mal 4.
Ich bastle Dir gleich was.

Benares schrieb:
Sag mal, wie viele "ärztliche Befunde" kommen denn da so pro Stunde?
Lohnt es sich wirklich, wesentlich mehr Zeit für eine automatische Einordnung zu investieren, anstatt das einfach manuell zu machen?

Manchmal geht es doch nur darum, es zu lösen.

Karsten

Struppix · 19. März 2023

DeeKay1 schrieb:
Und du hast das yaml-wiki noch um einiges erweitert. Coole Sache
Frage dazu. Bei den Regex-Beispiel hast du manchmal "searchtyp: is" und manchmal "searchtyp: contains" verwendet. Gibt bei der Verwendung von Regex zwischen den beiden einen Unterschied?

Schau mal da vorbei.

synOCR - Aufbau einer YAML Datei - Verwendung Regulärer Ausdrücke

adallmo · 19. März 2023

Benares schrieb:
Sag mal, wie viele "ärztliche Befunde" kommen denn da so pro Stunde?
Lohnt es sich wirklich, wesentlich mehr Zeit für eine automatische Einordnung zu investieren, anstatt das einfach manuell zu machen?

Eigene Unterordner für jeden Ehepartner machen das gesamte Archiv meiner Meinung nach übersichtlicher, das gilt nicht nur für ärztliche Befunde.
Außerdem kann ich mir nicht vorstellen, dass sowas nicht möglich ist. Nachdem die Archivierung dank der Hilfe aus dem Forum grundsätzlich schon gut funktioniert, möchte ich noch weiteres finetuning machen.

DeeKay1 · 19. März 2023

@Struppix
Danke, ich kann lesen

Bitte auch meine Frage genau lesen. Mir ist klar was der Unterschied zwischen "is" und "contains" ist - zumindest bei einer Nicht-Regex-Suche.
Bei einer Regex-Suche macht es, meiner Meinung nach, aber keinen Unterschied ob man mit "is" oder "contains" sucht, da der Reguläre Ausdruck entweder matched oder nicht matched.
Daher auch meine Frage: Wo ist der Unterschied in der Regex-Verarbeitungsengine innerhalb von synOCR zwischen "searchtyp: is" und "searchtyp: contains"?

Struppix · 19. März 2023

adallmo,

lass uns bitte mal den Thread wechseln, den ich oben gepostet habe.

Karsten

geimist · 19. März 2023

DeeKay1 schrieb:
Und du hast das yaml-wiki noch um einiges erweitert. Coole Sache

Der Fleißige hier war @Struppix

DeeKay1 schrieb:
Frage dazu. Bei den Regex-Beispiel hast du manchmal "searchtyp: is" und manchmal "searchtyp: contains" verwendet. Gibt bei der Verwendung von Regex zwischen den beiden einen Unterschied?

Derzeit kannst du das durchaus (im begrenzten Maß) kombinieren. Gerade für Einsteiger mag das hilfreich sein, die via simpler RegEx lediglich einfache Regeln erstellen möchten. Aber mir ist andererseits auch das gewisse Maß an Inkonsistenz bewusst. Ich hatte schon mal überlegt, das zu ändern. Aber ich sehe das jetzt auch nicht direkt kritisch.

adallmo · 21. März 2023

Hallo,

meine SynOCR-Installation funktioniert mittlerweile prima. Vielen Dank nochmal für die Software und den klasse Support hier!

Gelegentlich bleiben einzelne pdf-Dateien im Input-Ordner von SynOCR hängen und werden nicht von SynOCR bearbeitet. Das betrifft hauptsächlich pdf-E-Mail-Anhänge, die ich händisch aus dem E-Mail-Postfach meines iPhones in den input-Ordner auf dem NAS kopiere.

Hier sind meine OCR-Optionen: -frd -l deu+eng. An einem evtl. bereits vorhandenen OCR-Layer kann es also nicht liegen.

Welche weiteren Gründe für dieses Verhalten kann es geben?

Danke, schöne Grüße!

Ansgar

geimist · 21. März 2023

Ohne Log kann ich da nicht viel sagen.

Hast du einen Suchpräfix definiert, der z.B. vom Scanner immer davor gesetzt wird und der bei deinen Mailanhängen fehlt?
In dem Fall, dass die Datei im Quellordner verbleibt: wie sieht das Statussymbol in synOCR aus? (eine blaue Sanduhr oder ein grüner Haken)

adallmo · 22. März 2023

Moin Stephan,

ich habe dir die letzte log-Datei hochgeladen. Den upload von heute Nacht ignoriere bitte.

synOCR zeigt die blaue Sanduhr. Monitoring beenden oder neustarten brauchte keine Besserung. Die Suchpräfixe stimmen.

Mit dem Dokumentenscanner eingescannte pdf-Dateien scheinen problemlos bearbeitet zu werden. Importierte pdf´s aus dem E-Mail-Posteingang, der Scan-APP (Scanner pro auf dem iPhone) oder aus Internet-Kundenportalen bleiben unregelmäßig entweder im Posteingang hängen oder liegen ohne getagten Suchpräfix unsortiert im Zieloberordner.

geimist · 22. März 2023

Du beschreibst ein seltsames Verhalten

Also dein Log von 7:37 Uhr ist unvollständig, bzw. es endet VOR OCRmyPDF.
Läuft in dieser Situation der synOCR-Container noch in Docker?

adallmo · 22. März 2023

Ich habe dir nochmal ein aktuelles Log von 13:00 Uhr hochgeladen. Im Docker läuft kein synOCR. Im Paketzentrum ist es installiert und lässt sich öffnen, akutell mit der Sanduhr...

geimist · 22. März 2023

Was ich sehe, ist dieser OCR Fehler im Log:

PIL.Image.DecompressionBombError: Image size (271056400 pixels) exceeds limit of 256000000 pixels, could be decompression bomb DOS attack.

Den gab es letztens schon öfters, aber das ist eine Sache von OCRmyPDF.

Brauchst du den Parameter -f (force) unbedingt in den OCR-Parametern? Standard steht dort -s (skip text).
Eigentlich sollte jetzt im Quellordner ein Unterordner vorhanden sein, in dem die ursprüngliche Quelldatei verschoben wurde (weil sie nicht verarbeitet werden konnte)
Ist das so?
Zu deinem anderen Problem, "hängen oder liegen ohne getagten Suchpräfix unsortiert im Zieloberordner." kann ich noch gar keine Verbindung ziehen. Für diesen Fall bräuchte ich auch einen Log

adallmo · 22. März 2023

Die Logs enthalten alle die obige Fehlermeldung OCRmyPDF betreffend. Nach Ändern der ORC-Regel von -f auf -s wurde die pdf, die im Quellordner hängen geblieben ist, verarbeitet und in den Zielordner verschoben. Ein Unterordner im Quellordner war nicht vorhanden. synOCR hat jetzt wieder einen grünen Haken als Statussymbol

Leider funktioniert die Sortierung in die passenden Ordner trotz enthaltenem Suchpräfix nicht immer. Die OCR-Layer-Erstellung scheint zu funktionieren, nur das Abspeichern in die passenden Ordner nicht. Ich habe den Eindruck, dass das vor allem bei den pdf vorkommt, die nicht durch den Dokumentenscanner in den Quellordner gelangen. Ich habe dir meinen code aus dem Quellordner geschickt. Fällt dir da etwas auf?

Schöne Grüße

Ansgar

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat