synOCR synOCR - GUI für OCRmyPDF

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
856
Punkte für Reaktionen
160
Punkte
63
Moin Stephan,

danke für den Tipp. Ich will die innerfamiliären Akzeptanzprobleme klein und die Bedienung so einfach wie möglich halten. Mein Brother ADS 1700 W liegt noch verpackt in der Ecke. Ich glaube, der kann mehrere Profile. Ich probiere das demnächst aus.

Also auf dem Scanner ein zweites Scanprofil anlegen und auf dem NAS ebenfalls ein zweites Synocr-Profil, das dann vom Scanner gefüttert wird? Die Synocr-Profile werden ja automatisch nacheinander abgearbeitet, richtig? Reicht es, wenn das zweite Synocr-Profil lediglich einen eigenen Input-Ordner hat und die ocr-ten-Dokumente per YAML-Regel in einen eigenen Unterordner im gemeinsamen Out-put-Ordner ablegt? Und bestenfalls auch den log- und Backup-Ordner des ersten Profils mitbenutzt?

Schönes Wochenende

Ansgar
Geht alles so wie Du schreibst. Der Brother hat denke ich 20 Profile, und eben so viele Schnelltasten, wobei jew. 4 auf dem Display sind. Ansonsten muss man nach li/re blättern.

Gruß Karsten
 
  • Like
Reaktionen: adallmo

c0smo

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
08. Mai 2015
Beiträge
6.637
Punkte für Reaktionen
1.195
Punkte
254
Irgendwie läuft es seit dem letzten Update nicht mehr geschmeidig. Hängt sich bei jedem Vorgang auf und muss neu gestartet werden.
Konnte das noch jemand beobachten?
Kanns nicht festmachen woran es liegt.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
856
Punkte für Reaktionen
160
Punkte
63
Bei mir läuft alles stabil. Habe die letzte Beta im Einsatz. Was benutzt Du?

Was mir einbilde, wie gesagt nur einbilde, dass die Erkennungsrate in den Randbereichen schlechter geworden ist. Oder war das schon immer so?

Gruß Karsten
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Ich gehe hier von einem Fehler mit OCRmyPDF aus (dessen Container sich aufhängt) und wir stehen in Kontakt. Ursache und Lösung für diesen Fall ist aber noch nicht gefunden.
 
  • Like
Reaktionen: Gthorsten

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Hallo,

ich brauche nochmal Eure Hilfe:

Die ärztlichen Befunde von meiner Frau und mir sollen getrennt in einen Ordner "Gesundheit" abgelegt werden. Der Name muss also immer als searchstring enthalten sein, verschiedene andere Begriffe wie "Befund", "Labor" oder "Vorsorge" sollen nur jeweils in Kombination mit dem Namen die Zuordnung auslösen. Dieser Fall ist mit condition all, any, oder none nicht abzubilden.

Muss für jeden Begriff eine eigene Regel erstellt werden oder git es eine YAML-Regel, die diese Bedingungen erfüllt? Ein searchstring aus Begriff (Befund, Labor,..) und Name funktioniert leider nicht, vermutlich weil Begriff und Name nicht in einer Zeile stehen.

Sorry, ich habe einen Knoten im Hirn.

Danke, schöne Grüße

Ansgar
 

Benares

Benutzer
Sehr erfahren
Mitglied seit
27. Sep 2008
Beiträge
12.250
Punkte für Reaktionen
2.845
Punkte
423
Sag mal, wie viele "ärztliche Befunde" kommen denn da so pro Stunde?
Lohnt es sich wirklich, wesentlich mehr Zeit für eine automatische Einordnung zu investieren, anstatt das einfach manuell zu machen?
 

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
94
Punkte für Reaktionen
18
Punkte
14
Dazu möchte ich noch anmerken, dass ich mit synOCR jetzt auf Github umgezogen bin. Das betrifft auch das Wiki. Das alte Repo bleibt aber zunächst noch erreichbar, damit Verlinkungen auf Code in diesem Thread gültig bleiben.
Und du hast das yaml-wiki noch um einiges erweitert. Coole Sache :)
Frage dazu. Bei den Regex-Beispiel hast du manchmal "searchtyp: is" und manchmal "searchtyp: contains" verwendet. Gibt bei der Verwendung von Regex zwischen den beiden einen Unterschied?
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
856
Punkte für Reaktionen
160
Punkte
63
Hallo,

ich brauche nochmal Eure Hilfe:

Die ärztlichen Befunde von meiner Frau und mir sollen getrennt in einen Ordner "Gesundheit" abgelegt werden. Der Name muss also immer als searchstring enthalten sein, verschiedene andere Begriffe wie "Befund", "Labor" oder "Vorsorge" sollen nur jeweils in Kombination mit dem Namen die Zuordnung auslösen. Dieser Fall ist mit condition all, any, oder none nicht abzubilden.

Muss für jeden Begriff eine eigene Regel erstellt werden oder git es eine YAML-Regel, die diese Bedingungen erfüllt? Ein searchstring aus Begriff (Befund, Labor,..) und Name funktioniert leider nicht, vermutlich weil Begriff und Name nicht in einer Zeile stehen.
Hey Ansgar,
das geht schon. Wieviele Regeln Du brauchst, hängt von der Anzahl der Suchbegriffe ab. So wie Du schreibst denke ich mal 4.
Ich bastle Dir gleich was.

Sag mal, wie viele "ärztliche Befunde" kommen denn da so pro Stunde?
Lohnt es sich wirklich, wesentlich mehr Zeit für eine automatische Einordnung zu investieren, anstatt das einfach manuell zu machen?
Manchmal geht es doch nur darum, es zu lösen.

Karsten
 
  • Like
Reaktionen: Gulliver und adallmo

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
856
Punkte für Reaktionen
160
Punkte
63

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Sag mal, wie viele "ärztliche Befunde" kommen denn da so pro Stunde?
Lohnt es sich wirklich, wesentlich mehr Zeit für eine automatische Einordnung zu investieren, anstatt das einfach manuell zu machen?
Eigene Unterordner für jeden Ehepartner machen das gesamte Archiv meiner Meinung nach übersichtlicher, das gilt nicht nur für ärztliche Befunde.
Außerdem kann ich mir nicht vorstellen, dass sowas nicht möglich ist. Nachdem die Archivierung dank der Hilfe aus dem Forum grundsätzlich schon gut funktioniert, möchte ich noch weiteres finetuning machen.
 

DeeKay1

Benutzer
Mitglied seit
20. Jun 2020
Beiträge
94
Punkte für Reaktionen
18
Punkte
14
@Struppix
Danke, ich kann lesen ;)
Bitte auch meine Frage genau lesen. Mir ist klar was der Unterschied zwischen "is" und "contains" ist - zumindest bei einer Nicht-Regex-Suche.
Bei einer Regex-Suche macht es, meiner Meinung nach, aber keinen Unterschied ob man mit "is" oder "contains" sucht, da der Reguläre Ausdruck entweder matched oder nicht matched.
Daher auch meine Frage: Wo ist der Unterschied in der Regex-Verarbeitungsengine innerhalb von synOCR zwischen "searchtyp: is" und "searchtyp: contains"?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Und du hast das yaml-wiki noch um einiges erweitert. Coole Sache :)
Der Fleißige hier war @Struppix :)

Frage dazu. Bei den Regex-Beispiel hast du manchmal "searchtyp: is" und manchmal "searchtyp: contains" verwendet. Gibt bei der Verwendung von Regex zwischen den beiden einen Unterschied?
Derzeit kannst du das durchaus (im begrenzten Maß) kombinieren. Gerade für Einsteiger mag das hilfreich sein, die via simpler RegEx lediglich einfache Regeln erstellen möchten. Aber mir ist andererseits auch das gewisse Maß an Inkonsistenz bewusst. Ich hatte schon mal überlegt, das zu ändern. Aber ich sehe das jetzt auch nicht direkt kritisch.
 

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Hallo,

meine SynOCR-Installation funktioniert mittlerweile prima. Vielen Dank nochmal für die Software und den klasse Support hier!

Gelegentlich bleiben einzelne pdf-Dateien im Input-Ordner von SynOCR hängen und werden nicht von SynOCR bearbeitet. Das betrifft hauptsächlich pdf-E-Mail-Anhänge, die ich händisch aus dem E-Mail-Postfach meines iPhones in den input-Ordner auf dem NAS kopiere.

Hier sind meine OCR-Optionen: -frd -l deu+eng. An einem evtl. bereits vorhandenen OCR-Layer kann es also nicht liegen.

Welche weiteren Gründe für dieses Verhalten kann es geben?

Danke, schöne Grüße!

Ansgar
 
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Ohne Log kann ich da nicht viel sagen.
  • Hast du einen Suchpräfix definiert, der z.B. vom Scanner immer davor gesetzt wird und der bei deinen Mailanhängen fehlt?
  • In dem Fall, dass die Datei im Quellordner verbleibt: wie sieht das Statussymbol in synOCR aus? (eine blaue Sanduhr oder ein grüner Haken)
 

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Moin Stephan,

ich habe dir die letzte log-Datei hochgeladen. Den upload von heute Nacht ignoriere bitte.

synOCR zeigt die blaue Sanduhr. Monitoring beenden oder neustarten brauchte keine Besserung. Die Suchpräfixe stimmen.

Mit dem Dokumentenscanner eingescannte pdf-Dateien scheinen problemlos bearbeitet zu werden. Importierte pdf´s aus dem E-Mail-Posteingang, der Scan-APP (Scanner pro auf dem iPhone) oder aus Internet-Kundenportalen bleiben unregelmäßig entweder im Posteingang hängen oder liegen ohne getagten Suchpräfix unsortiert im Zieloberordner.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Du beschreibst ein seltsames Verhalten :unsure:

Also dein Log von 7:37 Uhr ist unvollständig, bzw. es endet VOR OCRmyPDF.
Läuft in dieser Situation der synOCR-Container noch in Docker?
 

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Ich habe dir nochmal ein aktuelles Log von 13:00 Uhr hochgeladen. Im Docker läuft kein synOCR. Im Paketzentrum ist es installiert und lässt sich öffnen, akutell mit der Sanduhr...
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Was ich sehe, ist dieser OCR Fehler im Log:
PIL.Image.DecompressionBombError: Image size (271056400 pixels) exceeds limit of 256000000 pixels, could be decompression bomb DOS attack.
Den gab es letztens schon öfters, aber das ist eine Sache von OCRmyPDF.
  1. Brauchst du den Parameter -f (force) unbedingt in den OCR-Parametern? Standard steht dort -s (skip text).
  2. Eigentlich sollte jetzt im Quellordner ein Unterordner vorhanden sein, in dem die ursprüngliche Quelldatei verschoben wurde (weil sie nicht verarbeitet werden konnte)
    Ist das so?
  3. Zu deinem anderen Problem, "hängen oder liegen ohne getagten Suchpräfix unsortiert im Zieloberordner." kann ich noch gar keine Verbindung ziehen. Für diesen Fall bräuchte ich auch einen Log
 

adallmo

Benutzer
Mitglied seit
28. Mrz 2018
Beiträge
14
Punkte für Reaktionen
3
Punkte
3
Die Logs enthalten alle die obige Fehlermeldung OCRmyPDF betreffend. Nach Ändern der ORC-Regel von -f auf -s wurde die pdf, die im Quellordner hängen geblieben ist, verarbeitet und in den Zielordner verschoben. Ein Unterordner im Quellordner war nicht vorhanden. synOCR hat jetzt wieder einen grünen Haken als Statussymbol :)

Leider funktioniert die Sortierung in die passenden Ordner trotz enthaltenem Suchpräfix nicht immer. Die OCR-Layer-Erstellung scheint zu funktionieren, nur das Abspeichern in die passenden Ordner nicht. Ich habe den Eindruck, dass das vor allem bei den pdf vorkommt, die nicht durch den Dokumentenscanner in den Quellordner gelangen. Ich habe dir meinen code aus dem Quellordner geschickt. Fällt dir da etwas auf?

Schöne Grüße

Ansgar
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat