synOCR synOCR - GUI für OCRmyPDF

geimist · 23. Jan. 2022

Aus deinem Screenshot lese ich, dass du für jeden Tag ein eigenes Profil erstellen möchtest. Ist das so?

Die Funktionsweise ist etwas anders:
Profile dienen der unterschiedlichen Konfiguration (unabhängig der Tag / Regeln). So können sich verschiedene User unterschiedliche Umgebungen 'bauen', obwohl synOCR ja nur einmal installiert ist. Im Normalfall benötigst du nur ein Profil. Es ist also einfacher, als du vermutest.

Du kannst beliebig viele Tags angeben. Wird einer davon gefunden, landet er im Dateinamen und ggf. die Datei im entsprechenden Unterordner. Mit der erweiterten Regeldatei (YAML-Datei) kann man das Ganze dann noch sehr filigraner gestalten.

Paulchen88 · 23. Jan. 2022

OK, verstanden. Jetzt, wo ich so drüber nachdenke, macht das natürlich Sinn

Mich hat nur dieser Zusatz in der Beschreibung für die Profile verleitet:
"Über die Profile kannst du beliebig viele Konfigurationen anlegen, welche alle bei jedem Programmlauf abgearbeitet werden[...]."
Dann werden die gar nicht alle abgearbeitet?

Deswegen dachte ich, ist es schlau, für jede Art von Dokument (oder zumindest die, die regelmäßig kommen) ein eigenes Profil zu erstellen.

Paulchen88 · 23. Jan. 2022

Mehrere gefundene Tags lassen sich nicht noch durch ein Zeichen trennen, oder?

geimist · 23. Jan. 2022

Paulchen88 schrieb:
"Über die Profile kannst du beliebig viele Konfigurationen anlegen, welche alle bei jedem Programmlauf abgearbeitet werden[...]."
Dann werden die gar nicht alle abgearbeitet?

Doch, aber ich denke, dass deine vorhandenen Dateien schon beim Durchlauf des Profils 'default' abgearbeitet sind und bei deinem 2. Profil keine unbearbeiteten Dateien vorhanden sind - das wird dann übersprungen.

Paulchen88 schrieb:
Mehrere gefundene Tags lassen sich nicht noch durch ein Zeichen trennen, oder?

Doch, durch den Tagkennzeichner [Tags im Dateinamen kennzeichnen] (als Standard ist da die Raute # hinterlegt - kannst du natürlich ändern).

Paulchen88 · 23. Jan. 2022

Und schon funktioniert es wie gewünscht, besten Dank!

MrNeon · 27. Jan. 2022

Ich habe auch grade mal wieder etwas rumprobiert … meine Dokumente werden ordnungegemäß gescannt und abgelegt.

Über Drive kann ich ein „Schlagwort“ eingeben und es werden mir die Dokumente angezeigt, in denen das Wort vorkommt. Wenn ich das Dokument dann öffne ist das Wort aber nicht gekennzeichnet, sprich ich muss den gesamten Text durchgehen, um das Wort zu finden. Gibt es eine Möglichekeit (Programm), was das Wort im Dokumen dann markiert? Wenn es mehrfach vorkommt auch merhfach?

Habe ich bisher nicht hinbekommen.

geimist · 27. Jan. 2022

In welchem Programm öffnest du denn dein PDF? Drive ist ja nicht wirklich ein PDF-Viewer …
In der Regel muss man dann in dem Viewer nocheinmal die Suche anstoßen: Oft geht es bei geöffnetem PDF mit Strg + F bzw. CMD + F

MrNeon · 27. Jan. 2022

Bisher nur mit Drive unter IOS (Phone / Pad) versucht. Gibts da ne empfehlenswerte App?

Gthorsten · 27. Jan. 2022

So wie Stefan es beschrieben hat geht es bei mir auch. Beim suchen im drive client zeigt er die Funde markiert an. Im. Geöffneten PDF muss man dann nochmal suchen. Das fände ich super wenn er das direkt anzeigen würde, habe aber nichts dazu gefunden. Ist ja auxh nur ein Str f zusätzlich

geimist · 27. Jan. 2022

MrNeon schrieb:
mit Drive unter IOS (Phone / Pad)

Diese Information hatten wir ja bisher nicht. In den mobilen Drive-Apps kenne ich auch keine Suchfunktion. Dann hilft es wahrscheinlich nur, das Dokument zu einer anderen App zu senden (was wiederum ziemlich umständlich ist).

MacAir13 · 27. Jan. 2022

An der Stelle vorab mein Dank für die großartige Arbeit, die hier geleistet wird, um das Tool zur Verfügung zu stellen.

Das vorgegebene Setup (default) hat funktioniert, seit ich die OCR Optionen durch die hier von geimist geposteten und leicht angepassten Optionen (--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu+eng --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --pdf-renderer hocr) im Einsatz habe, wird mir nur noch die Sanduhr angezeigt. Der vormalige Durchlauf mit den gesetzten OCR Optionen (ich meine das waren -l deu+eng) ging problemlos durch. Einer eine Idee, woran das liegen könnte?

Abgesehen davon stelle ich mir die Frage, wie eine sinnvolle Struktur aussieht. Ich dachte an eine überschaubare Anzahl von Ordnern (Finanzen, Versicherung, Immobilie, Büro etc.) für die ich entweder einzelne Profile erstelle (sehe ich das richtig, dass ich dann für jeden Ordner einen eigenen Scan Input und Output bräucht, oder gibt es da eine elegantere Lösung - so würde das ja zu einer Vielzahl an Ordnern führen).

geimist · 27. Jan. 2022

MacAir13 schrieb:
seit ich die OCR Optionen durch die hier von geimist geposteten und leicht angepassten Optionen … im Einsatz habe, wird mir nur noch die Sanduhr angezeigt

Wie du vielleicht im Log sehen kannst, unterstütz das aktuelle Build von OCRmyPDF die Option --remove-background nicht und bricht den Vorgang ab.

Abhilfe: lade dir ein älteres Build von OCRmyPDF (bei mir läuft 12.7.2 - Docker ➜ Registrierung ➜ ocrmypdf suchen und gewünschte Version laden. Anschließend muss diese Version noch im synOCR-Profil ausgewählt werden.)

MacAir13 schrieb:
Abgesehen davon stelle ich mir die Frage, wie eine sinnvolle Struktur aussieht. … Ich dachte an eine überschaubare Anzahl von Ordnern … für die ich entweder einzelne Profile erstelle …

Nein, du brauchst nicht für jede Kategorie ein eigenes Profil. Die Arbeit des Sortierens soll ja synOCR für dich übernehmen.
Du hast zwei Möglichkeiten:

Unterordner (=Kategorien) können bei der Tagsuche in der GUI angegeben werden. z.B. Allianz=Versicherungen;HUK24=Versicherungen;ALDI=Rechnungen
mit einer separaten Regeldatei (YAML-Datei) bist du noch flexibler. Hinweise findest du im Wiki

MrNeon · 27. Jan. 2022

… bei mir haben diverse Versuche jetzt zu Merkwürdigkeiten geführt. Die Texterkennung ist miserabel. Bei Original PDF Rechnungen per Download importiert in INPUT ist nach Durchlauf nichtmal mein Name auffindbar … noch komischer ist, dass das gewandelte Dokument in OUTPUT schlechter OCRt ist als in BACKUP … die Ordner aber richtig angelegt sind … so ist das OCR für mich leider nicht brauchbar !

geimist · 27. Jan. 2022

Also erfahrungsgemäß ist Tesseract nicht schlecht im Erkennen von Text (das war selbst 2012 schon so).
In erster Linie dient es natürlich der Texterkennung von gescannten Dokumenten, welche grundsätzlich zunächst keinerlei Textinformationen enthalten. Offensichtlich versuchst du digital erstellte Dokumente zu bearbeiten. Aber auch das sollte problemlos funktionieren, erst recht, wenn der Parameter -s für OCRmyPDF gesetzt ist. Die meisten Probleme machen signierte oder verschlüsselte Dokumente (z.B. Kontoauszüge).

MrNeon · 27. Jan. 2022

Hi Stephan, -s ist als Parameter gesetzt … komisch ist, dass nach Umwandlung die Dateien in Backup besser OCRt sind als in OUTPUT … ich verstehe es nicht … in OUTPUT erkennt er bei einer Suche gar nichts …

geimist · 27. Jan. 2022

Im Output sind die Originaldateien. Offensichtlich enthalten die bereits einen Textlayer.
Um das näher zu untersuchen, müsste ich mir die Dateien ansehen.

MrNeon · 27. Jan. 2022

… könnte ich Dir senden … ich bin ratlos!

… wenn da ein Textlayer drin ist müsste das PDF im Anschluß doch durchsuchbar sein bei -s geht doch nix kaputt!

geimist · 27. Jan. 2022

Link in meiner Signatur (Log-Upload).

MrNeon · 27. Jan. 2022

… hab Dir mal ne Beispieldatei geschickt …

geimist · 27. Jan. 2022

Bitte auch noch die fehlerhafte Datei und das Log.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat