synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.387
Punkte für Reaktionen
1.201
Punkte
234
Aus deinem Screenshot lese ich, dass du für jeden Tag ein eigenes Profil erstellen möchtest. Ist das so?

Die Funktionsweise ist etwas anders:
Profile dienen der unterschiedlichen Konfiguration (unabhängig der Tag / Regeln). So können sich verschiedene User unterschiedliche Umgebungen 'bauen', obwohl synOCR ja nur einmal installiert ist. Im Normalfall benötigst du nur ein Profil. Es ist also einfacher, als du vermutest.

Du kannst beliebig viele Tags angeben. Wird einer davon gefunden, landet er im Dateinamen und ggf. die Datei im entsprechenden Unterordner. Mit der erweiterten Regeldatei (YAML-Datei) kann man das Ganze dann noch sehr filigraner gestalten.
 

Paulchen88

Benutzer
Mitglied seit
23. Jan 2022
Beiträge
4
Punkte für Reaktionen
1
Punkte
9
OK, verstanden. Jetzt, wo ich so drüber nachdenke, macht das natürlich Sinn ;)

Mich hat nur dieser Zusatz in der Beschreibung für die Profile verleitet:
"Über die Profile kannst du beliebig viele Konfigurationen anlegen, welche alle bei jedem Programmlauf abgearbeitet werden[...]."
Dann werden die gar nicht alle abgearbeitet?


Deswegen dachte ich, ist es schlau, für jede Art von Dokument (oder zumindest die, die regelmäßig kommen) ein eigenes Profil zu erstellen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.387
Punkte für Reaktionen
1.201
Punkte
234
"Über die Profile kannst du beliebig viele Konfigurationen anlegen, welche alle bei jedem Programmlauf abgearbeitet werden[...]."
Dann werden die gar nicht alle abgearbeitet?
Doch, aber ich denke, dass deine vorhandenen Dateien schon beim Durchlauf des Profils 'default' abgearbeitet sind und bei deinem 2. Profil keine unbearbeiteten Dateien vorhanden sind - das wird dann übersprungen.

Mehrere gefundene Tags lassen sich nicht noch durch ein Zeichen trennen, oder?
Doch, durch den Tagkennzeichner [Tags im Dateinamen kennzeichnen] (als Standard ist da die Raute # hinterlegt - kannst du natürlich ändern).
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
Ich habe auch grade mal wieder etwas rumprobiert … meine Dokumente werden ordnungegemäß gescannt und abgelegt.

Über Drive kann ich ein „Schlagwort“ eingeben und es werden mir die Dokumente angezeigt, in denen das Wort vorkommt. Wenn ich das Dokument dann öffne ist das Wort aber nicht gekennzeichnet, sprich ich muss den gesamten Text durchgehen, um das Wort zu finden. Gibt es eine Möglichekeit (Programm), was das Wort im Dokumen dann markiert? Wenn es mehrfach vorkommt auch merhfach?

Habe ich bisher nicht hinbekommen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.387
Punkte für Reaktionen
1.201
Punkte
234
In welchem Programm öffnest du denn dein PDF? Drive ist ja nicht wirklich ein PDF-Viewer …
In der Regel muss man dann in dem Viewer nocheinmal die Suche anstoßen: Oft geht es bei geöffnetem PDF mit Strg + F bzw. CMD + F
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
Bisher nur mit Drive unter IOS (Phone / Pad) versucht. Gibts da ne empfehlenswerte App?
 
  • Like
Reaktionen: Gthorsten

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
So wie Stefan es beschrieben hat geht es bei mir auch. Beim suchen im drive client zeigt er die Funde markiert an. Im. Geöffneten PDF muss man dann nochmal suchen. Das fände ich super wenn er das direkt anzeigen würde, habe aber nichts dazu gefunden. Ist ja auxh nur ein Str f zusätzlich
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.387
Punkte für Reaktionen
1.201
Punkte
234
mit Drive unter IOS (Phone / Pad)
Diese Information hatten wir ja bisher nicht. In den mobilen Drive-Apps kenne ich auch keine Suchfunktion. Dann hilft es wahrscheinlich nur, das Dokument zu einer anderen App zu senden (was wiederum ziemlich umständlich ist).
 

MacAir13

Benutzer
Mitglied seit
07. Feb 2014
Beiträge
21
Punkte für Reaktionen
0
Punkte
1
An der Stelle vorab mein Dank für die großartige Arbeit, die hier geleistet wird, um das Tool zur Verfügung zu stellen.

Das vorgegebene Setup (default) hat funktioniert, seit ich die OCR Optionen durch die hier von geimist geposteten und leicht angepassten Optionen (--remove-background --rotate-pages --rotate-pages-threshold 5 -dc --skip-text --clean-final -l deu+eng --jpeg-quality 70 --png-quality 70 --jbig2-lossy --optimize 3 --pdf-renderer hocr) im Einsatz habe, wird mir nur noch die Sanduhr angezeigt. Der vormalige Durchlauf mit den gesetzten OCR Optionen (ich meine das waren -l deu+eng) ging problemlos durch. Einer eine Idee, woran das liegen könnte?

Abgesehen davon stelle ich mir die Frage, wie eine sinnvolle Struktur aussieht. Ich dachte an eine überschaubare Anzahl von Ordnern (Finanzen, Versicherung, Immobilie, Büro etc.) für die ich entweder einzelne Profile erstelle (sehe ich das richtig, dass ich dann für jeden Ordner einen eigenen Scan Input und Output bräucht, oder gibt es da eine elegantere Lösung - so würde das ja zu einer Vielzahl an Ordnern führen).
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.387
Punkte für Reaktionen
1.201
Punkte
234
seit ich die OCR Optionen durch die hier von geimist geposteten und leicht angepassten Optionen … im Einsatz habe, wird mir nur noch die Sanduhr angezeigt
Wie du vielleicht im Log sehen kannst, unterstütz das aktuelle Build von OCRmyPDF die Option --remove-background nicht und bricht den Vorgang ab.

Abhilfe: lade dir ein älteres Build von OCRmyPDF (bei mir läuft 12.7.2 - Docker ➜ Registrierung ➜ ocrmypdf suchen und gewünschte Version laden. Anschließend muss diese Version noch im synOCR-Profil ausgewählt werden.)

Abgesehen davon stelle ich mir die Frage, wie eine sinnvolle Struktur aussieht. … Ich dachte an eine überschaubare Anzahl von Ordnern … für die ich entweder einzelne Profile erstelle …
Nein, du brauchst nicht für jede Kategorie ein eigenes Profil. Die Arbeit des Sortierens soll ja synOCR für dich übernehmen.
Du hast zwei Möglichkeiten:
  1. Unterordner (=Kategorien) können bei der Tagsuche in der GUI angegeben werden. z.B. Allianz=Versicherungen;HUK24=Versicherungen;ALDI=Rechnungen
  2. mit einer separaten Regeldatei (YAML-Datei) bist du noch flexibler. Hinweise findest du im Wiki
 
Zuletzt bearbeitet:
  • Like
Reaktionen: MacAir13

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
… bei mir haben diverse Versuche jetzt zu Merkwürdigkeiten geführt. Die Texterkennung ist miserabel. Bei Original PDF Rechnungen per Download importiert in INPUT ist nach Durchlauf nichtmal mein Name auffindbar … noch komischer ist, dass das gewandelte Dokument in OUTPUT schlechter OCRt ist als in BACKUP … die Ordner aber richtig angelegt sind … so ist das OCR für mich leider nicht brauchbar !
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.387
Punkte für Reaktionen
1.201
Punkte
234
Also erfahrungsgemäß ist Tesseract nicht schlecht im Erkennen von Text (das war selbst 2012 schon so).
In erster Linie dient es natürlich der Texterkennung von gescannten Dokumenten, welche grundsätzlich zunächst keinerlei Textinformationen enthalten. Offensichtlich versuchst du digital erstellte Dokumente zu bearbeiten. Aber auch das sollte problemlos funktionieren, erst recht, wenn der Parameter -s für OCRmyPDF gesetzt ist. Die meisten Probleme machen signierte oder verschlüsselte Dokumente (z.B. Kontoauszüge).
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
Hi Stephan, -s ist als Parameter gesetzt … komisch ist, dass nach Umwandlung die Dateien in Backup besser OCRt sind als in OUTPUT … ich verstehe es nicht … in OUTPUT erkennt er bei einer Suche gar nichts …
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.387
Punkte für Reaktionen
1.201
Punkte
234
Im Output sind die Originaldateien. Offensichtlich enthalten die bereits einen Textlayer.
Um das näher zu untersuchen, müsste ich mir die Dateien ansehen.
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
… könnte ich Dir senden … ich bin ratlos!

… wenn da ein Textlayer drin ist müsste das PDF im Anschluß doch durchsuchbar sein bei -s geht doch nix kaputt!
 

MrNeon

Benutzer
Mitglied seit
10. Mai 2011
Beiträge
75
Punkte für Reaktionen
5
Punkte
8
… hab Dir mal ne Beispieldatei geschickt …
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat