synOCR synOCR - GUI für OCRmyPDF

geimist · 01. Juli 2025

@guidovg
Ich habe deine Nachricht gesehen, aber kann dir leider nicht konstruktiv weiterhelfen. Vielleicht können wir da @Struppix's Erfahrung anzapfen …

Struppix · 01. Juli 2025

Ich melde mich heute Abend. Land unter ...
Karsten

Struppix · 01. Juli 2025

guidovg schrieb:
Leider bekomme ich in der Log-Date immer die folgenden Meldung:
➜ search RegEx for tag ➜ RegEx not found (

Mache ich da einen Fehler? Laut regex101.com müsste es funktionieren.

Hallo, nun aber. Nein Du machst keinen Fehler und das müsste funktionieren

Ich glaube die spinnt manchmal, mal geht es mal nicht. Ursache scheint, das bestimmte Ausdrücke wenn hintereinander folgend, zu Fehlermeldungen führen, hier also \R und \K. Wie gesagt ich mutmaße nur. Zumindest konnte ich eben den Fehler reproduzieren, zumindest einige Male bis sie wieder normal wollte.

YAML:

(?im)(Artikel\sMenge\sGesamt)\R{0,1}\K(\w+)

Scheint stabiler zu laufen. Aber wie gesagt sollte Deine RegEx funktionieren.

Sag Bescheid ob es geht

Karsten

guidovg · 02. Juli 2025

Hallo, vielen Dank mit der Anpassung hat es funktioniert. Ich habe bei regex101.com auch mal die anderen Flavour ausprobiert. Wenn ich Python auswähle akzeptiert er \R als Parameter gar nicht, da muss ich \n auswählen.
Womit testest Du denn die RegEx Strings?

Struppix · 02. Juli 2025

Nutze 101 auch. Wie ich auch ua. im Wiki beschreibe, ist unsere Syno, bzw. unser grep schon eine Diva

guidovg · 03. Juli 2025

Struppix schrieb:
Nutze 101 auch. Wie ich auch ua. im Wiki beschreibe, ist unsere Syno, bzw. unser grep schon eine Diva

Und welchen Flavor hast Du eingestellt? Oder testest Du mit mehreren?

Struppix · 03. Juli 2025

PCRE PHP <7,3

s-do · 25. Juli 2025

Guten Tag,
seit der Version 1.5 werden bei mir die OCR-Optionen ignoriert. Ich hatte das bemerkt, weil die Dateien plötzlich so groß waren.
Hier sind meine Optionen:
-srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3
Ich habe Version 1.4.5 wieder installiert, da funktioniert alles.
Viele Grüße
Benedikt

geimist · 25. Juli 2025

Herzlich willkommen hier im Forum Benedikt

Das wundert mich eigentlich.
An einem zweiten Profil kann es nicht liegen?
Wie sieht das Log aus (werden hier die gewünschten OCR-Optionen aufgelistet / gibt es im erweiterten Loglevel Hinweise im Logabschnitt von OCRmyPDF)?
Ich habe das jetzt bei mir nochmal durchexerziert: Die Parameter werden bei einer Änderung brav übernommen.

s-do · 25. Juli 2025

Danke für die schnelle Antwort!

Anbei sende ich eine Log-Datei. Dort sieht es so aus, als würde er die Optionen nicht richtig übernehmen bzw. fälschlicherweise aufsplitten:

used ocr-parameter (raw): -srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3
OCR-arg 1: -srd
OCR-arg 2: -l
OCR-arg 3: deu
OCR-arg 4: --clean-final
OCR-arg 5: --output-type
OCR-arg 6: pdfa
OCR-arg 7: --pdfa-image-compression
OCR-arg 8: jpeg
OCR-arg 9: --jbig2-lossy
OCR-arg 10: --optimize
OCR-arg 11: 3

geimist · 25. Juli 2025

Doch, das passt schon. Als Erstes steht die Originalzeile des Users aus der GUI, dann folgt das Logging der Aufsplittung (passt alles) und die nachstehende Zeile zeigt das erstellte Array und das ist korrekt zusammengesetzt:
ocropt_array: -srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3

Das OCRmyPDF-Log habe ich mir mal analysieren lassen:

Erfolgreich angewandte Parameter:

-l deu (Deutsche Sprache): Erfolgreich angewandt

Zeile: Running: ['tesseract', '-l', 'deu', '--psm', '2', ...]

Zeile: Running: ['tesseract', '-l', 'deu', '/tmp/ocrmypdf.io.jicswru6/000001_ocr.png', ...]

Mehrfache Erwähnung von "deu" in den hocrtransform-Logs

--output-type pdfa (PDF/A-Format): Erfolgreich angewandt

Zeile: '-dPDFA=2', '-dPDFACompatibilityPolicy=1' in der Ghostscript-Ausführung

Bestätigung: Output file is a PDF/A-2B (as expected)

--pdfa-image-compression jpeg (JPEG-Kompression): Erfolgreich angewandt

Zeile: '-dColorImageFilter=/DCTEncode', '-dGrayImageFilter=/DCTEncode', '-dJPEGQ=95'

Log: found image compressed as /FlateDecode /DCTDecode, marked for JPEG optimization

--optimize 3 (Optimierung Stufe 3): Erfolgreich angewandt

Optimierungslogs zeigen aktive Bildoptimierung

Ergebnis: Image optimization ratio: 1.41 savings: 29.1%

Gesamtergebnis: Total file size ratio: 2.59 savings: 61.5%

Parameter mit unklarem Status:
-srd: Nicht direkt erkennbar - dieser Parameter würde nur greifen, wenn bereits Text im PDF vorhanden wäre, dreht das PDF und korrigiert Verzeichnung. Alles hat keine direkte Auswirkung auf die Dateigröße
--clean-final: Nicht explizit sichtbar - wird vermutlich intern angewandt, aber nicht explizit geloggt
--jbig2-lossy (Verlustbehaftete JBIG2-Kompression): Nicht angewandt - Das Log zeigt: Optimizable images: JBIG2 groups: 0, was bedeutet, dass keine JBIG2-Kompression verwendet wurde. Das greift ja nur bei 1-Bit Bildern.

Was mir auffällt:
Du benutzt die aktuelle Beta (v1.5.99.1 / Release ist v1.5.0.1). Darin gibt es zwar nur eine kleine Anpassung, damit zusätzliche Metadaten geschrieben werden könnten, wir sollten aber ausschließen, dass das nicht der Grund ist und hier etwas noch unerwartet läuft.

Hast du es auch mit verschiedenen Dokumenten versucht?

s-do · 25. Juli 2025

Ich hatte vorher die Release-Version, da bestand das Problem auch schon. Deshalb hatte ich es mit der Beta versucht.
Vorher lief es immer einwandfrei, mit zwei verschiedenen Profilen.
Mit Version 1.5 und auch mit der Beta hatte ich es mit verschiedenen Profilen und Dokumenten versucht, auch mit verschiedenen OCR-Optionen. Hat alles nichts geholfen.
Das Geraderücken schiefer Seiten funktioniert auch nicht mehr, offenbar werden alle Optionen ignoriert.

geimist · 25. Juli 2025

Das tut mir echt leid und ist mir sehr schleierhaft, zumal ich es nicht nachstellen kann

Ich habe es jetzt auch nochmal auf einer anderen DS mit den Versionen 1.5.0 und 1.5.0.1 probiert. Hier die Ergebnisse:

572,2 KiB (Quelldatei)

289,6 KiB (Parameter: -srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3)

489,7 KiB (Parameter: -srd -l deu)

Da wir aus dem Log auch keine Ursache herauslesen können, würde ich mal an deiner Stelle die Parameter auf das Mindeste reduzieren und dann Parameter um Parameter ergänzen.
Zum Test vielleicht auch mal ein anderes Image probieren (z.B. ocrmypdf:12.7.2).
Auch mal ein neues, leeres Profil zum Testen erstellen (nicht klonen!, um einen Fehler in der Konfiguration auszuschließen)

PS: seit Version 1.5.0 gibt es den Parameter --keep-hash, den man bei den OCR-Parametern angeben kann. Dieser bewirkt, dass die Originaldatei nicht verändert wird. Das würde das Verhalten erklären, aber ist ja bei dir nicht gesetzt.

geimist · 25. Juli 2025

PPS: Hast du Farbanpassungen aktiviert? Das hat auch immer Einfluss auf die Dateigröße und bei dir vielleicht kontraproduktiv. Hier sollten alle Werte auf links (=deaktiviert) gesetzt sein.

Bildschirmfoto 2025-07-25 um 17.40.36.png

s-do · 26. Juli 2025

Das war es auch alles nicht...
Ich werde es mal mit einer sauberen Neuinstallation versuchen und mich dann herantasten. Vielleicht komme ich dann drauf.
Auf jeden Fall vielen Dank für dieses großartige Programm, das ich schon seit Jahren benutze! So etwas hatte ich schon lange gesucht und es funktioniert einfach super.

geimist · 26. Juli 2025

Bitte teste mal diese Version.

s-do · 26. Juli 2025

Habe ich gemacht, leider unverändert.

geimist · 26. Juli 2025

Echt

Schicke bitte mal ein Log (gern auch direkt an mich)

s-do · 26. Juli 2025

Ich habe Dir die Logdatei geschickt, auch die PDF-Dateien, mit denen ich gerade noch einmal getestet habe.

geimist · 26. Juli 2025

Ja, vielen Dank.
Wenn ich dir nur den umbenannten Installer der Hauptversion verlinke, kann es nicht besser werden

Bitte nochmal dieselbe Datei laden und installieren. Es sollte dann die Version 1.5.0.2 installiert sein.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Erfolgreich angewandte Parameter:​

Parameter mit unklarem Status:​

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat

Erfolgreich angewandte Parameter:

Parameter mit unklarem Status: