synOCR synOCR - GUI für OCRmyPDF

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

@guidovg
Ich habe deine Nachricht gesehen, aber kann dir leider nicht konstruktiv weiterhelfen. Vielleicht können wir da @Struppix's Erfahrung anzapfen …
 
  • Like
Reaktionen: guidovg
Leider bekomme ich in der Log-Date immer die folgenden Meldung:
➜ search RegEx for tag ➜ RegEx not found (

Mache ich da einen Fehler? Laut regex101.com müsste es funktionieren.
Hallo, nun aber. Nein Du machst keinen Fehler und das müsste funktionieren

Ich glaube die spinnt manchmal, mal geht es mal nicht. Ursache scheint, das bestimmte Ausdrücke wenn hintereinander folgend, zu Fehlermeldungen führen, hier also \R und \K. Wie gesagt ich mutmaße nur. Zumindest konnte ich eben den Fehler reproduzieren, zumindest einige Male bis sie wieder normal wollte.

YAML:
(?im)(Artikel\sMenge\sGesamt)\R{0,1}\K(\w+)
Scheint stabiler zu laufen. Aber wie gesagt sollte Deine RegEx funktionieren.

Sag Bescheid ob es geht

Karsten
 
  • Like
Reaktionen: guidovg und geimist
Hallo, vielen Dank mit der Anpassung hat es funktioniert. Ich habe bei regex101.com auch mal die anderen Flavour ausprobiert. Wenn ich Python auswähle akzeptiert er \R als Parameter gar nicht, da muss ich \n auswählen.
Womit testest Du denn die RegEx Strings?
 
Guten Tag,
seit der Version 1.5 werden bei mir die OCR-Optionen ignoriert. Ich hatte das bemerkt, weil die Dateien plötzlich so groß waren.
Hier sind meine Optionen:
-srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3
Ich habe Version 1.4.5 wieder installiert, da funktioniert alles.
Viele Grüße
Benedikt
 
Herzlich willkommen hier im Forum Benedikt :)

Das wundert mich eigentlich.
An einem zweiten Profil kann es nicht liegen?
Wie sieht das Log aus (werden hier die gewünschten OCR-Optionen aufgelistet / gibt es im erweiterten Loglevel Hinweise im Logabschnitt von OCRmyPDF)?
Ich habe das jetzt bei mir nochmal durchexerziert: Die Parameter werden bei einer Änderung brav übernommen.
 
Danke für die schnelle Antwort! :)
Anbei sende ich eine Log-Datei. Dort sieht es so aus, als würde er die Optionen nicht richtig übernehmen bzw. fälschlicherweise aufsplitten:

used ocr-parameter (raw): -srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3
OCR-arg 1: -srd
OCR-arg 2: -l
OCR-arg 3: deu
OCR-arg 4: --clean-final
OCR-arg 5: --output-type
OCR-arg 6: pdfa
OCR-arg 7: --pdfa-image-compression
OCR-arg 8: jpeg
OCR-arg 9: --jbig2-lossy
OCR-arg 10: --optimize
OCR-arg 11: 3
 

Anhänge

Doch, das passt schon. Als Erstes steht die Originalzeile des Users aus der GUI, dann folgt das Logging der Aufsplittung (passt alles) und die nachstehende Zeile zeigt das erstellte Array und das ist korrekt zusammengesetzt:
ocropt_array: -srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3

Das OCRmyPDF-Log habe ich mir mal analysieren lassen:

Erfolgreich angewandte Parameter:​


-l deu (Deutsche Sprache):✅ Erfolgreich angewandt
  • Zeile: Running: ['tesseract', '-l', 'deu', '--psm', '2', ...]
  • Zeile: Running: ['tesseract', '-l', 'deu', '/tmp/ocrmypdf.io.jicswru6/000001_ocr.png', ...]
  • Mehrfache Erwähnung von "deu" in den hocrtransform-Logs
--output-type pdfa (PDF/A-Format):✅ Erfolgreich angewandt
  • Zeile: '-dPDFA=2', '-dPDFACompatibilityPolicy=1' in der Ghostscript-Ausführung
  • Bestätigung: Output file is a PDF/A-2B (as expected)
--pdfa-image-compression jpeg (JPEG-Kompression):✅ Erfolgreich angewandt
  • Zeile: '-dColorImageFilter=/DCTEncode', '-dGrayImageFilter=/DCTEncode', '-dJPEGQ=95'
  • Log: found image compressed as /FlateDecode /DCTDecode, marked for JPEG optimization
--optimize 3 (Optimierung Stufe 3):✅ Erfolgreich angewandt
  • Optimierungslogs zeigen aktive Bildoptimierung
  • Ergebnis: Image optimization ratio: 1.41 savings: 29.1%
  • Gesamtergebnis: Total file size ratio: 2.59 savings: 61.5%

Parameter mit unklarem Status:​

-srd:⚠️ Nicht direkt erkennbar - dieser Parameter würde nur greifen, wenn bereits Text im PDF vorhanden wäre, dreht das PDF und korrigiert Verzeichnung. Alles hat keine direkte Auswirkung auf die Dateigröße
--clean-final:⚠️ Nicht explizit sichtbar - wird vermutlich intern angewandt, aber nicht explizit geloggt
--jbig2-lossy (Verlustbehaftete JBIG2-Kompression):❌ Nicht angewandt - Das Log zeigt: Optimizable images: JBIG2 groups: 0, was bedeutet, dass keine JBIG2-Kompression verwendet wurde. Das greift ja nur bei 1-Bit Bildern.

Was mir auffällt:
Du benutzt die aktuelle Beta (v1.5.99.1 / Release ist v1.5.0.1). Darin gibt es zwar nur eine kleine Anpassung, damit zusätzliche Metadaten geschrieben werden könnten, wir sollten aber ausschließen, dass das nicht der Grund ist und hier etwas noch unerwartet läuft.

Hast du es auch mit verschiedenen Dokumenten versucht?
 
Ich hatte vorher die Release-Version, da bestand das Problem auch schon. Deshalb hatte ich es mit der Beta versucht.
Vorher lief es immer einwandfrei, mit zwei verschiedenen Profilen.
Mit Version 1.5 und auch mit der Beta hatte ich es mit verschiedenen Profilen und Dokumenten versucht, auch mit verschiedenen OCR-Optionen. Hat alles nichts geholfen.
Das Geraderücken schiefer Seiten funktioniert auch nicht mehr, offenbar werden alle Optionen ignoriert.
 
Das tut mir echt leid und ist mir sehr schleierhaft, zumal ich es nicht nachstellen kann :confused:

Ich habe es jetzt auch nochmal auf einer anderen DS mit den Versionen 1.5.0 und 1.5.0.1 probiert. Hier die Ergebnisse:
572,2 KiB (Quelldatei)​
289,6 KiB (Parameter: -srd -l deu --clean-final --output-type pdfa --pdfa-image-compression jpeg --jbig2-lossy --optimize 3)​
489,7 KiB (Parameter: -srd -l deu)​

  • Da wir aus dem Log auch keine Ursache herauslesen können, würde ich mal an deiner Stelle die Parameter auf das Mindeste reduzieren und dann Parameter um Parameter ergänzen.
  • Zum Test vielleicht auch mal ein anderes Image probieren (z.B. ocrmypdf:12.7.2).
  • Auch mal ein neues, leeres Profil zum Testen erstellen (nicht klonen!, um einen Fehler in der Konfiguration auszuschließen)
PS: seit Version 1.5.0 gibt es den Parameter --keep-hash, den man bei den OCR-Parametern angeben kann. Dieser bewirkt, dass die Originaldatei nicht verändert wird. Das würde das Verhalten erklären, aber ist ja bei dir nicht gesetzt.
 
Zuletzt bearbeitet:
PPS: Hast du Farbanpassungen aktiviert? Das hat auch immer Einfluss auf die Dateigröße und bei dir vielleicht kontraproduktiv. Hier sollten alle Werte auf links (=deaktiviert) gesetzt sein.

Bildschirmfoto 2025-07-25 um 17.40.36.png
 
Das war es auch alles nicht...
Ich werde es mal mit einer sauberen Neuinstallation versuchen und mich dann herantasten. Vielleicht komme ich dann drauf.
Auf jeden Fall vielen Dank für dieses großartige Programm, das ich schon seit Jahren benutze! So etwas hatte ich schon lange gesucht und es funktioniert einfach super.
 
Ich habe Dir die Logdatei geschickt, auch die PDF-Dateien, mit denen ich gerade noch einmal getestet habe.
 
Ja, vielen Dank.
Wenn ich dir nur den umbenannten Installer der Hauptversion verlinke, kann es nicht besser werden :rolleyes:
Bitte nochmal dieselbe Datei laden und installieren. Es sollte dann die Version 1.5.0.2 installiert sein.
 

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat