synOCR synOCR - GUI für OCRmyPDF

Ansel · 23. Apr. 2025

synfor schrieb:
Schlecht für die chronologische Sortierung.

Gebe ich dir Recht.. "22_03_01 Gehaltsabrechnung" ist besser

Yippie · 23. Apr. 2025

c0smo schrieb:
Gibt es eigentlich einen http Befehl um den Scanvorgang zu starten? Dann könnte man sich die Logins auf die DS ersparen.

Für was sollte das notwendig sein? Wenn du das inotify Paket (Drittanbieter) aus dem Store installierst und das neueste synOCR drauf hast, dann starten die Scanvorgänge vollautomatisch.

geimist · 23. Apr. 2025

Die GUI läuft ja im Webserver des DSM. Damit du die GUI aufrufen kannst, muss ein sogenannter Synotoken erstellt werden. Inwieweit man diesen Prozess nach außen legen könnte, weiß ich gerade nicht. Im Sinne der Sicherheit würde ich da keine Experimente versuchen.

Wie Yippie schon schrieb: Inotify ist dein Freund. Auch ein regelmäßiges Intervall im Aufgabenplaner frisst keine Ressourcen.

Struppix · 23. Apr. 2025

Ansel schrieb:
Ich wollte mich erstmal an die GUI wagen

Über das GUI werden wir das wohl nicht so einfach umgesetzt bekommen. Ich denke da braucht es eine YAML-Datei.
Du kannst mir ja mal Dein Dokument hochladen (meine Signatur). Dann kann ich ja mal was erstellen. Diese Dokumente bleiben natürlich grundsätzlich vertraulich und werden anschließend gelöscht.

Karsten

schlomo · 24. Apr. 2025

Servus in die Runde,

mir sin aktuell 2 Punkte aufgefallen, zu denen ich mich gerne austauschen möchte. Vielleicht hat der eine oder andere das Ähnliches aufgefallen.

1. Wenn ich ein bestimmten Dokumententyp von der Stuttgarter scanne, wird das Datum nicht erkannt und das Scandatum als Fallback verwendet (siehe IMG_0618). Markiere ich das Datum kann ich korrekt kopieren. OCR hat die Zeichen korrekt erkannt.

2. Wenn ich einen Scan vor der Verarbeitung durch dynOCR betrachte, ist die Qualität sehr gut und es treten so gut wie keine Störungen rund um den Text auf. Nach der Verarbeitung durch synOCR nimmt die Qualität deutlich ab und es rauscht stärker (siehe IMG_0616 und IMG_0617)

Weiß jemand wie das zu lösen ist? Kennt jemand dieses Verhalten? Aktuell nutze ich die Version 1.5.0. Sonst schnurrt alles wie ein Kätzchen und ich freue mich immer noch über die Delay Integration für ScanSnap Besitzer ;-)

Beste Grüße

geimist · 24. Apr. 2025

schlomo schrieb:
1. Wenn ich ein bestimmten Dokumententyp von der Stuttgarter scanne, wird das Datum nicht erkannt und das Scandatum als Fallback verwendet (siehe IMG_0618). Markiere ich das Datum kann ich korrekt kopieren. OCR hat die Zeichen korrekt erkannt.

@Gthorsten
Das Datum wird in der Tat nicht gefunden.

Code:

2025-04-24 22:51:52,780 - Line from File: Stuttgart, 15.4.2025

2025-04-24 22:51:52,780 - finish searching for alphanumerical and numerical dates......
2025-04-24 22:51:52,780 - found 0 dates
2025-04-24 22:51:52,781 - no dates found
2025-04-24 22:51:52,781 - found date None
2025-04-24 22:51:52,781 - Date scanning ended

schlomo schrieb:
2. Wenn ich einen Scan vor der Verarbeitung durch dynOCR betrachte, ist die Qualität sehr gut und es treten so gut wie keine Störungen rund um den Text auf. Nach der Verarbeitung durch synOCR nimmt die Qualität deutlich ab und es rauscht stärker (siehe IMG_0616 und IMG_0617)

In der ersten Beta, wo die Farbanpassung implementiert wurde, war diese standardmäßig aktiviert. Bitte kontrolliere das mal in der GUI und dekativiere sie bei Bedarf.

synfor · 24. Apr. 2025

Der Scan wurde neu und stärker komprimiert. Das Ergebnis ist bei JPG typisch für eine übertriebene Komprimierung. Wobei die JPG-Komprimierung für Schrift oder kontrastreiche Kanten, Linien eigentlich ungeeignet ist.

geimist · 24. Apr. 2025

Der OCRmyPDF-Prozess hat sich durch Version 1.5.0 nicht geändert.
Optional gibt es jetzt die Farbanpassungen.

schlomo · 25. Apr. 2025

Danke für die schnellen Rückmeldungen. Bzgl. Farbanpassung gehe ich aktuell davon aus, dass sie deaktiviert ist (siehe Anhang). Gib es eine Einstellung die ich übersehen habe, die diesen Effekt auslöst?

Beste Grüße

geimist · 25. Apr. 2025

Die Schärfe wird angepasst und dem entsprechend das ‚Bild‘ neu gerendert.

schlomo · 25. Apr. 2025

Servus,

Danke für die Info, das die Schärfe-Einstellung darauf einen Einfluss hat klingt logisch, hatte ich nicht bedacht. Sieht alles wieder super aus. Vielen Dank.

Beste Grüße

igelolf · 25. Apr. 2025

Ich möchte kein PDF/A erzeugen
Wie bekomme ich es hin, dass ein "Normales" und kein PDF/A erzeugt wird?

In der Onlinehilfe lese ich. "... output a standard PDF: ocrmypdf --output-type pdf input.pdf output.pdf ..."

Wenn ich "--output-type pdf" in den OCR Optionen eingebe, bekomme ich eine Fehlermeldung von wegen unbekannter Parameter,
auch wenn ich "-output-type pdf" eingebe, also ohne Doppelstrich -- , kommt ein pdf/A raus.
Wo kann ich das in den OCR Optionen einstellen?

siehe auch im screenshot anbei.

Synology DS920+, DSM 7.2.2-72806 Update 3, Docker Container Manager 24.0.2-1535, SyncOCR DSM7 1.5.0, inotify-tools 3.22.6.0.3

geimist · 25. Apr. 2025

Das Einhalten vom PDF-Standard hat mich schon manchmal zum Haare raufen gebracht. Aufgrund deiner Nachfrage habe ich jetzt festgestellt, dass mit synOCR 1.5 wahrscheinlich wieder Korrekturbedarf besteht. Ziel war aber bisher immer eine konsitente PDF/A Ausgabe. Das muss ich mir nochmal ansehen (ist gar nicht so einfach, eh mehr an einer Datei verändert wird).

Warum ist dir der PDF Standard 1.4 so entscheidend?

igelolf · 25. Apr. 2025

geimist schrieb:
Warum ist dir der PDF Standard 1.4 so entscheidend?

Hej,

Danke für die schnelle Antwort.
Der PDF Standard 1.4 ist mir nicht wichtig.

Vielleicht habe ich mich falsch ausgedrückt?
Ich möchte einfach nur keine PDF/A Datei.
Da kann ich zwar mit leben, aber ich scanne Dokumente in einem ganzen "Schwung" und zerlege sie dann hinterher manuell, oder nehme Teile wo anders für.
Da fiel mir nur auf, das ich immer erst PDF/A "aufheben" muß im Dokument, also ein zwei Klicks mehr machen muß.

~~Gibts eine Option für Ausgabe als nicht PDF/A oder ist dass das was Arbeit machen würde?~~
Ich habe es glaube ich selber gefunden...
Die Option mit den beiden "--" an den Anfang, dann gibt es keine Fehlermeldung, aber ab und an doch noch den PDF/A Hinweis im Acrobat.

Gruß & Danke
Olaf

P.S. Ansonsten: Danke für die Software!!!

HUHA · 25. Apr. 2025

Hello.
I need some help.
I am using the same multifunctional machine to scan and save the files.
Yesterday i see that on one profile , i had a lot of files (around 1600 pdf from different days, oldest was 1 month . other pdf files from the same dates where process ok ) in INPUT folder. I moved those files into another directory and then back in INPUT folder around 500-100 files. i started SYNOCR and he start processing , but no files were created in output. i take a look at the log (which i attached) and i only see that he does a copy in BACKUP and that's it, the original pdf remains in INPUT, and nothing else, and goes to process the next file.
The files from today where processed ok. Does anyone know from the log, what is wrong with these pdf files?
I have other profiles and those are not affected, everything is OK.
Do you need other information?
I see now at the end of the log file, this

"
●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●
● STEP 2 - SEARCH TAGS / RENAME / SORT: ●
●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●

Traceback (most recent call last):
File "<stdin>", line 2, in <module>
File "/usr/syno/synoman/webman/3rdparty/synOCR/python3_env/lib/python3.8/site-packages/pypdf/_reader.py", line 322, in __init__
self.read(stream)
File "/usr/syno/synoman/webman/3rdparty/synOCR/python3_env/lib/python3.8/site-packages/pypdf/_reader.py", line 1504, in read
self._find_eof_marker(stream)
File "/usr/syno/synoman/webman/3rdparty/synOCR/python3_env/lib/python3.8/site-packages/pypdf/_reader.py", line 1568, in _find_eof_marker
raise PdfReadError("EOF marker not found")
pypdf.errors.PdfReadError: EOF marker not found
ERROR at line 2353: pagecount_latest=$( py_page_count "${input}" )
./synOCR.sh: line 2368: ERROR at line 1808: python3
ERROR at line 2353: python3: syntax error in expression (error token is "at line 1808: python3
ERROR at line 2353: python3")

purge log files...
delete 1 log files (> 1000 files)
delete 0 search files ( > 1000 files)

purge backup deactivated!
rmdir: failed to remove '/tmp/tmp.9l69zWkhwk': Directory not empty
rmdir: removing directory, '/tmp/tmp.9l69zWkhwk'

runtime all files: ➜ 01:00:43

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
● ---------------------------------- ●
● | ==> END OF FUNCTIONS <== | ●
● ---------------------------------- ●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
"
is this the cause ? that there are some errors in

Thank you for your time.

geimist · 25. Apr. 2025

Please update to synOCR version 1.5 and try again.

Gthorsten · 25. Apr. 2025

geimist schrieb:
@Gthorsten
Das Datum wird in der Tat nicht gefunden.

Code:

2025-04-24 22:51:52,780 - Line from File: Stuttgart, 15.4.2025 2025-04-24 22:51:52,780 - finish searching for alphanumerical and numerical dates...... 2025-04-24 22:51:52,780 - found 0 dates 2025-04-24 22:51:52,781 - no dates found 2025-04-24 22:51:52,781 - found date None 2025-04-24 22:51:52,781 - Date scanning ended

In der ersten Beta, wo die Farbanpassung implementiert wurde, war diese standardmäßig aktiviert. Bitte kontrolliere das mal in der GUI und dekativiere sie bei Bedarf.

@geimist gerade die Nachricht bekommen. Werde ich mir ansehen

maxl-zwo · 26. Apr. 2025

Hallo, ich habe ein Dokument, dass ich regelmäßig erhalte und dass leider immer im Querformat bedruckt ist (DIN A4). Beim Scannen wird dadurch kein Text erkannt. Gibt es eine Möglichkeit, auch hier eine Texterkennung zu erreichen?
Vielen Dank!

geimist · 26. Apr. 2025

Bitte probiere mal etwas mit dem Schwellenwert für die Drehung (OCR Optionen in der GUI): --rotate-pages --rotate-pages-threshold 5

Ansel · 26. Apr. 2025

Hallo, irgendwie ist heute der Wurm drin. Regel wird erkannt, aber nicht umgesetzt

Dazu ist mein erstelltes Profil bei jedem öffnen verändert.. Änderungen werden ignoriert.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Anhänge

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat