synOCR synOCR - GUI für OCRmyPDF

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Gibt es eigentlich einen http Befehl um den Scanvorgang zu starten? Dann könnte man sich die Logins auf die DS ersparen.
Für was sollte das notwendig sein? Wenn du das inotify Paket (Drittanbieter) aus dem Store installierst und das neueste synOCR drauf hast, dann starten die Scanvorgänge vollautomatisch.
 
  • Like
Reaktionen: c0smo und geimist
Die GUI läuft ja im Webserver des DSM. Damit du die GUI aufrufen kannst, muss ein sogenannter Synotoken erstellt werden. Inwieweit man diesen Prozess nach außen legen könnte, weiß ich gerade nicht. Im Sinne der Sicherheit würde ich da keine Experimente versuchen.

Wie Yippie schon schrieb: Inotify ist dein Freund. Auch ein regelmäßiges Intervall im Aufgabenplaner frisst keine Ressourcen.
 
  • Like
Reaktionen: c0smo
Ich wollte mich erstmal an die GUI wagen
Über das GUI werden wir das wohl nicht so einfach umgesetzt bekommen. Ich denke da braucht es eine YAML-Datei.
Du kannst mir ja mal Dein Dokument hochladen (meine Signatur). Dann kann ich ja mal was erstellen. Diese Dokumente bleiben natürlich grundsätzlich vertraulich und werden anschließend gelöscht.

Karsten
 
  • Like
Reaktionen: geimist
Servus in die Runde,

mir sin aktuell 2 Punkte aufgefallen, zu denen ich mich gerne austauschen möchte. Vielleicht hat der eine oder andere das Ähnliches aufgefallen.

1. Wenn ich ein bestimmten Dokumententyp von der Stuttgarter scanne, wird das Datum nicht erkannt und das Scandatum als Fallback verwendet (siehe IMG_0618). Markiere ich das Datum kann ich korrekt kopieren. OCR hat die Zeichen korrekt erkannt.

2. Wenn ich einen Scan vor der Verarbeitung durch dynOCR betrachte, ist die Qualität sehr gut und es treten so gut wie keine Störungen rund um den Text auf. Nach der Verarbeitung durch synOCR nimmt die Qualität deutlich ab und es rauscht stärker (siehe IMG_0616 und IMG_0617)

Weiß jemand wie das zu lösen ist? Kennt jemand dieses Verhalten? Aktuell nutze ich die Version 1.5.0. Sonst schnurrt alles wie ein Kätzchen und ich freue mich immer noch über die Delay Integration für ScanSnap Besitzer ;-)

Beste Grüße
 

Anhänge

  • IMG_0618.jpeg
    IMG_0618.jpeg
    41,1 KB · Aufrufe: 9
  • IMG_0617.jpeg
    IMG_0617.jpeg
    260,9 KB · Aufrufe: 8
  • IMG_0616.jpeg
    IMG_0616.jpeg
    211,5 KB · Aufrufe: 8
1. Wenn ich ein bestimmten Dokumententyp von der Stuttgarter scanne, wird das Datum nicht erkannt und das Scandatum als Fallback verwendet (siehe IMG_0618). Markiere ich das Datum kann ich korrekt kopieren. OCR hat die Zeichen korrekt erkannt.
@Gthorsten
Das Datum wird in der Tat nicht gefunden.
Code:
2025-04-24 22:51:52,780 - Line from File: Stuttgart, 15.4.2025

2025-04-24 22:51:52,780 - finish searching for alphanumerical and numerical dates......
2025-04-24 22:51:52,780 - found 0 dates
2025-04-24 22:51:52,781 - no dates found
2025-04-24 22:51:52,781 - found date None
2025-04-24 22:51:52,781 - Date scanning ended

2. Wenn ich einen Scan vor der Verarbeitung durch dynOCR betrachte, ist die Qualität sehr gut und es treten so gut wie keine Störungen rund um den Text auf. Nach der Verarbeitung durch synOCR nimmt die Qualität deutlich ab und es rauscht stärker (siehe IMG_0616 und IMG_0617)
In der ersten Beta, wo die Farbanpassung implementiert wurde, war diese standardmäßig aktiviert. Bitte kontrolliere das mal in der GUI und dekativiere sie bei Bedarf.
 
Der Scan wurde neu und stärker komprimiert. Das Ergebnis ist bei JPG typisch für eine übertriebene Komprimierung. Wobei die JPG-Komprimierung für Schrift oder kontrastreiche Kanten, Linien eigentlich ungeeignet ist.
 
Der OCRmyPDF-Prozess hat sich durch Version 1.5.0 nicht geändert.
Optional gibt es jetzt die Farbanpassungen.
 
Danke für die schnellen Rückmeldungen. Bzgl. Farbanpassung gehe ich aktuell davon aus, dass sie deaktiviert ist (siehe Anhang). Gib es eine Einstellung die ich übersehen habe, die diesen Effekt auslöst?

Beste Grüße
 

Anhänge

  • Bildschirmfoto 2025-04-25 um 08.02.04.png
    Bildschirmfoto 2025-04-25 um 08.02.04.png
    60,2 KB · Aufrufe: 7
  • Bildschirmfoto 2025-04-25 um 08.01.50.png
    Bildschirmfoto 2025-04-25 um 08.01.50.png
    86,1 KB · Aufrufe: 7
Servus,

Danke für die Info, das die Schärfe-Einstellung darauf einen Einfluss hat klingt logisch, hatte ich nicht bedacht. Sieht alles wieder super aus. Vielen Dank.

Beste Grüße
 
  • Like
Reaktionen: geimist
Ich möchte kein PDF/A erzeugen
Wie bekomme ich es hin, dass ein "Normales" und kein PDF/A erzeugt wird?

In der Onlinehilfe lese ich. "... output a standard PDF: ocrmypdf --output-type pdf input.pdf output.pdf ..."

Wenn ich "--output-type pdf" in den OCR Optionen eingebe, bekomme ich eine Fehlermeldung von wegen unbekannter Parameter,
auch wenn ich "-output-type pdf" eingebe, also ohne Doppelstrich -- , kommt ein pdf/A raus.
Wo kann ich das in den OCR Optionen einstellen?

siehe auch im screenshot anbei.

Synology DS920+, DSM 7.2.2-72806 Update 3, Docker Container Manager 24.0.2-1535, SyncOCR DSM7 1.5.0, inotify-tools 3.22.6.0.3
 

Anhänge

  • optionen.png
    optionen.png
    23,9 KB · Aufrufe: 5
Das Einhalten vom PDF-Standard hat mich schon manchmal zum Haare raufen gebracht. Aufgrund deiner Nachfrage habe ich jetzt festgestellt, dass mit synOCR 1.5 wahrscheinlich wieder Korrekturbedarf besteht. Ziel war aber bisher immer eine konsitente PDF/A Ausgabe. Das muss ich mir nochmal ansehen (ist gar nicht so einfach, eh mehr an einer Datei verändert wird).

Warum ist dir der PDF Standard 1.4 so entscheidend?
 
Warum ist dir der PDF Standard 1.4 so entscheidend?
Hej,

Danke für die schnelle Antwort.
Der PDF Standard 1.4 ist mir nicht wichtig.

Vielleicht habe ich mich falsch ausgedrückt?
Ich möchte einfach nur keine PDF/A Datei.
Da kann ich zwar mit leben, aber ich scanne Dokumente in einem ganzen "Schwung" und zerlege sie dann hinterher manuell, oder nehme Teile wo anders für.
Da fiel mir nur auf, das ich immer erst PDF/A "aufheben" muß im Dokument, also ein zwei Klicks mehr machen muß.

Gibts eine Option für Ausgabe als nicht PDF/A oder ist dass das was Arbeit machen würde?
Ich habe es glaube ich selber gefunden...
Die Option mit den beiden "--" an den Anfang, dann gibt es keine Fehlermeldung, aber ab und an doch noch den PDF/A Hinweis im Acrobat.

Gruß & Danke
Olaf

P.S. Ansonsten: Danke für die Software!!!
 

Anhänge

  • synocr_2.png
    synocr_2.png
    14,9 KB · Aufrufe: 6
  • acrobat.png
    acrobat.png
    15,3 KB · Aufrufe: 6
Zuletzt bearbeitet:
Hello.
I need some help.
I am using the same multifunctional machine to scan and save the files.
Yesterday i see that on one profile , i had a lot of files (around 1600 pdf from different days, oldest was 1 month . other pdf files from the same dates where process ok ) in INPUT folder. I moved those files into another directory and then back in INPUT folder around 500-100 files. i started SYNOCR and he start processing , but no files were created in output. i take a look at the log (which i attached) and i only see that he does a copy in BACKUP and that's it, the original pdf remains in INPUT, and nothing else, and goes to process the next file.
The files from today where processed ok. Does anyone know from the log, what is wrong with these pdf files?
I have other profiles and those are not affected, everything is OK.
Do you need other information?
I see now at the end of the log file, this

"
●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●
● STEP 2 - SEARCH TAGS / RENAME / SORT: ●
●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●

Traceback (most recent call last):
File "<stdin>", line 2, in <module>
File "/usr/syno/synoman/webman/3rdparty/synOCR/python3_env/lib/python3.8/site-packages/pypdf/_reader.py", line 322, in __init__
self.read(stream)
File "/usr/syno/synoman/webman/3rdparty/synOCR/python3_env/lib/python3.8/site-packages/pypdf/_reader.py", line 1504, in read
self._find_eof_marker(stream)
File "/usr/syno/synoman/webman/3rdparty/synOCR/python3_env/lib/python3.8/site-packages/pypdf/_reader.py", line 1568, in _find_eof_marker
raise PdfReadError("EOF marker not found")
pypdf.errors.PdfReadError: EOF marker not found
ERROR at line 2353: pagecount_latest=$( py_page_count "${input}" )
./synOCR.sh: line 2368: ERROR at line 1808: python3
ERROR at line 2353: python3: syntax error in expression (error token is "at line 1808: python3
ERROR at line 2353: python3")

purge log files...
delete 1 log files (> 1000 files)
delete 0 search files ( > 1000 files)

purge backup deactivated!
rmdir: failed to remove '/tmp/tmp.9l69zWkhwk': Directory not empty
rmdir: removing directory, '/tmp/tmp.9l69zWkhwk'

runtime all files: ➜ 01:00:43


●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
● ---------------------------------- ●
● | ==> END OF FUNCTIONS <== | ●
● ---------------------------------- ●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
"
is this the cause ? that there are some errors in

Thank you for your time.
 

Anhänge

@Gthorsten
Das Datum wird in der Tat nicht gefunden.
Code:
2025-04-24 22:51:52,780 - Line from File: Stuttgart, 15.4.2025

2025-04-24 22:51:52,780 - finish searching for alphanumerical and numerical dates......
2025-04-24 22:51:52,780 - found 0 dates
2025-04-24 22:51:52,781 - no dates found
2025-04-24 22:51:52,781 - found date None
2025-04-24 22:51:52,781 - Date scanning ended


In der ersten Beta, wo die Farbanpassung implementiert wurde, war diese standardmäßig aktiviert. Bitte kontrolliere das mal in der GUI und dekativiere sie bei Bedarf.
@geimist gerade die Nachricht bekommen. Werde ich mir ansehen
 
  • Love
Reaktionen: geimist
Hallo, ich habe ein Dokument, dass ich regelmäßig erhalte und dass leider immer im Querformat bedruckt ist (DIN A4). Beim Scannen wird dadurch kein Text erkannt. Gibt es eine Möglichkeit, auch hier eine Texterkennung zu erreichen?
Vielen Dank!
 
Bitte probiere mal etwas mit dem Schwellenwert für die Drehung (OCR Optionen in der GUI): --rotate-pages --rotate-pages-threshold 5
 
Hallo, irgendwie ist heute der Wurm drin. Regel wird erkannt, aber nicht umgesetzt:(

Dazu ist mein erstelltes Profil bei jedem öffnen verändert.. Änderungen werden ignoriert.
 
Zuletzt bearbeitet:

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat