synOCR synOCR - GUI für OCRmyPDF

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Läuft auf der DS920+ mit dem aktuellen DSM 7.x. Alle gefundenen Fehler, waren meine eigenen :)
 
  • Love
Reaktionen: geimist
Hallo Stephan,

dein feines Tool läuft bei mir seit über 6 Jahren ohne Murren und es tut was es soll! Vielen Dank an dieser Stelle! (y)

Nachdem ich damals froh war, es mit Deiner Hilfe ans Laufen gebracht zu haben, würde ich es langsam mal updaten wollen. Muss ich dabei irgendwas beachten? Oder kann ich die heruntergeladene Version 1.5.1 einfach manuell über meine derzeitige Version 0.16.1 "drüberbügeln"?

Die Version von ocrmypdf wird mir als 8.2.2 angegeben. Wird diese mit der neuen Version von synocr in einem Rutsch mit auf die aktuelle Version 16.x gebracht?

Mein System ist eine DS216+II mit DSM 6.2.4, also noch dem alten Docker.

Danke und beste Grüße aus Düsseldorf!
Schlabbi
 
0.16.1 🙈
Sorry, aber da kann ich die Unterschiede jetzt nicht überblicken. Prinzipiell gab es keine breaking changes. Ich würde aber dennoch die Datenbank sichern (gab es da schon den Downloadbutton in der GUI?) und das Paket mit HyperBackup sichern (war das da schon drin?).

Offtopic:
Gibt es einen dringenden Grund, warum du noch auf DSM6 stehst?
 
0.16.1 🙈
Sorry, aber da kann ich die Unterschiede jetzt nicht überblicken. Prinzipiell gab es keine breaking changes.
Jupp... 🤣 Long, long time ago! Klingt aber ja erstmal vielversprechend!

Ich würde aber dennoch die Datenbank sichern (gab es da schon den Downloadbutton in der GUI?) und das Paket mit HyperBackup sichern (war das da schon drin?).
In HyperBackup kann ich die Einstellungen sichern und wird auch seit eh und je durchgeführt. Wiederherstellen musste ich diese aber noch nicht. Einen Downloadbutton in synOCR habe ich nicht. Gibt es eine andere Möglichkeit die Datenbank zu sichern?
Ist das überhaupt notwendig? Bisher habe ich nicht mit aufwendigen Tags gearbeitet, mir reichte ein Titel und das automatische Setzen des Datums in der Syntax, die ich brauche. Der Aufwand scheint mir überschaubar, sollte ich dies neu einrichten müssen.

Ich erhoffe mir vor allem durch eine neuere Version von ocrmypdf eine bessere Schrifterkennung, da ich aktuell eigentlich alle Titel nach korrigieren muss. Habe ich das richtig verstanden, dass das aktuellste Image automatisch mit dem Update von synOCR gezogen wird?


Offtopic:
Gibt es einen dringenden Grund, warum du noch auf DSM6 stehst?
Bei der Einführung von DSM 7 war ich unsicher, ob ich insbesondere die Cloudstation so in Drive abbilden konnte, wie ich es hatte. Der Umstieg von der PhotosStation auf Photos hat mich damals zusätzlich verunsichert und ich hatte auch keine Zeit mich damit intensiv zu beschäftigen. Da es bis letztes Jahr noch Sicherheitsupdates für DSM 6 gab, habe ich mir auch keine allzu großen Sorgen gemacht und alles funzte so wie es sollte.
In diesem Jahr stand eigentlich die Anschaffung einer neuen Diskstation und somit die Einführung von DSM 7 an, doch das Platten-Desaster bei Synology hat meine Entscheidung hierzu erstmal verschoben...
 
Ist das überhaupt notwendig?
Wenn es dich nicht stört, die Einstellungen in der GUI zur Not neu zu erstellen?
Darüber hinaus ist es vielleicht noch der Dateizähler, der zurückgesetzt ist. Es ist also nichts gravierendes.

Ich erhoffe mir vor allem durch eine neuere Version von ocrmypdf eine bessere Schrifterkennung, da ich aktuell eigentlich alle Titel nach korrigieren muss. Habe ich das richtig verstanden, dass das aktuellste Image automatisch mit dem Update von synOCR gezogen wird?
Nein. Die synOCR-Version hat keinen Einfluss auf das OCRmyPDF-Image. Jedenfalls nicht in aktuellen Versionen. Dieses kannst du über die Registrierung in Docker selbst ziehen (z.B. ein aktuelles :latest) und anschließend kann man es in der GUI auswählen. Möglicherweise kam die Auswahl in der GUI auch mit einer späteren Version.

Wie scannst du (Qualitätseinstellungen)?
Gibt es da vielleicht auch noch Optimierungspotential?

Bei der Einführung von DSM 7 war ich unsicher, ob ich insbesondere die Cloudstation so in Drive abbilden konnte, wie ich es hatte.
Ja, anfangs war Drive noch nicht so stark, aber jetzt ist es die Anwendung, die mich – neben dem DSM selbst – am stärksten an Synology bindet. Gerade auch in den mobilen Apps hat sich viel getan.

In diesem Jahr stand eigentlich die Anschaffung einer neuen Diskstation und somit die Einführung von DSM 7 an, doch das Platten-Desaster bei Synology hat meine Entscheidung hierzu erstmal verschoben...
Das ist ja glücklicherweise mit DSM7.3 hinfällig geworden.
 
So, hab es einfach mal gewagt. Nun ist wieder alles aktuell und im Grunde auch wie vorher (mit deutlich mehr Finetuning-Möglichkeiten!!). Aber nun beginnt ja die usselige Jahreszeit und man hat wieder was zum tüfteln... 😏

Ich hatte mir als "Backup" Screenshots von den Einstellungen und Pfaden gemacht, da er zwar den Namen des Profils behalten hat, nicht aber die eigentlichen Einträge in den Einstellungen. Somit aber kein Problem.

Image ist nun auch automatisch ohne mein Zutun auf 16.1.1 gegangen.

Ich danke für die erneute Unterstützung! 😎👍
 
  • Like
Reaktionen: geimist
Moin Moin,
auch ich habe den Schritt auf die Vers. 1.51 gemacht und habe heute ein Element mit zwei Seiten gescannt. Natürlich ist oben ein Briefkopf drauf und ich habe folgende Error Meldung und Warn Meldung bekommen:

The following errors were encountered at least once while processing this file:
Image has both ImageMask and ColorSpace keys.

The following warnings were encountered at least once while processing this file:
recoverable image error

**** This file had errors that were repaired or ignored.
**** Please notify the author of the software that produced this
**** file that it does not conform to Adobe's published PDF
**** specification.

Was muss ich einstellen, damit die PDF´s sauber durchlaufen und nicht in ErrorFiles landen?

beste Grüße

Huhie
 
Danke für das Log.
Der Fehler kommt direkt in OCRmyPDF und es ist kein Preprocessing seitens synOCR konfiguriert. Daher sehe ich das Problem in Zusammenhang mit dem aktuellen OCRmyPDF-Image. Kannst du mal bitte auf ein älteres zurückgreifen (einzustellen in deinem Profil) – z.B. mein gern genutzes v12.7.2.
 
Zuletzt bearbeitet:
Danke für die schnelle Info. Das werde ich gleich mal testen und ein Feedback geben...
 
  • Like
Reaktionen: geimist
Hallo,

ich habe jetzt auch mal das synOCR installiert. Läuft soweit und funktioniert auch. Allerdings bekomme ich weiterhin bei synOCR die Meldung ACHTUNG: synOCR verfügt noch nicht über die notwendigen Berechtigungen! angezeigt. Wenn ich es richtig verstanden habe, hätte diese Meldung nach der Ausführung der Aufgabe verschwinden sollen. Oder ist dem nicht so?

Danke und Gruß
 
Hallo casnoff,
  • du hast als User root mindestens 1x diesen Befehl abgesetzt?:
    /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
  • Wenn ja, was sagen folgende Befehle in der Konsole (oder Aufgabenplaner):
    • mit root:
      • synogroup --get administrators
      • synogroup --get docker
    • alternativ ohne root:
      • grep "^administrators" /etc/group
      • grep "^docker:" /etc/group
 
Hallo zusammen,

erstmal vielen Dank für das tolle Programm!

Ich hänge gerade mit einem Dokument und weiß nicht weiter. Es handelt sich um eine englischsprachige Rechnung, die in wirre Zeichen übersetzt wird (s. Anhang). Das pdf stammt direkt aus einem Mailanhang. synOCR verarbeitet das erst im "Normalformat" gefundene Datum für die Umbenennung und das Verschieben in einen Jahresordner. Dass es vorher noch ein "Issued date: 2025 11 23" gibt, das übersprungen wird ist m. E. nur natürlich, da als Datum nicht zu identifizieren. Insoweit alles fein für mich.

Ich hatte hier im Thread nach Lösungsmöglichkeiten gesucht und auf die englische Sprache getippt. Aus den OCR-Optionen "-srd -l deu" hatte ich daraufhin "-srd -l deu+eng" gemacht. Aber das Ergebnis blieb dasselbe.

Im Log finde ich ein "skipping all processing on this page". Aber ich sehe nicht, was ich selbst anders machen könnte. Kann die Ursache in der Quelle (Mailanhang) liegen? Ich möchte es eigentlich nicht erst ausdrucken, um es dann zu scannen...

Während ich das schreibe fällt mir noch eins ein: Ich versuche es gleich noch mit -force. => No - gleiches Ergebnis. Die letzten Logs lade ich hoch.

Ich habe jetzt nicht oft englische Rechnungen. Aber mich interessiert schon, was ich noch machen kann ;-) Vielen Dank für euer Interesse an meinem Problem!


PS: Ich sehe gerade in den Errorfiles ein anderes (deutsches) Dokument, das nicht bearbeitet wird. Es stammt auch aus einem E-Mail Anhang. Wenn ich schon Zeit stehle, dann lade ich das Log auch gleich noch hoch. Mea culpa 0:-)
 

Anhänge

Zuletzt bearbeitet:
Wäre es dir möglich, mir die originale Quelldatei hochzuladen (gern privat auf meinen Server wie die Logs), damit ich das ggf. nachstellen kann?
 
  • Love
Reaktionen: Kleeblatt
Sehr aussagekräftig ist ja schon die Meldung von OCRmyPDF (25_FAIZFD_000450_4553242135.pdf):
The following warnings were encountered at least once while processing this file:
A FontDescriptor has a missing or bad /FontName
This file had errors that were repaired or ignored.
The file was produced by:
>>>> axaos <<<<
Please notify the author of the software that produced this
file that it does not conform to Adobe's published PDF
specification.
Die Datei scheint also beschädigt zu sein (die Meldung bezieht sich auf die Quelldatei).

Bei dem Dokument Auftrag_1.pdf ist eine digitale Signatur hinterlegt, weshalb es da auch zu Problemen kommen kann.

Ich hatte verschiedene Sachen probiert. Das einzige was hier half, war ein Neurendern der Seite. Dafür habe ich lediglich den Parameter für die Schärfe auf 1.5 gesetzt. Damit war die Datei auch nachher in Ordnung und das Datum wurde gefunden. Nachteil: Die Dateigröße nimmt zu.

PS:
Wie ich sehe, hast du auch die Ordnerüberwachung mit inotify aktiv.
Falls du den Task im Aufgabenplaner auch noch aktiv hast (aktivierter Zeitplan), dann dekativiere diesen besser, damit Zeitplan und Ordnerüberwachung nicht kollidieren. :)
 
Zuletzt bearbeitet:
Vielen Dank für die superschnelle Reaktion, Stephan. Ich konnte deinen Weg nachstellen und hatte Erfolg!

Ich habe gestern erst auf die 1.51 geupdated, weil ich dachte, es liegt daran. War da versionsmäßig bisschen sehr hintendran, habe ich dabei festgestellt ;-). Habe es schön brav nach Anleitung abgearbeitet und die dbzgl. Aufgabenplanung gelöscht.

Werde mich in der nächsten Zeit weiter reinfuxen. Bisher habe ich offenbar nur die Basics genutzt und die Bandbreite deiner Arbeit noch gar nicht genossen.
 
Zuletzt bearbeitet:
  • Love
Reaktionen: geimist
Hallo Stephan,

ich habe folgendes bekommen:

admin_lars@Boitwarden:~$ grep "^administrators" /etc/group
administrators:x:101:admin,admin_lars,synOCR

admin_lars@Boitwarden:~$ grep "^docker:" /etc/group
admin_lars@Boitwarden:~$

synogroup --get administrators
admin_lars@Boitwarden:~$ synogroup --get administrators
-sh: /usr/syno/sbin/synogroup: Permission denied

admin_lars@Boitwarden:~$ synogroup --get docker
-sh: /usr/syno/sbin/synogroup: Permission denied
 

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat