synOCR synOCR - GUI für OCRmyPDF

Struppix · 23. Juli 2023

Hallo,
ja das geht. Die einfachste Methode ist:
- Diese pdf nochmal in den Input Ordner stellen.
- Im GUI unter OCR Optionen den Parameter -s... auf -f... stellen.
- Dann synOCR Durchlauf manuell starten.

Gruß Karsten

PS: Nicht vergessen wieder umzustellen.

!&all · 23. Juli 2023

Super, besten Dank. Das werde ich gerne ausprobieren.

geimist · 23. Juli 2023

Ich hatte auch schon Problem mit der Standard-Renderengine von OCRmyPDF. Die wurde irgendwann mal geändert. Ich nutze seit dem zusätzlich den Parameter --pdf-renderer hocr (aber auch das Image 12.7.2). Seit dem klappt es.

Thonav · 23. Juli 2023

@geimist - Stephan - kannst Du bitte detaillierter schreiben, wo man diesen Parameter einsetzen soll?

Monacum · 23. Juli 2023

synOCR aufrufen, zu Konfiguration wechseln und dann bei OCR-Optionen hinzufügen; Standard dort sollte -srd -l deu+eng sein.

geimist · 23. Juli 2023

Das OCRmyPDF Image von jbarlow83 manuell in der Docker GUI lassen und anschließend in deinem Profil auswählen.

!&all · 23. Juli 2023

geimist schrieb:
Ich hatte auch schon Problem mit der Standard-Renderengine von OCRmyPDF. Die wurde irgendwann mal geändert. Ich nutze seit dem zusätzlich den Parameter --pdf-renderer hocr (aber auch das Image 12.7.2). Seit dem klappt es.

War das auf mein Problem bezogen oder noch als Antwort auf die Diskussion vorher? Wenn zu mir, was genau würde das bewirken? Lieben Dank vorab!

geimist · 23. Juli 2023

Ja, das war auf dich bezogen. ~~Die genauen Hintergründe müsste ich erst nochmal ergründen.~~
Du kannst es ja mal mit einem Dokument probieren, ob es dich dann mit der Vorschau anders verhält.

@!&all guck mal hier: https://www.synology-forum.de/threa...fragezeichen-statt-buchstaben-im-text.118740/

!&all · 24. Juli 2023

Super, vielen Dank. Dann werde ich zusätzlich mal mit dem alternativen Renderer experimentieren. Danke für die guten Tips!

maxChris · 24. Juli 2023

Hallo zusammen,

würde gerne auf einer DS223 das Tool "synOCR" einsetzen. Folgendes ist jetzt installiert:

jbarlow83/ocrmypdf:latest: Habe ich getestet und funktioniert.
synOCR_DSM7_v1.4.1.spk: s. Logfiles anbei.

Es gibt da anscheinend diverse Probleme mit der verwendeten Python Version in Kombination mit der aarch64 Architecture. Hat jemand "synOCR" schon mal auf einer DS223 oder einer aarch64 Architecture zum laufen bekommen?

Gruß Christian

geimist · 24. Juli 2023

Herzlich willkommen hier im Forum Christian

Das ist interessant und müssten wir uns mal genauer ansehen. Kannst du mal das Loglevel auf 2 stellen (in der GUI ganz unten). Das neue Log nach dem nächsten Programmlauf kannst du mir auch gerne persönlich hochladen.

geimist · 25. Juli 2023

Die Ursache zu dem Problem von @maxChris:
Eine Abhängigkeit des Pythonmoduls 'dateparser' war nicht für aarch64 verfügbar. Glücklicherweise wies mich der Entwickler von dateparser darauf hin, dass die Abhängigkeit ab Python3.9 nicht mehr besteht. Python3.9 steht ja im aktuellen DSM auch seitens Synology im Paketzentrum zur Verfügung. Ich hab synOCR jetzt so angepasst (ab v1.4.2), dass auf einer DS mit aarch64 CPU auf Python3.9 zurückgegriffen wird. Das ist als zusätzliche Abhängigkeit natürlich in dem Fall selbst zu installieren. Damit lief die Installation jetzt fehlerfrei durch.

Gthorsten · 25. Juli 2023

Ok, dann müssen wir mal die anderen Module kontrollieren. Und bei neuen Darauf achten. Mit war gar nicht bewusst das es so viele unterschiedliche Architekturen gibt wo synOCR läuft. Hatte beim entwickeln des Moduls mal was gelesen, aber keine Gedanken darüber gemacht

geimist · 25. Juli 2023

Alles andere lief fehlerfrei durch. Docker (OCRmyPDF) ist derzeit eigentlich nur auf x86_64 und aarch64 ein Thema für uns.
dateparser hat in Python < 3.9 eine Abhängigkeit zu backports.zoneinfo - und das scheint es nicht für aarch64 zu geben.

maxChris · 25. Juli 2023

@geimist: Besten Dank für die schnelle Lösung! Es freut mich sehr, dass es doch noch auf einem aarch64 System funktioniert.

driftkingisback · 25. Juli 2023

Hallo ich bin super zufrieden mit OCRmyPDF, hab schon viele PDFs gescannt und durchlaufen lassen.
Manchmal bin ich unterwegs und suche z.B ein Dokument wie z.B Kaufvertrag, wie findet ihr das Dokument oder wie macht ihr das ? Geht ihr in die APP Drive und sucht ? Wenn ihr jetzt unterwegs seit ? oder wie macht ihr das am Mac ?

Irgendwie finde ich die Dateien nicht. Universell search neue idendizieren habe ich gemacht oder hilft euch das tool " ALFRED"? Über eine Antwort würde ich mich freuen

geimist · 25. Juli 2023

Universal Search (und somit auch Drive) findet meine Dokumente. Auf dem Mac über den Finder über eine SMB-Freigabe im Suchfeld des Finders (nicht Spotlight).

Hast du in Universal Search auch die Volltextsuche für Dokumente im gewünschten Ordner aktiviert?

driftkingisback · 25. Juli 2023

Hier habe ich z.B den Ordner Dokumente neu indiziert, wo gibts einen haken für volltextsuche?

Bildschirmfoto 2023-07-25 um 23.39.14.png

geimist · 25. Juli 2023

"Dateiname und Inhalt" ist schon die korrekte Einstellung. Der Textlayer im PDF selbst ist aber korrekt? Ich meine: kannst du ein PDF öffnen und darin nach einem Stichwort mit dem PDF-Betrachter suchen? Wenn ja, kann es ja nur an der Indizierung liegen.

PS: das Indizieren von Zahlen muss man Universal Search explizit aktivieren.

geimist · 26. Juli 2023

Hier mal ein Bugfix-Release 1.4.2.

Das Release der Version 1.4.2 findet ihr hier auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/

DOWNLOAD:

SPK DSM6

SPK DSM7

1.4.2 [2023-07-26]
BUGFIXES:
- [SHELL] Bugfix bei der Erstellung der Python-Umgebung unter aarch64 (hier wird jetzt zusätzlich Python 3.9 benötigt)
VERBESSERUNG:
- [SHELL] Entfernung von abschließenden Leerzeichen und Tabulatoren in YAML-Regeln zur Verbesserung der Kompatibilität
- [SHELL] Verbesserung der Fehlerbehandlung bei der Datumssuche in Python
- [SHELL] Logging verbessert
- [SHELL] Prüfung der YAML-Regeln verbessert

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

DOWNLOAD:​

SPK DSM6​

SPK DSM7​

Additional post fields

Kaffeautomat

DOWNLOAD:

SPK DSM6

SPK DSM7