synOCR synOCR - GUI für OCRmyPDF

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
857
Punkte für Reaktionen
160
Punkte
63
Hallo,
ja das geht. Die einfachste Methode ist:
- Diese pdf nochmal in den Input Ordner stellen.
- Im GUI unter OCR Optionen den Parameter -s... auf -f... stellen.
- Dann synOCR Durchlauf manuell starten.

Gruß Karsten

PS: Nicht vergessen wieder umzustellen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
Ich hatte auch schon Problem mit der Standard-Renderengine von OCRmyPDF. Die wurde irgendwann mal geändert. Ich nutze seit dem zusätzlich den Parameter --pdf-renderer hocr (aber auch das Image 12.7.2). Seit dem klappt es.
 
  • Like
Reaktionen: !&all

Thonav

Benutzer
Sehr erfahren
Mitglied seit
16. Feb 2014
Beiträge
7.878
Punkte für Reaktionen
1.503
Punkte
274
@geimist - Stephan - kannst Du bitte detaillierter schreiben, wo man diesen Parameter einsetzen soll?
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.063
Punkte für Reaktionen
911
Punkte
204
synOCR aufrufen, zu Konfiguration wechseln und dann bei OCR-Optionen hinzufügen; Standard dort sollte -srd -l deu+eng sein.
 
  • Like
Reaktionen: geimist

!&all

Benutzer
Mitglied seit
03. Sep 2010
Beiträge
14
Punkte für Reaktionen
4
Punkte
3
Ich hatte auch schon Problem mit der Standard-Renderengine von OCRmyPDF. Die wurde irgendwann mal geändert. Ich nutze seit dem zusätzlich den Parameter --pdf-renderer hocr (aber auch das Image 12.7.2). Seit dem klappt es.
War das auf mein Problem bezogen oder noch als Antwort auf die Diskussion vorher? Wenn zu mir, was genau würde das bewirken? Lieben Dank vorab!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
Zuletzt bearbeitet:
  • Like
Reaktionen: !&all und Struppix

!&all

Benutzer
Mitglied seit
03. Sep 2010
Beiträge
14
Punkte für Reaktionen
4
Punkte
3
Super, vielen Dank. Dann werde ich zusätzlich mal mit dem alternativen Renderer experimentieren. Danke für die guten Tips!
 
Zuletzt bearbeitet von einem Moderator:

maxChris

Benutzer
Mitglied seit
23. Jul 2023
Beiträge
2
Punkte für Reaktionen
1
Punkte
53
Hallo zusammen,

würde gerne auf einer DS223 das Tool "synOCR" einsetzen. Folgendes ist jetzt installiert:
  • jbarlow83/ocrmypdf:latest: Habe ich getestet und funktioniert.
  • synOCR_DSM7_v1.4.1.spk: s. Logfiles anbei.

Es gibt da anscheinend diverse Probleme mit der verwendeten Python Version in Kombination mit der aarch64 Architecture. Hat jemand "synOCR" schon mal auf einer DS223 oder einer aarch64 Architecture zum laufen bekommen?

Gruß Christian
 

Anhänge

  • synOCR_2023-07-24_13-20-01.txt
    15,6 KB · Aufrufe: 4

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
Herzlich willkommen hier im Forum Christian :)

Das ist interessant und müssten wir uns mal genauer ansehen. Kannst du mal das Loglevel auf 2 stellen (in der GUI ganz unten). Das neue Log nach dem nächsten Programmlauf kannst du mir auch gerne persönlich hochladen.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Gthorsten

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
Die Ursache zu dem Problem von @maxChris:
Eine Abhängigkeit des Pythonmoduls 'dateparser' war nicht für aarch64 verfügbar. Glücklicherweise wies mich der Entwickler von dateparser darauf hin, dass die Abhängigkeit ab Python3.9 nicht mehr besteht. Python3.9 steht ja im aktuellen DSM auch seitens Synology im Paketzentrum zur Verfügung. Ich hab synOCR jetzt so angepasst (ab v1.4.2), dass auf einer DS mit aarch64 CPU auf Python3.9 zurückgegriffen wird. Das ist als zusätzliche Abhängigkeit natürlich in dem Fall selbst zu installieren. Damit lief die Installation jetzt fehlerfrei durch.
 
  • Like
Reaktionen: Gthorsten

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
Ok, dann müssen wir mal die anderen Module kontrollieren. Und bei neuen Darauf achten. Mit war gar nicht bewusst das es so viele unterschiedliche Architekturen gibt wo synOCR läuft. Hatte beim entwickeln des Moduls mal was gelesen, aber keine Gedanken darüber gemacht
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
Alles andere lief fehlerfrei durch. Docker (OCRmyPDF) ist derzeit eigentlich nur auf x86_64 und aarch64 ein Thema für uns.
dateparser hat in Python < 3.9 eine Abhängigkeit zu backports.zoneinfo - und das scheint es nicht für aarch64 zu geben.
 
  • Like
Reaktionen: Gthorsten

maxChris

Benutzer
Mitglied seit
23. Jul 2023
Beiträge
2
Punkte für Reaktionen
1
Punkte
53
@geimist: Besten Dank für die schnelle Lösung! Es freut mich sehr, dass es doch noch auf einem aarch64 System funktioniert.
 
  • Love
Reaktionen: geimist

driftkingisback

Benutzer
Mitglied seit
17. Sep 2020
Beiträge
122
Punkte für Reaktionen
4
Punkte
18
Hallo ich bin super zufrieden mit OCRmyPDF, hab schon viele PDFs gescannt und durchlaufen lassen.
Manchmal bin ich unterwegs und suche z.B ein Dokument wie z.B Kaufvertrag, wie findet ihr das Dokument oder wie macht ihr das ? Geht ihr in die APP Drive und sucht ? Wenn ihr jetzt unterwegs seit ? oder wie macht ihr das am Mac ?

Irgendwie finde ich die Dateien nicht. Universell search neue idendizieren habe ich gemacht oder hilft euch das tool " ALFRED"? Über eine Antwort würde ich mich freuen
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
Universal Search (und somit auch Drive) findet meine Dokumente. Auf dem Mac über den Finder über eine SMB-Freigabe im Suchfeld des Finders (nicht Spotlight).

Hast du in Universal Search auch die Volltextsuche für Dokumente im gewünschten Ordner aktiviert?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
"Dateiname und Inhalt" ist schon die korrekte Einstellung. Der Textlayer im PDF selbst ist aber korrekt? Ich meine: kannst du ein PDF öffnen und darin nach einem Stichwort mit dem PDF-Betrachter suchen? Wenn ja, kann es ja nur an der Indizierung liegen.

PS: das Indizieren von Zahlen muss man Universal Search explizit aktivieren.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.393
Punkte für Reaktionen
1.209
Punkte
234
Hier mal ein Bugfix-Release 1.4.2.

Das Release der Version 1.4.2 findet ihr hier auf meinem Server (für DSM6 & DSM7): https://geimist.eu/synOCR/

DOWNLOAD:

📦 SPK DSM6

📦 SPK DSM7




1.4.2 [2023-07-26]
BUGFIXES:

- [SHELL] Bugfix bei der Erstellung der Python-Umgebung unter aarch64 (hier wird jetzt zusätzlich Python 3.9 benötigt)
VERBESSERUNG:
- [SHELL] Entfernung von abschließenden Leerzeichen und Tabulatoren in YAML-Regeln zur Verbesserung der Kompatibilität
- [SHELL] Verbesserung der Fehlerbehandlung bei der Datumssuche in Python
- [SHELL] Logging verbessert
- [SHELL] Prüfung der YAML-Regeln verbessert
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat