synOCR - GUI für OCRmyPDF

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
9
Punkte für Reaktionen
0
Punkte
1
Mal. Eine andere dumme Frage.
Gibt es eine Möglichkeit den Text der erkannt worden ist, also in dem ocr PDF sichtbar zu machen?
Habe jetzt ein Dokument mit dem Tool bearbeitet, Er findet eine Menge text beim durchsuchen, aber nicht das was ich wollte?
Gruß Thorsten
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.477
Punkte für Reaktionen
186
Punkte
129
  • Wenn du das Loglevel auf "2 (debug mode)" stellst, wird im Logordner eine entsprechende Textdatei angelegt (wenn du nur auf der 1. Seite nach Daten / Tags suchen lässt, wird da auch nur die 1. Seite Text ausgegeben).
  • In einem PDF-Viewer den gesamten Text kopieren und in einen Texteditor einfügen
  • mit dem pdftotext auf der Kommandozeile
 
  • Like
Reaktionen: Gthorsten

guidovg

Benutzer
Mitglied seit
26. Nov 2011
Beiträge
66
Punkte für Reaktionen
18
Punkte
14
@Kaestorfer

Du hattest ja nach einem Programm gefragt, um nach den PDFs suchen zu können. Auf dem Windows Rechner nutze ich Copernic Desktop Search. Sofern die PDFs bereits durchsuchbar gemacht worden sind reicht die kleine "Knowledge Worker" Lizenz. Ich nutze die Software seit etwas über einem Jahr und es läuft hervorragend.
 

Kaestorfer

Benutzer
Mitglied seit
14. Jun 2021
Beiträge
6
Punkte für Reaktionen
2
Punkte
3
Ja danke Dir für die Info. Ist im Moment noch nicht so dramatisch alles, da ich gerade meinen Dokumente umwandle. Wenn ich dann eh bald auf DSM 7 gehen sollte dürfte sich das Problem erledigt haben oder aber ich habe mit Copernic eine Alternative.
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.477
Punkte für Reaktionen
186
Punkte
129
So, meine Freunde der texterkannten PDFs:
Es war jemand fleißig - nämlich unser lieber @Tommes. Er hatte Erbarmen mit einem unfähigen Paketentwickler und hat die synOCR-GUI für DSM7 angepasst.

Es läuft folgerdermaßen:

Wie ihr wisst, laufen Pakete unter DSM7 nicht mehr unter root, sondern unter einem eigenen Paketuser (= synOCR).
Daraus ergibt sich:
  1. dass die GUI nicht einmal mehr in die Quellordner schauen kann, ob unfertige PDFs dort liegen (also kein Ampel-Signalicon)
  2. und erst recht kann kein manueller synOCR-Lauf gestartet werden (docker lässt nur root an sich ran)
  3. cron lässt sich nicht mehr über die Timeransicht steuern
Es führt kein Weg daran vorbei, dass jeder User im DSM Aufgabenplaner einen manuellen Zeitplan / Skriptaufruf erstellt (das war ja auch bisher möglich - alte Zeitpläne in cron sollten weiter funktionieren, sind aber nicht mehr über die GUI editierbar). Dazu muss lediglich diese Zeile als Skript gestartet werden: /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh. Hier muss man unbedingt den user root auswählen!

Und weil das Skript unter root laufen muss, tut sich eine weitere Tür auf: Dieses Skript bringt den Paketuser synOCR in die Gruppe der Admins (= die Ampel funktioniert wieder) und erstellt eine eigene Dockergruppe mit synOCR als User (= ein manueller synOCR-Lauf ist wieder möglich).

Aufgrund der vorbereitenden Maßnahmen des Startskriptes, empfehle ich, es gleich bei der Einrichtung einmal laufen zu lassen.

Die aktuelle Version hat noch BETA-Status - getestet in meinem vDSM.
Die Hilfeseite muss noch überarbeitet werden. Außerdem gibt es noch ein paar Errormeldungen im Log, die aber nicht relevant sind.


(zum Löschen der alten Zeitpläne in cron könnt ihr den Sicherheitsberater bemühen)

So, jetzt stürzt euch auf @Tommes und knuddelt ihn 🤗

Und wie immer: gebt bitte Feedback bei einem unerwünschten Verhalten.


Das SPK liegt auf meinem Server.
 
Zuletzt bearbeitet:

P3t3rG

Benutzer
Mitglied seit
16. Jan 2021
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Vielen Dank an @Tommes und @geimist !
Ich habe es gerade mit einem Dokument versucht und es funktioniert bestens. Jetzt kommt das finetuning!
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
9
Punkte für Reaktionen
0
Punkte
1
Was ist eigentlich mit dem Skript gemeint.
werden: /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
Muss das nur einmal laufen oder muss das dann periodisch laufen, also
zb 1x die Stunde um nach neuen Dokumenten zu scannen?
Kann es noch nicht ausprobieren wg Zeitmangel.
 

ramsesderzweite

Benutzer
Mitglied seit
21. Okt 2011
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Vielen Dank @Tommes und @geimist ! Die Umwandlung funktioniert bestens, ebenfalls das Verschieben in die konfigurierten Verzeichnisse.

Zwei Fragen habe ich:
- Das Umbenennen habe ich noch nicht hingekriegt. Meine Angaben unter OCR Rename-Syntax werden ignoriert, stattdessen wird "2021-05-31__" vor den Dateinamen des OCRten Files gesetzt. Ich möchte aber einfach "OCR_Dateiname.pdf" einfügen und habe da darum "OCR-§tit" konfiguriert. was mache ich falsch?
- Braucht es mit der konfigurierten Aufgabe überhaupt noch eine Docker-Konfiguration? Oder fällt die komplett weg?

Vielen Dank euch allen für eure tolle Arbeit!!
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.477
Punkte für Reaktionen
186
Punkte
129
Was ist eigentlich mit dem Skript gemeint.
werden: /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh
Muss das nur einmal laufen oder muss das dann periodisch laufen, …

Das ist das Skript, welches auch über den blauen Button in der GUI oder über cron aufgerufen wird. Für jeden Probrammlauf muss dieses Skript aufgerufen werden. Daher empfiehlt sich hier der Weg über den Aufgabenplaner.
 
  • Like
Reaktionen: Gthorsten

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.477
Punkte für Reaktionen
186
Punkte
129
- Das Umbenennen habe ich noch nicht hingekriegt. Meine Angaben unter OCR Rename-Syntax werden ignoriert, stattdessen wird "2021-05-31__" vor den Dateinamen des OCRten Files gesetzt. Ich möchte aber einfach "OCR_Dateiname.pdf" einfügen und habe da darum "OCR-§tit" konfiguriert. was mache ich falsch?
Ist das eine Abweichung zu DSM6.2 oder ein generelles Problem bei dir?
Lade mal bitte ein Log hoch (Link in meiner Signatur)
- Braucht es mit der konfigurierten Aufgabe überhaupt noch eine Docker-Konfiguration? Oder fällt die komplett weg?
Welche Konfiguration meinst du?
Die Anpassungen im aktuellen SPK sollen lediglich die Benutzererfahrung von DSM 6.2 unter DSM 7.0 wiederherstellen.
 

ramsesderzweite

Benutzer
Mitglied seit
21. Okt 2011
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Ist das eine Abweichung zu DSM6.2 oder ein generelles Problem bei dir?
Lade mal bitte ein Log hoch (Link in meiner Signatur)
Entwarnung! Nach einem manuellen Refresh des Dateimanagers ist das korrekt umbenannte File da. Habe noch ein paar weitere Tests gemacht und das funktioniert in der Tat wunderbar. Sorry für die Umstände!

Welche Konfiguration meinst du?
Die Anpassungen im aktuellen SPK sollen lediglich die Benutzererfahrung von DSM 6.2 unter DSM 7.0 wiederherstellen.
Ich meinte, ob ich noch einen separaten Dockercontainer konfigurieren muss? Da das Script im Aufgabenplaner bei der Ausführung von sich aus einen Dockercontainer startet, gehe ich nicht davon aus. Korrekt?
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.477
Punkte für Reaktionen
186
Punkte
129
Ich meinte, ob ich noch einen separaten Dockercontainer konfigurieren muss? Da das Script im Aufgabenplaner bei der Ausführung von sich aus einen Dockercontainer startet, gehe ich nicht davon aus. Korrekt?
Du musstest da noch nie etwas konfigurieren. Lediglich das Paket "Docker" muss installiert sein. Alles andere ging bisher und sollte zukünftig weiterhin automatisch gehen.
 
  • Like
Reaktionen: ramsesderzweite

Karsten77

Benutzer
Mitglied seit
29. Jun 2021
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Hallo!

Ich bekomme nach erfolgreicher Installation unter DSM 7 folgende Fehlermeldung im Log:

WARNING: Error loading config file: .dockercfg: $HOME is not defined
Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get "http://%2Fvar%2Frun%2Fdocker.sock/v1.24/containers/jbarlow83/ocrmypdf:latest/json": dial unix /var/run/docker.sock: connect: permission denied

Was könnte die Ursache sein?
 

Karsten77

Benutzer
Mitglied seit
29. Jun 2021
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
im Anhang die vollständige Log-Datei
 

Anhänge

  • synOCR_2021-06-29_11-27-21.pdf
    26,1 KB · Aufrufe: 8

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.477
Punkte für Reaktionen
186
Punkte
129
Wie hast du den Programmlauf aufgerufen? Über den blauen Button in der GUI oder über den Aufgabenplaner?

Bitte mal über den Aufgabenplaner aufrufen und unbedingt auf den User Root achten.

Wahrscheinlich wurden die Rechte für synOCR noch nicht korrekt angepasst.