OCR nachträglich

ThomasKue · 19. Dez. 2021

Hallo,
ich habe eine Unzahl von PDF Dokumenten auf meiner NAS liegen (Ordner Orga). Ich würde die gerne per OCR durchsuchbar machen.
Hat jemand einen Tip, wie ich meine PDF's nachträglich mit OCR durchsuchbar machen kann ?
Danke im Voraus !
T.

geimist · 19. Dez. 2021

Was für eine DS hast du?

ThomasKue · 19. Dez. 2021

DS720+ (mit 10GB RAM)

geimist · 19. Dez. 2021

Dann funktioniert die Lösung über synOCR. Du hast zwei Möglichkeiten:

du kannst alle deine Dokumente in den Eingangsordner von synOCR legen (somit kannst du keine Ordnerhierarchie aufarbeiten). Alles liegt nachher in einem Ordner, oder du lässt Regeln anwenden.
wenn du deine bisherige Ordnerhierachie beibehalten möchtest, benötigst du dieses Hilfsskript. Der gesamte Ablauf geht dann in 3 Schritten. Eine Anleitung findest du HIER.

Bei Fragen, fragen …

ThomasKue · 19. Dez. 2021

Vielen Dank für die Info.
Dann werd mich mich mal dran machen !

ThomasKue · 06. Jan. 2022

Hallo,
so nun endlich mal Zeit mich dem Thema weiter zumachen !
Jetzt hab ich aber mal eine blöde Frage:
Ich habe synOCR erfolgreich am laufen (muss natürlich noch Pfade definieren usw.). Jetzt meine blöde Frage: Ich muss aber auch noch OCRMYPDF (Docker) installieren ??????? Oder nur synOCR....bin jetzt verunsichert.....
Gibt es hier eine Reihenfolge ? Also zuerst OCRMYPDF und dann synOCR oder egal ?
Danke im Voraus!!

geimist · 06. Jan. 2022

Nur das Paket Docker muss installiert sein. Um den Rest kümmert sich synOCR.

ThomasKue · 08. Jan. 2022

Hallo, jetzt muss ich nochmals um Hilfe fragen....
Also, Pfade usw. bei synOCR konfiguriert und es läuft auch ohne Probleme....dachte ich !
Wenn ich mir das log-file anschaue, steht da folgende Fehlermeldung:

➜ OCRmyPDF-LOG:
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
1 skipping all processing on this page
Postprocessing...
Optimize ratio: 1.00 savings: 0.0%
Output sent to stdout
← OCRmyPDF-LOG-END

Gehe mal davon aus, dass da was nicht mit DOCKER funktioniert? Muss ich das u.g. dockerimage runterladen (bei Docker)?

Bildschirmfoto 2022-01-08 um 12.27.23.png

Event. jemand Info hier ? Kann auch gerne das ganze log-file hier zeigen....

Danke vorab!

geimist · 08. Jan. 2022

Wie sieht denn deine PDF im Ausgabeverzeichnis aus?
Die ist doch bestimmt schon fertig, oder gibt es damit Probleme?

Du brauchst manuell kein Image laden und die Fehlermeldung ist für die Funktion nicht relevant.

ThomasKue · 08. Jan. 2022

PDF's liegen im Ausgabeverzeichniss, auch mit eingestellter Namenklatur...funktioniert einwandfrei !
DANKE für die Info, dass die Fehlermeldung nicht relevant ist.
JETZT hab ich noch eine (hoffentlich) letzte Frage:
Leider zeigt die Suche im Finder (Mac) kein Ergebnis wenn ich nach einem Inhalt der prozessierten PDF's suche ? Muss ich erst eine Indizierung aller Dateien machen (unter Universal suche) ??

p.s. grosses Lob an Stephan, einfach super wie schnell und kompetent geantwortet wird! Genial....

geimist · 08. Jan. 2022

Wenn ich mich recht erinnere, muss der entsprechende Ordner (wo die PDF liegt) in Universal Search aufgenommen werden. Wichtig: die Suche muss auch das Kriterium 'Dokument' eingeschlossen haben (= Volltextsuche).

Bildschirmfoto 2022-01-08 um 14.15.40.png

Die Volltextsuche funktioniert dann auch im Finder, aber nicht in Spotlight.

Suche

Suche

OCR nachträglich

ThomasKue

Benutzer

geimist

Benutzer

ThomasKue

Benutzer

geimist

Benutzer

ThomasKue

Benutzer

ThomasKue

Benutzer

geimist

Benutzer

ThomasKue

Benutzer

geimist

Benutzer

ThomasKue

Benutzer

geimist

Benutzer

Kaffeautomat