pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

whocares · 13. Jan. 2019

Klasse, vielen Dank! Der Aufruf des Dockercontainers lässt doch als Paramater eine Outputdatei zu; könnte man da nicht "einfach" den Zielordner per Variable übergeben, welche man in der Datei config.php definiert? Vermutlich tritt dann da ebenfalls das Zugriffsproblem auf :-(

rabu · 14. Jan. 2019

Ich bin das Problem mit den Dateien verschieben so angegangen.
Ich habe eine Shell Datei im Texteditor erstellt, die ich mit "move" Befehlen und den entsprechenden Zielordnern füttere.
Über den Aufgabenplaner lasse ich die Datei ausführen und sie verschiebt die OCR gescannten Dateien in ihre richtigen Ordner.
Läuft wunderbar.
Habt ihr Fragen dazu, dann bitte melden. Bevor ich jetzt alles mit Screenshots kommentiere und es niemand braucht.

whocares · 14. Jan. 2019

Würde mich über genau so eine Anleitung freuen.

geimist · 14. Jan. 2019

whocares schrieb:
Würde mich über genau so eine Anleitung freuen.

Hast du meine PN bekommen?

rabu · 14. Jan. 2019

@geimist: Ja, danke, ich habe deine PN bekommen. Heruntergeladen und installiert. Zum Ausprobieren komme ich leider erst heute Abend aber dann gebe ich dir auf jeden Fall Bescheid.

@all: Ich werde noch mit meiner Anleitung warten, dass was ich jetzt von geimist gesehen habe schein richtig cool zu sein. Morgen um diese Zeit wissen wir mehr.

whocares · 14. Jan. 2019

geimist schrieb:
Hast du meine PN bekommen?

Entschuldigung bitte, tatsächlich eben erst gesehen. Vielen Dank, schaue ich mir gerne in Ruhe an, leider werde ich erst am Wochenende dazu kommen.

geimist · 14. Jan. 2019

Brauchst dich doch nicht entschudligen. Ich dachte mir schon, dass du sie nicht gesehen hattest

Sobald ich ein paar positive Feedbacks bekommen habe, stelle ich es via cphub.net für alle zur Verfügung.

Huhie · 14. Jan. 2019

Hi Stephan,

darf ich an dem Test vielleicht auch teilnehmen?

vg

geimist · 14. Jan. 2019

Infos und Fragen zur GUI für OCRmyPDF gibt es hier ==> synOCR - GUI für OCRmyPDF

elbaero · 15. Jan. 2019

ich würde es auch sehr gerne ausprobieren ;-)

geimist · 15. Jan. 2019

Hallo elbaero,
klicke mal auf den Link über deiner Frage

elbaero · 15. Jan. 2019

mega, danke! Funktioniert auch in Team-Ordnern. Eine Frage dazu: Bleiben durchsuchbare pdfs unberücksichtigt? d.h. wenn ich als Quell und Zielordner ein- und derselbe Ordner sind, wird das Probleme geben oder schnappt sich das Programm nur die undurchsuchbaren pdfs? Meine Arbeitsumgebung sieht aus: Mehrere Mitarbeiter greifen auf einen bestimmten Ordner zu und legen dort regelmäßig pdf-Dateien (Kundenaufträge) ab. Diese sollen einmal pro Tag (bzw. Nacht) in durchsuchbare pdfs umgewandelt werden, die Originaldateien werden in ein Archiv verschoben. Im Prinzip funktioniert das auch so wie ich mir das vorstelle, wenn ich als Quell- und Zielordner ein und denselben Ordner angebe und einen separaten Archivordner für die Originale. Nur ist die Frage was passiert, wenn da mal ein paar hundert pdfs drinliegen, werden die alle jedes mal erneut gescannt?

peterhoffmann · 15. Jan. 2019

@elbaero
In der Konfiguration steht hinter jedem Feld ein "i". Beim Drüberhovern wird alles erklärt.

elbaero · 15. Jan. 2019

stimmt, danke, bei den OCR-Optionen hatte ich nicht drübergehovert, sorry.

peterhoffmann · 15. Jan. 2019

Kleiner Tipp: Wenn die PDFs nicht wieder durchsucht werden sollen, kannst du das mittels dem Präfix verhindern.

geimist · 15. Jan. 2019

Fragen zu synOCR sollten der Ordnung wegen im entsprechenden Thread diskudiert werden.

Aber weil ich jetzt eh schon hier schreibe:

elbaero schrieb:
… Nur ist die Frage was passiert, wenn da mal ein paar hundert pdfs drinliegen, werden die alle jedes mal erneut gescannt?

Für jede Datei wird der Dockercontainer OCRmyPDF gestartet. Er erkennt dann BEIM bearbeiten, dass bereits ein Textlayer vorhanden ist. Aus Performancegründen würde ich mit verschiedenen Ordnern, bzw. mit dem Renamepräfix arbeiten.

Antworten dann bitte im anderen Thread.

elbaero · 15. Jan. 2019

ok danke, wird gemacht

nelsonsg · 18. Jan. 2019

Hallo zusammen,

es gibt auch einen Container mit dem Namen pombeirp-ocrmypdf-watchdog (https://hub.docker.com/r/pombeirp/ocrmypdf-watchdog/). Da ist neben OCRmyPDF direkt Watchdog für einen Hot-Folder enthalten. Man muss nur die beiden Ordner /archive/ und /hot-folder/ mit lokalen Verzeichnissen verbinden und dann läuft der Container super. Geht seit Tagen bei mir.

Grüße Rap

HannesG · 29. Jan. 2019

Hallo zusammen,
erstmal Danke für die Entwicklung des Scripts.
Mich interessiert folgendes.
Ist es machbar, dass das Script
1. einen bestimmten Wert durch Ocr erkennt und den Text im Nachgang als Dateinamen verwendet?

Beispiel: Im Text steht: Auftragsnummer: 265362525. Kann dieser Wert "265362525" dann als Vorlage für die Umbenennung werden?

2. Erkennen von vordefinierten #Tags (das müsste es ja, so wie ich es gelesen habe, mit den Hashtasgs schon funktionieren) und dann in einen bestimmten Ordner verschieben.
Bsp: Erkennung von: (ktoauszug) Sparkasse -> move to Ordner /Sparkasse.

Ich hoffe positives zu hören

Oder wie man das umsetzen kann.
Danke
Hannes

Chris122 · 12. März 2019

Hallo Stefan!

Auch von mir ein großes Dankeschön für deine Arbeit und dass du sie zur Verfügung stellst. Dein Script läuft bei mir einwandfrei. Eine kleine Hürde sind die Umlaute und deren Codierung in der config (rename-rules und tagrules). Anstatt der Umlaute in Klarschrift, muss man halt die ISO-codierten Symbole verwenden, um dann UTF-8-Ausgabe im Dateinamen zu erhalten (oder wars andersrum? Naja, du weißt was ich meine). Ich hab mir einfach die Symbolkombinationen für Umlaute direkt in der config als Kommentar bereitgestellt und kopiere sie dann bei Bedarf einfach in den jeweiligen Array runter.

Was das Verschieben der fertigen Dateien angeht, versteh ich grundsätzlich deinen Ansatz. Natürlich sollte jede renamed-PDF auf Schlüssigkeit kontrolliert werden. Nur finde ich es auch sehr unübersichtlich, die für die manuelle Nachbearbeitung fertigen OCRed-PDFs in der "Inbox" zu belassen. Wenn man da mal in ner Woche 100 Dateien durch den Scanner jagd und erst am Wochenende Zeit für die Nachbearbeitung hat, kann man zwischendurch auch fehlerhafte (nicht bearbeitete) Dateien nicht so leicht von den unbearbeiteten und den ocr'ed-en Dateien unterscheiden. Ich arbeite mit einem Pyhton-Script, welches die moves durchführt. Sauber ist das aber nicht, da ich (und das ist die hässliche Lösung) keine "Kontrollinstanz" einbauen kann (dafür reichen meine Programmierkenntnisse nicht, um zB auf einen bestehenden Textlayer zu kontrollieren). Sauber wäre es, könnte dein Script im loop, direkt nach dem rename, die aktuelle im handling befindliche Datei in einen "Kontrollordner" moven, ehe die nächste Datei zum Zug kommt. Mit (m)einer Script-in-Script-Lösung ist das nicht unmöglich.

Ich hab schon mitbekommen, dass du kaum Zeit für dieses Script hast, zudem scheint es geimist gerade gewisssermaßen weiter zu entwickeln (allerdings nicht mehr als Script). Ich glaube und hoffe aber, dass die move-Funktion für dich nur einen sehr geringen Aufwand darstellt (in Python sind es zB nur ein paar Zeilen) und du dich diesem großen Anliegen der Community noch annehmen kannst

Zuletzt zur Datumserkennung: soweit ich das in deinem Script gesehen habe, läuft die Datumserkennung nicht, wenn sie im Format dd. Monat-ausgeschrieben yyyy vorliegt (was aber praktisch immer der Fall in Geschäftsbriefen ist). Glaubst du dieses Format auch noch mit einbauen zu können?

Ansonsten absolut großartige Arbeit!! Vielen Dank dafür!!

Christian

pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat