pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Status
Für weitere Antworten geschlossen.
Klasse, vielen Dank! Der Aufruf des Dockercontainers lässt doch als Paramater eine Outputdatei zu; könnte man da nicht "einfach" den Zielordner per Variable übergeben, welche man in der Datei config.php definiert? Vermutlich tritt dann da ebenfalls das Zugriffsproblem auf :-(
 
Ich bin das Problem mit den Dateien verschieben so angegangen.
Ich habe eine Shell Datei im Texteditor erstellt, die ich mit "move" Befehlen und den entsprechenden Zielordnern füttere.
Über den Aufgabenplaner lasse ich die Datei ausführen und sie verschiebt die OCR gescannten Dateien in ihre richtigen Ordner.
Läuft wunderbar.
Habt ihr Fragen dazu, dann bitte melden. Bevor ich jetzt alles mit Screenshots kommentiere und es niemand braucht.
 
@geimist: Ja, danke, ich habe deine PN bekommen. Heruntergeladen und installiert. Zum Ausprobieren komme ich leider erst heute Abend aber dann gebe ich dir auf jeden Fall Bescheid.

@all: Ich werde noch mit meiner Anleitung warten, dass was ich jetzt von geimist gesehen habe schein richtig cool zu sein. Morgen um diese Zeit wissen wir mehr.
 
Brauchst dich doch nicht entschudligen. Ich dachte mir schon, dass du sie nicht gesehen hattest :-)
Sobald ich ein paar positive Feedbacks bekommen habe, stelle ich es via cphub.net für alle zur Verfügung.
 
Hi Stephan,

darf ich an dem Test vielleicht auch teilnehmen?

vg
 
ich würde es auch sehr gerne ausprobieren ;-)
 
mega, danke! Funktioniert auch in Team-Ordnern. Eine Frage dazu: Bleiben durchsuchbare pdfs unberücksichtigt? d.h. wenn ich als Quell und Zielordner ein- und derselbe Ordner sind, wird das Probleme geben oder schnappt sich das Programm nur die undurchsuchbaren pdfs? Meine Arbeitsumgebung sieht aus: Mehrere Mitarbeiter greifen auf einen bestimmten Ordner zu und legen dort regelmäßig pdf-Dateien (Kundenaufträge) ab. Diese sollen einmal pro Tag (bzw. Nacht) in durchsuchbare pdfs umgewandelt werden, die Originaldateien werden in ein Archiv verschoben. Im Prinzip funktioniert das auch so wie ich mir das vorstelle, wenn ich als Quell- und Zielordner ein und denselben Ordner angebe und einen separaten Archivordner für die Originale. Nur ist die Frage was passiert, wenn da mal ein paar hundert pdfs drinliegen, werden die alle jedes mal erneut gescannt?
 
@elbaero
In der Konfiguration steht hinter jedem Feld ein "i". Beim Drüberhovern wird alles erklärt.
 
stimmt, danke, bei den OCR-Optionen hatte ich nicht drübergehovert, sorry.
 
Kleiner Tipp: Wenn die PDFs nicht wieder durchsucht werden sollen, kannst du das mittels dem Präfix verhindern.
 
Fragen zu synOCR sollten der Ordnung wegen im entsprechenden Thread diskudiert werden.

Aber weil ich jetzt eh schon hier schreibe:
… Nur ist die Frage was passiert, wenn da mal ein paar hundert pdfs drinliegen, werden die alle jedes mal erneut gescannt?
Für jede Datei wird der Dockercontainer OCRmyPDF gestartet. Er erkennt dann BEIM bearbeiten, dass bereits ein Textlayer vorhanden ist. Aus Performancegründen würde ich mit verschiedenen Ordnern, bzw. mit dem Renamepräfix arbeiten.

Antworten dann bitte im anderen Thread.
 
ok danke, wird gemacht
 
Hallo zusammen,

es gibt auch einen Container mit dem Namen pombeirp-ocrmypdf-watchdog (https://hub.docker.com/r/pombeirp/ocrmypdf-watchdog/). Da ist neben OCRmyPDF direkt Watchdog für einen Hot-Folder enthalten. Man muss nur die beiden Ordner /archive/ und /hot-folder/ mit lokalen Verzeichnissen verbinden und dann läuft der Container super. Geht seit Tagen bei mir.

Grüße Rap
 
Hallo zusammen,
erstmal Danke für die Entwicklung des Scripts.
Mich interessiert folgendes.
Ist es machbar, dass das Script
1. einen bestimmten Wert durch Ocr erkennt und den Text im Nachgang als Dateinamen verwendet?

Beispiel: Im Text steht: Auftragsnummer: 265362525. Kann dieser Wert "265362525" dann als Vorlage für die Umbenennung werden?

2. Erkennen von vordefinierten #Tags (das müsste es ja, so wie ich es gelesen habe, mit den Hashtasgs schon funktionieren) und dann in einen bestimmten Ordner verschieben.
Bsp: Erkennung von: (ktoauszug) Sparkasse -> move to Ordner /Sparkasse.

Ich hoffe positives zu hören :) Oder wie man das umsetzen kann.
Danke
Hannes
 
Hallo Stefan!

Auch von mir ein großes Dankeschön für deine Arbeit und dass du sie zur Verfügung stellst. Dein Script läuft bei mir einwandfrei. Eine kleine Hürde sind die Umlaute und deren Codierung in der config (rename-rules und tagrules). Anstatt der Umlaute in Klarschrift, muss man halt die ISO-codierten Symbole verwenden, um dann UTF-8-Ausgabe im Dateinamen zu erhalten (oder wars andersrum? Naja, du weißt was ich meine). Ich hab mir einfach die Symbolkombinationen für Umlaute direkt in der config als Kommentar bereitgestellt und kopiere sie dann bei Bedarf einfach in den jeweiligen Array runter.

Was das Verschieben der fertigen Dateien angeht, versteh ich grundsätzlich deinen Ansatz. Natürlich sollte jede renamed-PDF auf Schlüssigkeit kontrolliert werden. Nur finde ich es auch sehr unübersichtlich, die für die manuelle Nachbearbeitung fertigen OCRed-PDFs in der "Inbox" zu belassen. Wenn man da mal in ner Woche 100 Dateien durch den Scanner jagd und erst am Wochenende Zeit für die Nachbearbeitung hat, kann man zwischendurch auch fehlerhafte (nicht bearbeitete) Dateien nicht so leicht von den unbearbeiteten und den ocr'ed-en Dateien unterscheiden. Ich arbeite mit einem Pyhton-Script, welches die moves durchführt. Sauber ist das aber nicht, da ich (und das ist die hässliche Lösung) keine "Kontrollinstanz" einbauen kann (dafür reichen meine Programmierkenntnisse nicht, um zB auf einen bestehenden Textlayer zu kontrollieren). Sauber wäre es, könnte dein Script im loop, direkt nach dem rename, die aktuelle im handling befindliche Datei in einen "Kontrollordner" moven, ehe die nächste Datei zum Zug kommt. Mit (m)einer Script-in-Script-Lösung ist das nicht unmöglich.

Ich hab schon mitbekommen, dass du kaum Zeit für dieses Script hast, zudem scheint es geimist gerade gewisssermaßen weiter zu entwickeln (allerdings nicht mehr als Script). Ich glaube und hoffe aber, dass die move-Funktion für dich nur einen sehr geringen Aufwand darstellt (in Python sind es zB nur ein paar Zeilen) und du dich diesem großen Anliegen der Community noch annehmen kannst :o

Zuletzt zur Datumserkennung: soweit ich das in deinem Script gesehen habe, läuft die Datumserkennung nicht, wenn sie im Format dd. Monat-ausgeschrieben yyyy vorliegt (was aber praktisch immer der Fall in Geschäftsbriefen ist). Glaubst du dieses Format auch noch mit einbauen zu können?

Ansonsten absolut großartige Arbeit!! Vielen Dank dafür!!

Christian
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat