Vom gescannten Dokument zur gefundenen PDF-Datei

STobiasS · 08. Juni 2022

@abrocksi hast recht es es sich hier um die V.1.10 des Tools organize von T. Feldmann handelt. Mit ist die Config angepasst funktioniert auch alles

. Ich danke dir für deine Hilfe.

Nur leider für meine Zwecke immer noch nicht funktionsfähig, da ich gerne in den Dateien lesen möchte, um diese anschließend in passende Ordner einzusortieren. Für das lesen in die Datei wird die action: filecontent genutzt (wie @guidovg, der die Funktion auch in seiner Config nutzt), diese ist aber leider nicht auf meinem Image mit Installiert, sodass es zum folgenden Fehler kommt:

Folder /source:
File 2020-11-27_Scan.pdf:
- (FileContent) ERROR! textract is not installed. Install with pip install organize-tool[textract]
Nothing to do.

Ich wüsste nicht wie ich dies noch in mein Image installieren kann. Ist es richtig, dass diese Installation mit der Erstellung des Images aufgesetzt hätte werden müssen? Falls ja, hat jemand ein passendes Image, welches er mir zu Verfügung stellen könnte?

abrocksi · 08. Juni 2022

Leider auch mein Problem. Wobei ich die User-Meldung nicht bekomme, sondern eine Info das so etwas wie "textract" fehlt und über PIP zu installieren wäre. Wüsste nicht wie ich das machen soll, zumal der Container sich nach Start und Verarbeitung der Dateien rucki-zucki wieder schließt. So schnell komme ich gar nicht in den Container rein, um da ggf. noch mittels PIP etwas zu installieren. Schade, so kann ich den Filter bzw. die Action filecontent gar nicht nutzen.

STobiasS · 09. Juni 2022

Ich habe das Problem jetzt gelöst indem ich mich mit Docker auseinander gesetzt habe und eine eigenes Image mit dem V2.20 des Tools organize von T. Feldmann erstellt habe.
Die Schritte dazu sind echt ganze einfach:
1. Docker auf dem PC installieren.
2. Visual Code mit Docker Addon installieren. (es geht auch bestimmt eine andere Entwicklungsumgebung)
3. Dockerfile in Visualcode anlegen mit folgendem Inhalt:

FROM python:3.10
RUN pip3 install -U "organize-tool[textract]"

4. Rechtsklick auf die Dockerfile und auf Build-Image klicken

5. Dann einen Namen geben. Hier ist die folgende Struktur zu beachten <name>:<tag>
6. Docker Image exportieren (hab ich ganz einfach über cmd gemacht, geht auch im Terminal von Visual-Code):

docker save -o <dateiname>.tar <imagename>

(mit "docker images" kann man sich einmal alle images vorher anzeigen)

7. Die .tar-Datei auf das Synology NAS hochladen und unter images als Datei importieren.

Dann gibt es zwei Möglichkeiten für den Container:

1. Script läuft voll automatisiert über den Aufgabenplaner
Dann müssen wir bei der Container-Erstellung darauf achten das wir "organize run" in den erweiterten Einstellungen in die Befehlszeile eintragen.

Dann wird das Script automatisch gestartet, wenn wir im Aufgabenplaner den container (docker start <containername>) starten.

oder

2. aktive Bediehnung des Scriptes in der BASH des Containers
Dann kann das Image direkt erstellt werden und kann über das Terminal des Containers bedient werden.

Natürlich müssen bei beiden Methoden die Pfade noch gemappt werden.

abrocksi schrieb:
Hi STobiasS,

hast Du denn unter /volume1/docker diese beiden Pfade gemappt?

- /path/to/config/:/root/.config/organize
- /path/to/logs/:/var/log/organize

Und ein config.yaml in /path/to/config/ mit mindestens einer Rule abgelegt?

cheers,
abrocksi

Also eigentlich ganz einfach, wenn man weiß wie ;P

Beste Grüße,
Tobias

abrocksi · 09. Juni 2022

STobiasS schrieb:
Ich habe das Problem jetzt gelöst indem ich mich mit Docker auseinander gesetzt habe und eine eigenes Image mit dem V2.20 des Tools organize von T. Feldmann erstellt habe.

RESPEKT !!! Muss ich mir anschauen!!!

EDvonSchleck · 09. Juni 2022

Kleine Frage am Rande, wäre Paperless-ngx nicht das richtige für dich?

abrocksi · 09. Juni 2022

Hi Ed,

auf jeden Fall! paperless-ng ist im Einsatz und verrichtet gute Dienste u.a. beim Auslesen und Scannen von Mailattachments.

Aber ich bekomme die Umwandlung von Doks und die Einsortierung nicht hin. Auch nutze ich Nextcloud und möchte ungern ein DMS noch daneben stellen.

cheers,
abrocksi

zeen · 20. Sep. 2022

Hallo zusammen,

als stiller Mitleser will ich zum Einstand mal einen Teil meines "Dokumenten-Workflows" hier anmerken, was dem ein oder anderen auch nützen kann.

Und zwar geht es um den Teil Duplex Scan.

Ich nutze einen älteren netzwerkfähigen Brother-Drucker MFC-9332CDW mit ADF Einheit (aber ohne Duplex Funktion).
Die einseiten Dokumente scanne ich vom Brother aus direkt in einen "ScanInput-Ordner" auf das Synology-NAS und lasse sie mehrmals täglich mit dem cleveren synOCR "ocr"en und benamen; geht schnell und einfach, alles recht ähnlich dem Themen-Starter, allerdings wird anschließend manuell in entsprechende Ordner einsortiert; also:

Brother scannt (1x) > NAS/ScanInput-Ordner (1 PDF) > synOCR > NAS/OCROutput-Ordner > manuelles Weiterverarbeiten

Immer mal wieder kommen dann doch zweiseitige Dokumente, oft mit deutlich mehr als 2 Blättern rein und da ein Duplex-Scanner in einer anderen Preisliga spielt, ich andererseits nicht manuell 2-seitige PDFs am PC scannen oder zusammenfügen will, sollte das NAS das übernehmen.

Nach längerer Suche habe ich vor geraumer Zeit ein für mich praktisches Programm dafür gefunden:
pdftk_duplex von unix0r (https://github.com/unix0r/pdftk_duplex)

Das Programm/Skript nimmt 2 PDFs und verbindet sie wechselseitig, wobei die zweite PDF rückwärts einsortiert wird, z.B.
PDF 1: Seite 1 3 5
PDF 2: Seite 6 4 2
ergibt PDF 3: Seite 1 2 3 4 5 6
Die Anwendung lässt sich mittels Docker auf der Synology installieren und ausführen; nett ist, dass es kaum Ressourcen benötigt, sehr einfach gehalten ist und keine unnötigen Abhängigkeiten erzeugt. Da mein NAS oft die meiste Zeit schläft, lasse ich den Docker-Container zudem zeitgesteuert starten und nach wenigen Minuten wieder beenden (genauso wie synOCR); dadurch kann das NAS seinen "Schlafrhytmus" beibehalten.

Der zweite (alternative) "Dokumenten-Workflow" ergänzt also den ersten und sieht nun so aus:

Brother scannt (2x) > NAS/DuplexScanInput-Ordner (2 PDF) > pdftk_duplex > NAS/ScanInput-Ordner (1 PDF) > synOCR > NAS/OCROutput-Ordner > manuelles Weiterverarbeiten

Das Ganze funktioniert hier nun seit einigen Monaten echt gut, lediglich bei fehlerhaften Scans wäre wohl ein Eingreifen notwendig, was zum Glück noch nicht vorgekommen ist.

Gruß,
zeen

Suche

Suche

Vom gescannten Dokument zur gefundenen PDF-Datei

STobiasS

Benutzer

abrocksi

Benutzer

STobiasS

Benutzer

abrocksi

Benutzer

EDvonSchleck

Gesperrt

abrocksi

Benutzer

zeen

Benutzer

Kaffeautomat