Vom gescannten Dokument zur gefundenen PDF-Datei

STobiasS

Benutzer
Mitglied seit
31. Mai 2022
Beiträge
7
Punkte für Reaktionen
2
Punkte
3
@abrocksi hast recht es es sich hier um die V.1.10 des Tools organize von T. Feldmann handelt. Mit ist die Config angepasst funktioniert auch alles :). Ich danke dir für deine Hilfe.

Nur leider für meine Zwecke immer noch nicht funktionsfähig, da ich gerne in den Dateien lesen möchte, um diese anschließend in passende Ordner einzusortieren. Für das lesen in die Datei wird die action: filecontent genutzt (wie @guidovg, der die Funktion auch in seiner Config nutzt), diese ist aber leider nicht auf meinem Image mit Installiert, sodass es zum folgenden Fehler kommt:

Folder /source:
File 2020-11-27_Scan.pdf:
- (FileContent) ERROR! textract is not installed. Install with pip install organize-tool[textract]
Nothing to do.
Ich wüsste nicht wie ich dies noch in mein Image installieren kann. Ist es richtig, dass diese Installation mit der Erstellung des Images aufgesetzt hätte werden müssen? Falls ja, hat jemand ein passendes Image, welches er mir zu Verfügung stellen könnte?
 

abrocksi

Benutzer
Mitglied seit
27. Dez 2013
Beiträge
240
Punkte für Reaktionen
79
Punkte
28
Leider auch mein Problem. Wobei ich die User-Meldung nicht bekomme, sondern eine Info das so etwas wie "textract" fehlt und über PIP zu installieren wäre. Wüsste nicht wie ich das machen soll, zumal der Container sich nach Start und Verarbeitung der Dateien rucki-zucki wieder schließt. So schnell komme ich gar nicht in den Container rein, um da ggf. noch mittels PIP etwas zu installieren. Schade, so kann ich den Filter bzw. die Action filecontent gar nicht nutzen.
 
Zuletzt bearbeitet von einem Moderator:

STobiasS

Benutzer
Mitglied seit
31. Mai 2022
Beiträge
7
Punkte für Reaktionen
2
Punkte
3
Ich habe das Problem jetzt gelöst indem ich mich mit Docker auseinander gesetzt habe und eine eigenes Image mit dem V2.20 des Tools organize von T. Feldmann erstellt habe.
Die Schritte dazu sind echt ganze einfach:
1. Docker auf dem PC installieren.
2. Visual Code mit Docker Addon installieren. (es geht auch bestimmt eine andere Entwicklungsumgebung)
3. Dockerfile in Visualcode anlegen mit folgendem Inhalt:

FROM python:3.10
RUN pip3 install -U "organize-tool[textract]"

4. Rechtsklick auf die Dockerfile und auf Build-Image klicken
1654767964463.png
5. Dann einen Namen geben. Hier ist die folgende Struktur zu beachten <name>:<tag>
6. Docker Image exportieren (hab ich ganz einfach über cmd gemacht, geht auch im Terminal von Visual-Code):
docker save -o <dateiname>.tar <imagename>
(mit "docker images" kann man sich einmal alle images vorher anzeigen)
1654768126561.png
7. Die .tar-Datei auf das Synology NAS hochladen und unter images als Datei importieren.


Dann gibt es zwei Möglichkeiten für den Container:

1. Script läuft voll automatisiert über den Aufgabenplaner
Dann müssen wir bei der Container-Erstellung darauf achten das wir "organize run" in den erweiterten Einstellungen in die Befehlszeile eintragen.
1654768429777.png
Dann wird das Script automatisch gestartet, wenn wir im Aufgabenplaner den container (docker start <containername>) starten.


oder

2. aktive Bediehnung des Scriptes in der BASH des Containers

Dann kann das Image direkt erstellt werden und kann über das Terminal des Containers bedient werden.

Natürlich müssen bei beiden Methoden die Pfade noch gemappt werden.
Hi STobiasS,

hast Du denn unter /volume1/docker diese beiden Pfade gemappt?

- /path/to/config/:/root/.config/organize
- /path/to/logs/:/var/log/organize

Und ein config.yaml in /path/to/config/ mit mindestens einer Rule abgelegt?

cheers,
abrocksi

Also eigentlich ganz einfach, wenn man weiß wie ;P

Beste Grüße,
Tobias
 

abrocksi

Benutzer
Mitglied seit
27. Dez 2013
Beiträge
240
Punkte für Reaktionen
79
Punkte
28
Ich habe das Problem jetzt gelöst indem ich mich mit Docker auseinander gesetzt habe und eine eigenes Image mit dem V2.20 des Tools organize von T. Feldmann erstellt habe.
RESPEKT !!! Muss ich mir anschauen!!!
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Kleine Frage am Rande, wäre Paperless-ngx nicht das richtige für dich?
 

abrocksi

Benutzer
Mitglied seit
27. Dez 2013
Beiträge
240
Punkte für Reaktionen
79
Punkte
28
Hi Ed,

auf jeden Fall! paperless-ng ist im Einsatz und verrichtet gute Dienste u.a. beim Auslesen und Scannen von Mailattachments.

Aber ich bekomme die Umwandlung von Doks und die Einsortierung nicht hin. Auch nutze ich Nextcloud und möchte ungern ein DMS noch daneben stellen.

cheers,
abrocksi
 

zeen

Benutzer
Mitglied seit
21. Feb 2021
Beiträge
1
Punkte für Reaktionen
3
Punkte
53
Hallo zusammen,

als stiller Mitleser will ich zum Einstand mal einen Teil meines "Dokumenten-Workflows" hier anmerken, was dem ein oder anderen auch nützen kann.

Und zwar geht es um den Teil Duplex Scan.

Ich nutze einen älteren netzwerkfähigen Brother-Drucker MFC-9332CDW mit ADF Einheit (aber ohne Duplex Funktion).
Die einseiten Dokumente scanne ich vom Brother aus direkt in einen "ScanInput-Ordner" auf das Synology-NAS und lasse sie mehrmals täglich mit dem cleveren synOCR "ocr"en und benamen; geht schnell und einfach, alles recht ähnlich dem Themen-Starter, allerdings wird anschließend manuell in entsprechende Ordner einsortiert; also:

Brother scannt (1x) > NAS/ScanInput-Ordner (1 PDF) > synOCR > NAS/OCROutput-Ordner > manuelles Weiterverarbeiten

Immer mal wieder kommen dann doch zweiseitige Dokumente, oft mit deutlich mehr als 2 Blättern rein und da ein Duplex-Scanner in einer anderen Preisliga spielt, ich andererseits nicht manuell 2-seitige PDFs am PC scannen oder zusammenfügen will, sollte das NAS das übernehmen.

Nach längerer Suche habe ich vor geraumer Zeit ein für mich praktisches Programm dafür gefunden:
pdftk_duplex von unix0r (https://github.com/unix0r/pdftk_duplex)

Das Programm/Skript nimmt 2 PDFs und verbindet sie wechselseitig, wobei die zweite PDF rückwärts einsortiert wird, z.B.
PDF 1: Seite 1 3 5
PDF 2: Seite 6 4 2
ergibt PDF 3: Seite 1 2 3 4 5 6
Die Anwendung lässt sich mittels Docker auf der Synology installieren und ausführen; nett ist, dass es kaum Ressourcen benötigt, sehr einfach gehalten ist und keine unnötigen Abhängigkeiten erzeugt. Da mein NAS oft die meiste Zeit schläft, lasse ich den Docker-Container zudem zeitgesteuert starten und nach wenigen Minuten wieder beenden (genauso wie synOCR); dadurch kann das NAS seinen "Schlafrhytmus" beibehalten.

Der zweite (alternative) "Dokumenten-Workflow" ergänzt also den ersten und sieht nun so aus:

Brother scannt (2x) > NAS/DuplexScanInput-Ordner (2 PDF) > pdftk_duplex > NAS/ScanInput-Ordner (1 PDF) > synOCR > NAS/OCROutput-Ordner > manuelles Weiterverarbeiten

Das Ganze funktioniert hier nun seit einigen Monaten echt gut, lediglich bei fehlerhaften Scans wäre wohl ein Eingreifen notwendig, was zum Glück noch nicht vorgekommen ist.

Gruß,
zeen
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat