Papierloses Heimbüro mit docker, OCRmyPDF und GNU parallel in PDF/A möglich?

steje43

Benutzer
Mitglied seit
03. Dez 2011
Beiträge
666
Punkte für Reaktionen
35
Punkte
48
Alles hier proerbiert, läuft auf meiner 918+ nicht.
Es werden keine Dateien in Archiv gelegt. Keine Fehlermeldung o.ä.

Geht bei mir nicht!
 

novregen

Benutzer
Mitglied seit
27. Mrz 2010
Beiträge
151
Punkte für Reaktionen
0
Punkte
16
Gibt es auch eine OCR Lösung auf der Synology die ohne Docker läuft ?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.355
Punkte für Reaktionen
1.161
Punkte
234
Du kannst tesseract auch via IPKG installieren, wirst aber wesentlich geringeren Kompfort als mit OCRmyPDF haben. OCRmyPDF ist nicht nur ein einzelnes Programm, sondern bringt mehrere Programme (u.a. tesseract) durch ein Pythonskript zusammen.
 

servilianus

Benutzer
Mitglied seit
26. Dez 2017
Beiträge
898
Punkte für Reaktionen
242
Punkte
63
Probiert doch bitte mal ecodms aus. Macht alles was ihr wollt, läuft vollkommen stabil auf der Syno - ohne sich mit irgendwelchen Programmcodes rumschlagen zu müssen. Kann man auch als Testversion zum ausprobieren herunerladen. Ist m.M. nach für ein papierloses Office und Volltextindizierung der Dokumente jeden Cent wert. Gerade weil die Dokumente DSGVO-konform gespeichert bzw. gelöscht werden. Einziger Nachteil ist, dass man Word-Dokumente nicht direkt hochladen kann, sondern sie müssen als pdf vorliegen. Und für die Leute ohne Docker gäbe es ja auch die Möglichkeit, ecodms auf dem Rechner (Windows / Linux) zu installieren und die Dokumente-/Datencontainer auf der Syno abzulegen
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.355
Punkte für Reaktionen
1.161
Punkte
234
Gibt es ecoDMS auch ohne Docker?
Laut deren Website:
… ecoDMS unterstützt hierbei jene Gerätetypen, die eine Virtualisierung von Containern via “Docker” erlauben. Nicht alle Modelle der Synology und QNAP Reihe unterstützen Docker. Sollten Sie die aktuellste Version der Synology / QNAP Software installiert haben und Docker nicht vorfinden, gehört das von Ihnen genutzte Modell leider nicht dazu.…

Mir persönlich ist ein DMS nicht zielführend, wenn ich Dokumente nur ge-ocrd haben möchte.
 

servilianus

Benutzer
Mitglied seit
26. Dez 2017
Beiträge
898
Punkte für Reaktionen
242
Punkte
63
Als Serverversion = Zugriff mit/durch unterschiedliche Clients gibt es ecodms nur im Docker. Oder eben lokal auf dem Rechner installiert, dafür die Dokumentenablage/Dokumentenzugriff zentral auf / von der Syno.
 

s4rger4s

Benutzer
Mitglied seit
07. Mai 2020
Beiträge
5
Punkte für Reaktionen
1
Punkte
1
Halli Hallo,

sry dass ich den Thread wiederbelebe. Aber ich habe jetzt das Ganze für mich auch eingerichtet und nutze es aber ohne Python-Script, da ich das zugegebenermaßen, nicht voll verstehe, aber gerne wüsste, was ich da so auf meinem NAS laufen habe. Ich bin kein Linuxprofi und habe zunächst viel hin- und her probiert, wie ich regelmäßig einen bestimmten Ordner auf meinem NAS mit ocrmypdf ocr'en kann, ohne Drittpakete installieren zu müssen und - wie gesagt - ohne Pythonscript.

Ich habe eine Lösung gefunden, aber dabei noch ein Problem. Letzteres hat jetzt nicht direkt mit ocrmypdf zu tun hat, deshalb ist das Problem leicht OT, aber es passt durch die Nähe zum Thema doch irgendwie hier rein ;)

Erst mal meine Lösung, vielleicht interessiert das ja jemanden: Ich scanne meine Dokumente und speichere diese direkt in einem extra dafür vorgesehenen Ordner auf meinem NAS. Dann lasse ich einmal am Tag per Aufgabe diesen Ordner OCRen und lasse die Outputdatei(en) in einem Unterordner des Scanordners ablegen. Dafür nutze ich ein einfaches bash-script.

Rich (BBCode):
cd /volume1/homes/das/ist/mein/scanordner;
find . -printf '%p' -name '*.pdf' -exec docker run --rm -v /volume1/homes/das/ist/mein/scanordner:/data jbarlow83/ocrmypdf -l deu --remove-background --optimize 1 --skip-text '/data/{}' '/data/ocr/{}' \;

Die erste Anweisung wechselt ins Scanverzeichnis, damit ich mit
der zweiten Anweisung per "find ." in diesem Ordner nach PDF-Dateien suchen kann und die printf-Anweisung "../scan.pdf" findet, welche ich dann an den ocrmypdf-Docker übergebe, damit ocrmypdf dann in den Unterordner ...scanordner/ocr die fertige pdf ablegen kann.

Soweit klappt das super. Mein Problem ist nun, dass ich auf meinem PC (synchronisiert sich mit dem NAS via Synology Drive) gern mit dieser Datei weiterarbeiten würde (den Originalscan mit der bearbeiteten PDF vergleichen, dann naütrlich fein säuberlich ins Archiv legen etc.). Mein Problem ist nun, dass die per output.pdf mir per Drive nicht angezeigt wird. Er findet also die per script angelegt Datei nicht. Wenn ich mit der Filestation oder per SMB aufs NAS schaue, sehe ich die Datei. Im Log der Drive Admin-Konsole sieht man, dass die Datei nicht gefunden wurde. Erst nach einem neuen Indizierungslauf wurde sie dann schlussendlich via Drive bereitgestellt.

Da ich aber nicht jedes mal einen ganzen Indexlauf starten will, bin ich nun auf der Suche nach einer Lösung. Ich habe von synoindex gelesen und hier verschiedene Parameter getestet, z.B.:

Rich (BBCode):
sudo synoindex -R /volume1/homes/das/ist/mein/scanordner/ocr/

Leider ohne Erfolg, aber als ich synoindex - versehentlich - über alles gejagt habe (sudo synoindex -R all) konnte ich im LOG der Drive Konsole dann feststellen, dass die Datei hinzugefügt wurde. Kann jmd helfen?
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
99
Punkte
134

s4rger4s

Benutzer
Mitglied seit
07. Mai 2020
Beiträge
5
Punkte für Reaktionen
1
Punkte
1
Ich weiß, ich würde es aber gerne ohne Drittpakete lösen und wissen, was im Hintergrund passiert.
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.355
Punkte für Reaktionen
1.161
Punkte
234

Speicherriese

Benutzer
Mitglied seit
08. Mai 2018
Beiträge
225
Punkte für Reaktionen
56
Punkte
28
Das geht doch Heute viel effektiver. Dokumentenscanner, der erzeugt blitzschnell für vorder und Rückseite durchsuchbare PDFs und diese werden sofort automatisch auf der DS abgelegt. Z.B. mit dem ScanSnap IX500


Und bitte vorher diese Flachbettscanner zum Elektroschrott bringen. ( Was ich getan habe. Diese sind nicht für meine Zwecke verwendbar und nicht mehr zeitgemäß. Für mich Müll)
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
5.512
Punkte für Reaktionen
1.342
Punkte
234

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.135
Punkte für Reaktionen
896
Punkte
424
Der ScanSnap iX500 erzeugt durchsuchbare pdf nur zusammen mit dem Desktop Programm von Fujitsu.
Keine Lösung für jeden. :)
 
  • Like
Reaktionen: peterhoffmann

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
99
Punkte
134
Wie schon einige hier geschrieben habe, stimme ich zu. Des Weiteren ist für mich ein peripheres Gerät nicht mehr zeitgemäß, wenn weitere Clients (in dem Fall also PC bzw. Mac) mitlaufen bzw. hochgefahren werden müssen.

Ich für meinen Teil bevorzuge die Scans via Smartphone (für einige Seiten). Das geht mittlerweile auch ziemlich schnell. Für 30+ Seiten oder so nehme ich sie eben mit ins Büro (Scanner, der sogar ein gebundenes Buch scannen kann -> nein, braucht nicht jede/r, daher schreib ich ja nur von meiner Person, nicht für andere wie @peterhoffmann schon korrekt umrissen hat.).
 
  • Like
Reaktionen: peterhoffmann

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
5.512
Punkte für Reaktionen
1.342
Punkte
234
ist für mich ein peripheres Gerät nicht mehr zeitgemäß
Im Grunde wollte ich darauf hinaus. Das Gerät ist super, kann aber kein OCR, wenn der PC aus ist. Um einen Scanvorgang ohne PC und mit OCR umzusetzen, benötigt man halt synOCR, welches auf dem NAS läuft. Der Scanner macht stupide seinen Job (Scan ohne OCR), legt das PDF auf das NAS, synOCR läuft drüber und legt das Dokument passend ab. Selber hat man im Vorbeigehen 5 Sekunden seiner Zeit investiert. Den Rest macht das System. Das nenne ich dann effektives Arbeiten.

Scanner, der sogar ein gebundenes Buch scannen kann
Ein Flachbettscanner hat auch nach über 30 Jahren noch absolut seine Berechtigung wie man an deinem Beispiel sehen kann. Mir fallen da z.B. alle Fälle ein, wo man mehr als 600 dpi benötigt.
 
  • Like
Reaktionen: TeXniXo


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat