Seite 1 von 3 123 LetzteLetzte
Ergebnis 1 bis 10 von 26
  1. #1

    Idee Papierloses Heimbüro mit docker, OCRmyPDF und GNU parallel in PDF/A möglich?

    Hallo liebes Forum,

    seit kurzem bin ich stolzer Besitzer einer DS216+II und begeistert wie viel besser dieses NAS im Vergleich zum Netgear Vorgänger ist.
    Jetzt habe ich Blut geleckt und möchte gerne meine ganze Zettelwirtschaft abschaffen und Archivierbare PDF (PDF/A) mit OCR Layer nutzen.

    Ziel ist ein Workflow ohne Zusatzgerät und ohne Dokumenten Management System.
    Ich scanne ein Dokument und lasse den Scan als PDF auf dem NAS ablegen.
    Auf dem NAS läuft ein Batch-Job, der alle neuen Dokumente mit OCR-Layer ergänzt und als PDF/A abspeichert.

    Ich besitze schon einen Scanner der mir die Bilder als PDF auf dem NAS ablegt.
    Über docker kann ich mir das Image von OCRmyPDF (=Skript) ziehen, mit dem eine richtig gute Konversion von Bild-PDF auf PDF/A mithilfe von Googles tesseract erzeugt wird.
    Github Link
    Docker Container

    Allerdings funktioniert das Skript nur indem man ihm direkt die Datei mitgibt.

    Hier kommt GNU parallel ins Spiel, mit dem laut Dokumentation die Erstellung eines Batch-Jobs möglich ist.
    Dokumentation Batch Jobs
    Also:
    1. Bisher im Ordner aufgelaufene Dateien erkennen.
    2. Alle Dateien mit OCR-Layer versehen und Ergebnis als neue Datei in anderem Verzeichnis abspeichern.
    [3. Umgang mit Originalen fehlt ]


    Hier brauche ich eure Hilfe, denn ich habe leider keine große Erfahrung mit Linux-Systemen und Synology NAS im Besonderen.
    Außerdem will ich keine Garantie verletzen.

    In meiner naiven Welt kann das Synology NAS mit einer zeitgesteuerten Aufgabe im DSM per GNU parallel den docker Container mit OCRmyPDF starten.
    Alle bis zu diesem Zeitpunkt gescannten Bild-PDFs im Verzeichnis A werden mit OCR-Layer versehen und als PDF/A in Verzeichnis B abgelegt.
    Die Originale werden im Erfolgsfall nach Verzeichnis C verschoben.
    Im Misserfolgsfall bleiben die Originale für einen neuen Versuch im Verzeichnis A.

    Damit brauche ich zumindest Hilfe beim Einrichten der Aufgabe und Installation von GNU parallel.
    Oder ihr habt eine andere Idee, wie ich den Batchjob deichseln kann.

    Über eure Hilfe würde ich mich wirklich sehr freuen.

  2. #2
    Anwender
    Registriert seit
    10.11.2017
    Beiträge
    13

    Standard

    Hallo.

    Ich möchte auch automatisch ein Verzeichnis überwachen lassen und dort die PDF Dateien erkennen lassen.
    Diese dann in ein anderes Verzeichnis Kopieren.

    Den Docker Container habe ich auch Installiert allerdings startet er nicht.
    Er wird immer wieder automatisch angehalten.

    Wie hast Du es denn ans laufen gebracht?

    Das Script von dem Batch Job habe ich auch versucht auszuführen allerdings bricht dieses immer mit einem Syntax Fehler ab.

    Hoffe das mir hier weitergeholfen werden kann.

  3. #3
    Anwender
    Registriert seit
    10.11.2017
    Beiträge
    13

    Standard

    Ok. Habe meine Fehler gefunden die ich gemacht habe.
    Das Script "läuft" jetzt zwar ohne Fehlermeldungen aber es macht nichts.
    Also es werden keine PDF Dateien umgewandelt oder in den Archiv Ordner Kopiert.

    Eine Zeile in dem Script war wohl falsch. Ein Komma und ein Leerzeichen.
    Habe das Script auch in die Aufgabenplanung integriert wo es auch ohne Probleme laufen sollte.

    Jetzt frage ich mich nur warum nichts Passiert.

    Falls mein Problem zu Unklar beschrieben ist gerne nachfragen.

  4. #4
    Anwender
    Registriert seit
    10.11.2017
    Beiträge
    13

    Standard

    Hallo.
    Wenn jemand Interesse hat.
    Es funktioniert jetzt bei mir.

    Mein Ziel war es einen Ordner auf dem DS überwachen zu lassen und aus diesem dann von den gescannten PDF Dateien eine durchsuchbare PDF zu erstellen.
    Ich muss dazu sagen das ich von Python oder ähnlichen kaum Ahnung habe und es beu mir duch Try an Error und einem Anderen Benutzer nach 2 Tagen endlich funktionierte
    Für viele ist diese Anleitung vieleicht auch zu einfach gestrickt aber wie Gesagt vielleicht hilft es ja jemanden.

    Hierfür habe ich wie im #1 Post ja schon angegeben den Docker Container jbarlow83-ocrmypdf1 Installiert.

    Damit nicht alle das gleiche Problem wie ich haben. Dieser startet nicht bzw. stoppt nach dem Start sofort wieder.
    Dies ist auch Richtig so.

    Nun habe ich 3 Verzeichnisse Angelegt.
    Dies ist jetzt Optional und kann auch geändert werden.

    document_inbox_ocrscript <--Hier werden die PDF Dateien von meinem Scanner hin gesendet
    archiv <--Hier werden am Ende die PDF Dateien gespeichert
    script <--Hier lege ich meine Scripte ab und es werden die Logfiles gespeichert (automatisch von ocrmypdf wenn das Script aus diesem Ordner ausgeführt wird)

    Jetzt einen User und eine Gruppe Namens docker anlegen (Natürlich den User Docker in die Gruppe Docker setzen).
    Dieser Gruppe muss dann schreib und leserechte für die 3 Ordner haben.

    Nun habe ich das Script von der Dokumentation für Synology genommen und in eine Datei als ocrmypdf.py kopiert.

    Quelle: https://ocrmypdf.readthedocs.io/en/l...tml#batch-jobs

    Dieses ist aber leider noch fehlerhaft.
    Ich habe soweit alle Fehler behoben und an den Autor weitergemeldet das diese auch behoben wird und dann auch Richtig zu finden ist.
    Hier die Richtige Zeile:

    cmd = ['docker', 'run', '--rm', '-v', docker_mount, '-u=1029:65540', 'jbarlow83/ocrmypdf', '-ldeu', '--deskew', filename, filename_OCR]

    Diese einfach dementsprechend anpassen.
    Das -ldeu habe ich gesetzt damit es auch deutsch kennt ansonsten machen umlaute usw Probleme.

    Diese Zeile muss aber noch weiter angepasst werden.

    Dafür muss man sich im Shell der DS einloggen und den Befehl "id docker" eingeben (Oder eben den Benutzer der eine Freigabe auf die 3 Ordner hat)

    Nun '-u=1029:65540' hier die 1029 mit der uid ersetzen und die 65540 mit der gid.

    Das Script ist nun angepasst und ich habe es unter dem Namen ocrmypdf.py gespeichert.

    Um das ganze jetzt nicht jedesmal Manuell ausführen zu müssen habe ich im Aufgabenplaner eine Aufgabe erstellt die das Script regelmäßig startet.

    Hier dann unter Benutzerdefiniertes Skrips

    python /volume1/script/ocrmypdf.py /volume1/document_inbox_ocrscript /volume1/archive

    eintragen.

    Nun wird gemäß euren Zeit Einstellungen jede PDF Datei aus dem Ordner document_inbox_ocrscript in eine durchsuchbare PDF umgewandelt und unter /volume1/archive gespeichert.

    Dir Original Datei aus dem inbox Ordner wird gelöscht.
    In dem Verzeichniss Script wird ein Protokoll der Ausführung erstellt. Dies geschieht bei jeder Ausführung.

    Hoffe das diese Beschreibung soweit Korrekt ist und bei Euch auch funktioniert.

    Jetzt will ich nur noch Änderungen im Script durchführen, da mich wenn alles einmal richtig läuft die Protokolle für mich unwichtig sind und dann entweder regelmäßig automatisch gelöscht werden oder erst gar nicht erstellt werden.
    Auch komme ich bis jetzt noch nicht mit den erweiterten Einstellungen von ocrmypdf klar um meine Ergemnisse anpassen zu können.
    Hier habe ich bis jetzt erst 2 Einstellungen Testen können aber ich werde es bei Zeiten weiter versuchen.

  5. #5

    Standard

    Wow! Vielen lieben Dank für diese Anleitung und das Feedback Atredis

    Ich bin grade auch auf der Suche nach einer Lösung, intern auf meiner NAS die vielen gescannten PDF-Dokumente zu "OCRen" und damit durchsuchbar zu machen.
    Sobald meine neue Synology da ist und ich sie eingerichtet habe, werde ich mich mal an das mir noch komplett unbekannte Thema "Docker" machen und mithilfe deiner Anleitung versuchen es zu Verstehen und zum Laufen zu bringen.

    Mein angestrebter Workflow:

    - gescannte PDF auf einen "Inbox" Ordner auf die Synology verschieben
    - Synology erstellt dann eine OCR-PDF und fügt in den Dateinamen "OCR" ein.
    - sobald diese Datei erstellt wurde, verschiebe ich sie in mein Wunschverzeichnis

    Alternativ wäre es natürlich sehr schon, wenn ich die Datei direkt in mein Wunschverzeichnis verschieben könnte und sie dort als zusätzliche OCR-PDF erstellt wird. Das ist ja deiner Beschreibung und Anleitung nach nicht ohne weiteres möglich, da spezielle Verzeichnisse in dem Code eingetragen werden müssen. Somit müsste ich ja vermutlich jedes einzelne Verzeichnis meiner NAS in den Code eintragen. Und was passiert, wenn ich mal meine Verzeichnisstruktur ein wenig ändere...

    Aktuell ist mein Scanner (Canon Flachbettscanner) per USB an der Windows-Maschine angeschlossen. In Zukunft wäre eine direkte Verbindung ans NAS natürlich noch viel schöner. Habe diesbezüglich schoneinmal gesucht und viele Forenbeiträge gelesen. Ist jedoch anscheinend mit den Treibern (sane etc.) nicht so ganz einfach.
    Der Workaround wäre vielleicht eine Virtuelle Maschine auf der NAS auf der dann Windows 10 läuft und die den Anschluss des Scanners am USB Port der Synology ermöglicht. Eventuell sogar direkt die gescannte PDF in den "Inbox" Ordner verschiebt, sodass die OCRmyPDF diese dann direkt durchsuchbar machen kann.

    Läuft deine Lösung noch auf deiner NAS einwandfrei?

    Für mich stellt dieses Docker und OCR ein großes Projekt dar, da ich zur Zeit nur mit den direkt implementierten Paketen von Synology arbeite und daher eine Benutzeroberfläche sowie eine "einfache" Bedienung gewöhnt bin. Doch die Möglichkeiten der NAS sind anschienend unergründlich

    Vielen Dank schoneinmal für die Anleitung, auch wenn ich sie aktuell noch nicht aufprobieren kann.

  6. #6
    Anwender
    Registriert seit
    10.11.2017
    Beiträge
    13

    Standard

    Hi.
    Also bis jetzt läuft es so ohne Probleme.
    Ein Paar Feinheiten will ich noch Anpassen allerdings fehlt mir dazu die Zeit.

    Wie gesagt. das Script lässt sich bestimmt beliebig anpassen.
    Mir fehlen dazu momentan allerdings die Ahnung von Phyton.

    Wenn Du Fragen hast wie man was einrichten muss kann ich natürlich gerne weiterhelfen.
    Es ist ja noch nicht so lange her das ich es eingerichtet habe.
    DS 918+ 12GB RAM Festplatten (2*4TB+2*2 TB) als SHR
    Fritz Box 6360 Cable
    Zyxel GS1910-24
    Unify AC-Pro
    Buffalo Link Station LS-WXL681 (2*2TB) als Raid 1

  7. #7
    Anwender Avatar von peterhoffmann
    Registriert seit
    17.12.2014
    Beiträge
    2.354

    Standard

    Interessantes Thema, wohl auch für viele andere hier.

    Was passiert eigentlich, wenn man ein PDF im Inbox-Ordner ablegt, was schon durchsuchbar ist? Wird das verworfen und neu erstellt oder erkennt das Script das und verschiebt das PDF nur?

    Hintergrund: Ich habe einen älteren Scanner, der durchsuchbare PDFs erstellt, aber die Texterkennung unterirdisch ist. Bisher habe ich noch keine Möglichkeit gefunden ihm das (miese) OCR abzugewöhnen.
    Viele Grüße,
    Peter

    DS716+II
    8GB RAM, SSD u. 6TB
    | |
    | |
    | |
    | |
    | |
    O AvrLogger für Synology DS
    Temperaturen, Netzwerk- und HDD-Aktivität fest im Blick
    O Ultimate Backup
    Backup von Daten leichtgemacht
    O synOCR - GUI
    Verarbeitung von PDFs

  8. #8
    Anwender
    Registriert seit
    10.11.2017
    Beiträge
    13

    Standard

    Hi.
    Sorry für die späte Antwort.

    Mann kann es einstellen das alles verworfen wird und die Erkennung neu gemacht wird.
    Dafür muss Mann Schalter im Script zufügen.
    Habe ich selber aber noch nicht getestet.

    So wie das Script jetzt ist werden die die schon durchsuchbar sind nicht umgewandelt.
    DS 918+ 12GB RAM Festplatten (2*4TB+2*2 TB) als SHR
    Fritz Box 6360 Cable
    Zyxel GS1910-24
    Unify AC-Pro
    Buffalo Link Station LS-WXL681 (2*2TB) als Raid 1

  9. #9
    Anwender
    Registriert seit
    03.02.2018
    Beiträge
    4

    Standard

    Hallo Leute,
    Ich stehe gerade vor der gleichen Herausforderung wie ihr und möchte erst mal vielen Dank für den Wissenstransfer sagen!
    Großartig das du dir die Zeit genommen hast, alles auszuprobieren und die dass dann auch noch mit uns teilst!

    Kennt hier eigentlich schon jemand die Docker Lösung von planbee/syno-ocr?

    Ist zwar nicht großartig anpassbar, aber scheint die Funktion simpel abzudecken.

    LG gogo

  10. #10
    Anwender Avatar von peterhoffmann
    Registriert seit
    17.12.2014
    Beiträge
    2.354

    Standard

    Zitat Zitat von Gogo_83 Beitrag anzeigen
    Kennt hier eigentlich schon jemand die Docker Lösung von planbee/syno-ocr?
    Ist zwar nicht großartig anpassbar, aber scheint die Funktion simpel abzudecken.
    Dank deines Hinweises habe ich das gleich mal ausprobiert.

    Hat auf Anhieb geklappt. Man muss nur das Quellverzeichnis auf der DS als "/src" und das Zielverzeichnis als "/dst" angeben.

    Ich habe daraufhin ein Blatt mit sehr viel Text gescannt. Das Ergebnis kann sich sehen lassen. Ich habe bei der Texterkennung auf den ersten Blick keine Fehler gefunden.

    Da das Teilchen speziell für die Syno ist und der User (planbee) dort in deutsch schreibt, hoffe ich ja, dass er hier im Forum zugegen ist. Bitte melde dich...
    Geändert von peterhoffmann (04.02.2018 um 01:28 Uhr)
    Viele Grüße,
    Peter

    DS716+II
    8GB RAM, SSD u. 6TB
    | |
    | |
    | |
    | |
    | |
    O AvrLogger für Synology DS
    Temperaturen, Netzwerk- und HDD-Aktivität fest im Blick
    O Ultimate Backup
    Backup von Daten leichtgemacht
    O synOCR - GUI
    Verarbeitung von PDFs

Seite 1 von 3 123 LetzteLetzte

Ähnliche Themen

  1. DS214se - RAID 0 und 1 parallel auf einer NAS möglich?
    Von mrfg0202 im Forum Disk Station Manager
    Antworten: 1
    Letzter Beitrag: 02.05.2014, 18:24
  2. Antworten: 3
    Letzter Beitrag: 22.04.2014, 16:55
  3. Antworten: 6
    Letzter Beitrag: 26.03.2013, 11:21
  4. Kaufberatung: NAS für Heimbüro und Multimediaserver fürs Wohnzimmer
    Von mammamaria im Forum Kaufberatung - Fragen vor dem Kauf
    Antworten: 4
    Letzter Beitrag: 01.09.2012, 12:46
  5. Windows und MAC parallel mit DS 211
    Von Chris1975 im Forum Kaufberatung - Fragen vor dem Kauf
    Antworten: 9
    Letzter Beitrag: 04.03.2011, 22:12

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •