Seite 1 von 22 12311 ... LetzteLetzte
Ergebnis 1 bis 10 von 212
  1. #1

    Idee synOCR - GUI für OCRmyPDF

    Hallo zusammen,

    für alle, die es brauchen, habe ich mal eine kleine GUI für den Dockercontainer OCRmyPDF erstellt. Nicht jeder fummelt ja gerne an Skripten herum. Außerdem hatten ja einige in Verbindung mit dem PHP-Skript Rechteprobleme. synOCR ruft den Dockercontainer etwas anders auf, so dass es mit jedem Ein- und Ausgabeordner funktionieren sollte.

    • Es besteht die Möglichkeit, über den integrierten Zeitplaner einen Zeitplan zu erstellen, oder ihr nutzt die Beschreibung (Hilfe-Seite), um einen Zeitplan über den DSM-Aufgabenplaner einzurichten. Beim integrierten Zeitplaner ist zu beachten, dass der DSM-Sicherheitsberater den zusätzlichen Croneintrag (da für DSM unbekannt) bemängeln wird.
    • auch ohne Zeitplan kann man einen manuellen Durchlauf über die Statusseite auslösen.
    • Ihr könnt für die Quelldokumente einen Suchpräfix verwenden (z.B. SCAN_). Es werden dann nur die Dokumente bearbeitet, welche einen entsprechenden Dateinamen haben. Für alle Dokumente einfach leer lassen.
    • Paketvoraussetzung: Docker
    • Sofern ihr OCRmyPDF bisher noch nicht genutzt habt, dauert der erste Programmlauf etwas länger, da das entsprechende Image zunächst geladen werden muss
    • Download von synOCR über cphub.net (falls noch nicht getan, am besten als Paketquelle eintragen, um so auch automatisch über Updates informiert zu werden).


    Bitte schreibt, wenn euch eine Funktion fehlt oder ihr euch eine Verbesserung wünscht.
    Gruß Stephan
    ________________________________________
    DS716+ DSM 6.2 - 2 x 4TB WD red (Btrfs RAID-1)
    DX213 1 x Samsung EVO 860 500 GB SSD (Btrfs Basis)
    APC - Back-UPS ES 550G
    AVM Fritz!BOX 7590
    macOS 10.14

  2. #2
    Anwender
    Registriert seit
    07.05.2012
    Beiträge
    3.134

    Standard

    Ich habe es soeben installiert.

    * OCR-Qualität wirklich sehr gut (auch Tabellen und Bildunterschriften problemlos erkannt und richtig dargestellt).
    * Eine Wohltat, dieses Tool zu benützen ohne Fummeleien & Skripts (was mich auch nicht so gestört hätte). Für Laien ganz klare Empfehlung, da die Installation, Konfiguration und Testdurchlauf max. 10 Min. gedauert hat.
    * Hab synoOCR via Paketzentrum installiert. Einrichtung denkbar einfach und alles klar und gut erläutert, was man da zu tun hat.
    * Zeitplaner in zwei Möglichkeiten auszuwählen ist schon Luxus hier

    Was mir nicht so klar ist:
    * Backup - was genau wird da gesichert? Die Einstellungen/Konfigs und interner Zeitplaner? Denn ein Restore-Button hab ich nicht gefunden? Wie wird das Ganze wiederherstellt?
    * Evtl eine Option einbauen, dass nach dem OCR-Scan die Quelldatei nicht gelöscht werden soll?
    * Suchpräfix hilft sehr, aber bisschen zu statisch - möglich, einfach alle PDFs in einem vorgegebenen Ordner suchen zu lassen?
    * Möglich, "Scan_" nach OCR-Scan zu entfernen? Wäre sonst eig. verwirrend - ist mehr ein "Schönheitsfehler"

    Sonst Hut ab vor deiner Leistung hier!
    LG TeXniXo
    _________________________________________
    Produktivsystem: DS916+ (8GB) | DSM 6.2.x | 3 x WD Red 4TB | ext4 / SHR
    Backupsystem - Teil I: DS418j (1GB) | DSM 6.2.x | 4 x Seagate 1TB | ext4 / JBOD
    Backupsystem - Teil II: Externe HDD | Western Digital | 3 TB


    Relevante Seiten: Support-Kontaktformular | RAID-Rechner | Synology Assistent WIN / Synology Assistent MAC | Feature Request

  3. #3
    Anwender Avatar von peterhoffmann
    Registriert seit
    17.12.2014
    Beiträge
    1.888

    Standard

    Vorab, danke für deine Mühen das Script umzusetzen.

    In der Standardeinstellung
    Code:
    -srd -l deu
    funktioniert es.

    Da mein Scanner PDFs mit einer grausamen OCR-Erkennung (nicht abschaltbar) produziert, habe ich testweise die Konfi auf
    Code:
    -rd -l deu
    gesetzt. Ich hatte die Hoffnung, dass der Text verworfen und neu erstellt wird.

    Leider haben dann die PDFs alle 0kb.
    Geändert von peterhoffmann (15.01.2019 um 13:26 Uhr) Grund: Problem gelöst, daher Log gelöscht
    Viele Grüße,
    Peter

    DS216+
    mit 8GB u. Noctua
    | |
    | |
    | |
    | |
    | |
    O AvrLogger für Synology DS
    Temperaturen, Netzwerk- und HDD-Aktivität fest im Blick
    O Ultimate Backup
    Backup von Daten leichtgemacht
    O synOCR - GUI
    Verarbeitung von PDFs

  4. #4

    Standard

    Hallo Peter,

    hast du es mal mit dem Parameter aus dem Log versucht:
    Code:
    --force-ocr -rd -l deu
    Ich habe bisher auch noch nicht alle Parameterkombinationen testen können.

    Und die (defekte) Zieldatei hat wirklich 0kb? Solche Dateien sollten eigentlich gelöscht werden und die Quelldatei im Quellordner belassen werden. Könntest du mal gucken, wie viel Byte sie hat? Danke
    Gruß Stephan
    ________________________________________
    DS716+ DSM 6.2 - 2 x 4TB WD red (Btrfs RAID-1)
    DX213 1 x Samsung EVO 860 500 GB SSD (Btrfs Basis)
    APC - Back-UPS ES 550G
    AVM Fritz!BOX 7590
    macOS 10.14

  5. #5
    Anwender Avatar von peterhoffmann
    Registriert seit
    17.12.2014
    Beiträge
    1.888

    Standard

    Zitat Zitat von geimist Beitrag anzeigen
    Code:
    --force-ocr -rd -l deu
    Problem gelöst. Funktioniert. Danke!

    Zitat Zitat von geimist Beitrag anzeigen
    Und die (defekte) Zieldatei hat wirklich 0kb?
    Definitiv 0 Byte. Sie wird mit Startem vom Script schon erstellt und bleibt dann auch stehen.



    Ich habe dein neues Projekt in meine Signatur übernommen.
    Viele Grüße,
    Peter

    DS216+
    mit 8GB u. Noctua
    | |
    | |
    | |
    | |
    | |
    O AvrLogger für Synology DS
    Temperaturen, Netzwerk- und HDD-Aktivität fest im Blick
    O Ultimate Backup
    Backup von Daten leichtgemacht
    O synOCR - GUI
    Verarbeitung von PDFs

  6. #6

    Standard

    Hallo TeXniXo,

    vielen Dank für dein Feedback!
    * OCR-Qualität wirklich sehr gut (auch Tabellen und Bildunterschriften problemlos erkannt und richtig dargestellt) …
    Das ist wirklich dem Container ORCmyPDF zu verdanken, der eine sehr gute Arbeit leistet

    * Backup - was genau wird da gesichert? Die Einstellungen/Konfigs und interner Zeitplaner? Denn ein Restore-Button hab ich nicht gefunden? Wie wird das Ganze wiederherstellt?…
    Von welcher Stelle sprechen wir genau? Im Einstellungsdialog kannst du dir die Konfigurationsdatei entweder in den Quellordner exportieren, oder von dort auch importieren. 'BackUp' sollte sich doch nur noch im Paket selbst finden. Dort sind die Skripte hinterlegt, um Einstellungen und den Dateizähler mit HyperBackup sichern und wiederherstellen zu können. Oder meinst du etwas anderes? Der Zeitplan wird derzeit nicht gesichert.
    * Evtl eine Option einbauen, dass nach dem OCR-Scan die Quelldatei nicht gelöscht werden soll?…
    Dafür wäre die Angabe des Suchpräfixes zwingend, der entfernt würde (wobei man dann wieder die Originaldatei anfassen würde). Mit entsprechender Prüfung wäre das sicher umsetzbar … Ich persönlich nutze den "Löschordner" als Backupordner, der parallel zu den anderen liegt.
    * Suchpräfix hilft sehr, aber bisschen zu statisch - möglich, einfach alle PDFs in einem vorgegebenen Ordner suchen zu lassen?…
    Einfach weglassen. Dann werden alle PDFs verwendet. (In diesem Fall sollte dann der Quellordner natürlich auch nicht der Zielordner sein.)
    * Möglich, "Scan_" nach OCR-Scan zu entfernen? Wäre sonst eig. verwirrend - ist mehr ein "Schönheitsfehler"
    Das, und die anderen Sachen kommen mit auf die Liste
    Geändert von geimist (15.01.2019 um 16:06 Uhr)
    Gruß Stephan
    ________________________________________
    DS716+ DSM 6.2 - 2 x 4TB WD red (Btrfs RAID-1)
    DX213 1 x Samsung EVO 860 500 GB SSD (Btrfs Basis)
    APC - Back-UPS ES 550G
    AVM Fritz!BOX 7590
    macOS 10.14

  7. #7

    Standard

    Zitat Zitat von peterhoffmann Beitrag anzeigen
    Problem gelöst. Funktioniert. Danke!
    Definitiv 0 Byte. Sie wird mit Startem vom Script schon erstellt und bleibt dann auch stehen.…
    Freut mich

    Ist aber dennoch komisch. Ich hatte es gerade mal mit einer geocrten PDF nachgestellt und auch hier hat die Zeildatei 0Byte, was aber korrekt abgefangen wird.
    Code:
        VERARBEITE:       --> SCAN__002571.pdf (Tue Jan 15 14:02:25 CET 2019)
    
    OCRmyPDF-LOG:
       INFO - reading file from standard input
      ERROR -    1: page already has text! – aborting (use --force-ocr to force OCR)
    
                              L=> fehlgeschlagen! (Zieldatei ist leer oder nicht vorhanden)
    Könntest du mal testen, was ein ls -s auf die Zieldatei ausgibt?
    Code:
    ls -s "/volume … /zieldatei.pdf"
    Gruß Stephan
    ________________________________________
    DS716+ DSM 6.2 - 2 x 4TB WD red (Btrfs RAID-1)
    DX213 1 x Samsung EVO 860 500 GB SSD (Btrfs Basis)
    APC - Back-UPS ES 550G
    AVM Fritz!BOX 7590
    macOS 10.14

  8. #8
    Anwender Avatar von peterhoffmann
    Registriert seit
    17.12.2014
    Beiträge
    1.888

    Standard

    Zitat Zitat von geimist Beitrag anzeigen
    Könntest du mal testen, was ein ls -s auf die Zieldatei ausgibt?
    Code:
    ls -s "/volume … /zieldatei.pdf"
    Ergebnis: 8 zieldatei.pdf



    Ich habe ein wenig weiter rumgetestet. Dazu habe ich 100 verschiedene PDFs (Größe von 10 bis 50kb je Datei) in den Eingangsordner gelegt.

    Ergebnis war, dass zwei Dateien ignoriert wurden (blieben im Eingangsordner), 7 Dateien 0 Byte hatten und die Gesamtgröße der 100 PDFs von 2,6 MB auf 13,8 MB bei verbliebenen 91 Dateien angestiegen ist.

    • Die ignorierten Dateien hatten als Dateiendung ein .PDF statt einem .pdf.
    • Die 7 Dateien habe ich noch mal durchlaufen lassen. Das Log liegt anbei.
    • Mit der Größe bin ich aus Zeitgründen noch nicht weitergekommen. Das schaue ich mir später an.
    Angehängte Dateien Angehängte Dateien
    Viele Grüße,
    Peter

    DS216+
    mit 8GB u. Noctua
    | |
    | |
    | |
    | |
    | |
    O AvrLogger für Synology DS
    Temperaturen, Netzwerk- und HDD-Aktivität fest im Blick
    O Ultimate Backup
    Backup von Daten leichtgemacht
    O synOCR - GUI
    Verarbeitung von PDFs

  9. #9

    Standard

    Dateigröße:
    Ich glaube, meine Methode war nicht optimal. Was sagt:
    Code:
    stat -c %s "/volume … /zieldatei.pdf"
    Zu dem anderen Fehler:
    Das ist ein Error von OCRmyPDF, worauf ich keinen Einfluss habe. Ist bei den entsprechenden PDFs etwas besonderes?

    • Die ignorierten Dateien hatten als Dateiendung ein .PDF statt einem .pdf.
    Ja, dass kann sein. Ich werde die Suche entsprechend anpassen.
    Gruß Stephan
    ________________________________________
    DS716+ DSM 6.2 - 2 x 4TB WD red (Btrfs RAID-1)
    DX213 1 x Samsung EVO 860 500 GB SSD (Btrfs Basis)
    APC - Back-UPS ES 550G
    AVM Fritz!BOX 7590
    macOS 10.14

  10. #10
    Anwender Avatar von Mike0185
    Registriert seit
    26.06.2012
    Beiträge
    407

    Standard

    Hallo zusammen,

    ich interessiere mich sehr für synOCR, da ich mir demnächst einen Dokumentenscanner anschaffen werde und dieser auf eine Freigabe scannen soll. Ich hätte das gerne alles getestet. Das Programmpaket habe ich schon heruntergeladen und eingerichtet. Alles bisher tipptopp! Daumen hoch!

    Ich bekomme allerdings den Dockercontainer nicht zum Laufen. Habe die latest Version von jbarlow83-ocrmypdf1 als Abbild heruntergeladen. Beim Starten wird diese immer "unerwartet wieder heruntergefahren". Was muss denn noch für den Container genau eingerichtet werden, damit dieser korrekt läuft? Gibt es hier ein how to?

    Herzlichen Dank und viele Grüße
    Mike
    DS-918+ | 16GB | 2x3TB WD30EZRX | 2x1TB CT1000MX500 SSD | 2x256GB 970 EVO SSD-Cache | 24/7
    ISP: Unitymedia Business 200/20 IPv4 | Switch: Unifi US-24-250 | APs: Unifi AP AC Pro

Seite 1 von 22 12311 ... LetzteLetzte

Ähnliche Themen

  1. Docker Problem Berechtigung Ocrmypdf
    Von Huhie im Forum Docker
    Antworten: 1
    Letzter Beitrag: 05.12.2018, 21:21
  2. GUI für Docker?
    Von Bullitt66 im Forum Docker
    Antworten: 4
    Letzter Beitrag: 30.03.2016, 10:09
  3. Web-Gui für Streamripper
    Von MoleWindu im Forum Andere 3rd Party Anwendungen
    Antworten: 0
    Letzter Beitrag: 21.05.2013, 10:47
  4. GUI für Dateibehandlung per ssh?
    Von auflauf im Forum Terminal-Dienste (Telnet, SSH) - Linux-Konsole
    Antworten: 4
    Letzter Beitrag: 25.10.2010, 09:15
  5. GUI für Dateibehandlung per ssh?
    Von auflauf im Forum Installation und Konfiguration allgemein
    Antworten: 4
    Letzter Beitrag: 25.10.2010, 09:15

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •