synOCR synOCR - GUI für OCRmyPDF

Nicky_1818 · 24. Jul 2020

Ich melde mich nochmal...

kann es sein, dass sich ab und zu der Dockercontainer aufhängt o.ä.? Ich hatte es jetzt über Nacht, dass nach 500 Dokumenten der Dockercontainer gestartet wird, die üblichen 10 Zeilen im Ereignisspeicher stehen, jedoch selbst nach 4-5h kein Ende gefunden wird; im Terminal und im Ereignisfenster wird auch nicht weider angezeigt.
Stoppe ich den Container dann, wird er gleich wieder gestartet (so wie es auch sein soll) und das nächste Dokument ist wieder in wenigen Sekunden geprüft. Das Ganze passiert sporadisch... Irgendwann bleibt der Cointainer wieder hängen, um dann nach dem manuellen Beenden wieder gestartet zu werden um weiterzumachen..?!

geimist · 24. Jul 2020

Das hatte ich glaube noch nicht. Es gibt den Parameter --tesseract-timeout, den du mal in der synOCR Konfiguration mit angeben kannst.
Also z.B.: -rdf -l deu --tesseract-timeout=900

--tesseract-timeout SECONDS
Give up on OCR after the timeout, but copy the
preprocessed page into the final output

Nicky_1818 · 24. Jul 2020

Danke, ich teste.
--> habe es einfach neu eingetragen, gespeichert und nochmal den manuellen Durchlauf angeschoben.
Die Hinweismeldung, dass bereits eine Instanz läuft, habe ich bestätigt, sodass ich dann nochmal neu gestartet habe.

yasmin_k · 26. Jul 2020

Hallo zusammen,

habe jetzt endlich auch synOCR installiert, allerdings krieg ich's nicht zum Laufen.

In der Config Datei ist alles richtig, wenn ich allerdings eine .pdf Datei in den "Eingangsordner" (IN) lege un die Erkennung manuell starte, wird die Datei nicht bearbeiet und das Log schmeisst eine Fehlermeldung (siehe Log hier).

Code:

    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-19T10:57:38)
used ocr-parameter:       -srd -l deu enu
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------
                      ? update image [jbarlow83/ocrmypdf:latest] ? updated successfully

PROCESSING:   ? Epson_0454.pdf (Sun Jul 26 17:32:31 CEST 2020)
                  temp. target file: /tmp/tmp.MH6OpJAc5g/Epson_0454.pdf

              ? OCRmyPDF-LOG:
               usage: ocrmypdf [-h] [-l LANGUAGES] [--image-dpi DPI]
                               [--output-type {pdfa,pdf,pdfa-1,pdfa-2,pdfa-3}]
                               [--sidecar [FILE]] [--version] [-j N] [-q] [-v [VERBOSE]]
                               [--title TITLE] [--author AUTHOR] [--subject SUBJECT]
                               [--keywords KEYWORDS] [-r] [--remove-background] [-d] [-c]
                               [-i] [--unpaper-args UNPAPER_ARGS] [--oversample DPI]
                               [--remove-vectors] [--threshold] [-f] [-s] [--redo-ocr]
                               [--skip-big MPixels] [-O {0,1,2,3}] [--jpeg-quality Q]
                               [--png-quality Q] [--jbig2-lossy] [--pages PAGES]
                               [--max-image-mpixels MPixels]
                               [--pdf-renderer {auto,hocr,sandwich}]
                               [--rotate-pages-threshold CONFIDENCE]
                               [--pdfa-image-compression {auto,jpeg,lossless}]
                               [--fast-web-view MEGABYTES] [--plugin PLUGINS] [-k]
                               [--tesseract-config CFG] [--tesseract-pagesegmode PSM]
                               [--tesseract-oem MODE] [--tesseract-timeout SECONDS]
                               [--user-words FILE] [--user-patterns FILE]
                               input_pdf_or_image output_pdf
               ocrmypdf: error: unrecognized arguments: -
              ? OCRmyPDF-LOG-END

                  ?? failed! (target file is empty or not available)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Kann mir jemand bitte einen Tipp geben, was genau fehlt/nicht passt?

Danke!

geimist · 26. Jul 2020

Hallo Yasmin,

yasmin_k schrieb:
Code:

used ocr-parameter: -srd -l deu enu

bitte ändere mal die Parameterzeile für ocrmypdf auf: -srd -l deu+enu

ulli_um · 26. Jul 2020

Servus,

ich mach gerade ein paar Tests zur Dokumentenerkennung und mir sind zwei Dinge aufgefallen.
1) Die automatische Datumserkennung finde ich klasse!
Mir ist aber aufgefallen, wenn auf der ersten Seite mehrere Datum vorhanden sind nimmt er nicht das Erste sondern komischerweise "irgendeins"

Ich habe im OCR Text folgende Infos auf der ersten Seite, in genau der Reihenfolge
* 23. Juli 2020
* vom 1. August 2019 bis zum 22. Juli 2020
* vom 1.7.2020 bis zum 31.12.2020

Das Log sagt folgendes
check date (dd mm [yy]yy): 1.7.2020 ? valid

Wäre es möglich die Suche auf das erste vorkommende Datum einzustellen?

2) Meine Files haben z.B folgende Syntax "2020-07-01_Dokumentenname.pdf" Könnte man wenn im Dokument kein Datum gefunden wird das Datum des Dateinamen nehmen und wenn das nicht vordefiniert ist das Erstelldatum des Files?

Noch eine Zwischenfrage. Wird ein Datum "Mai 2020" auch erkannt?

Viele Grüße,
Ulli

geimist · 26. Jul 2020

funktioniert wie erwartet …
derzeit werden nur Zahlenformate erkannt. 1.7.2020 ist das erste Datum, welches nur aus Zahlen besteht.
Das ist auch noch ein Punkt auf der ToDo-Liste. Wenn, dann möchte ich das nicht nur für Deutsch abbilden (selbst da gibt es ja Variationen [Januar, Jänner, Jan., …]). Ich habe schon gesucht, ob es da fertige Skripte zum Parsen für Daten gibt (für Python schon, bringt aber wieder eine Paketabhängikeit - also bevorzugt Bash). Vor allem Multilingual (zur Differenzierung könnte man die OCR-Sprachparameter heranziehen). Wer da also eine Idee hat: immer her damit.
synOCR bietet 3 Quellen für das Datum: OCR, now und Quelldateidatum. Ich dachte, das reicht …
Ich schreibe es mir mal mit auf.
siehe Punkt 1 - also nein

yasmin_k · 26. Jul 2020

geimist schrieb:
Hallo Yasmin,

bitte ändere mal die Parameterzeile für ocrmypdf auf: -srd -l deu+enu

Danke dir!

Hab ich geändert, aber das hat nicht geklappt:

Code:

    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-22T07:40:10)
used ocr-parameter:       -srd -l deu+enu
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ? Epson_0454.pdf (Sun Jul 26 19:52:45 CEST 2020)
                  temp. target file: /tmp/tmp.YSgC1l4VCw/Epson_0454.pdf

              ? OCRmyPDF-LOG:
               OCR engine does not have language data for the following requested languages:
               enu
              ? OCRmyPDF-LOG-END

                  ?? failed! (target file is empty or not available)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Hab's danach nur "deu" drin gelassen, damit funktioniert's:

Code:

    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-22T07:40:10)
used ocr-parameter:       -srd -l deu
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ? Epson_0454.pdf (Sun Jul 26 19:54:42 CEST 2020)
                  temp. target file: /tmp/tmp.D3KGUgCuhM/Epson_0454.pdf

              ? OCRmyPDF-LOG:
               reading file from standard input
               Using Tesseract OpenMP thread limit 3
                   1 page is facing ?, confidence 10.99 - no change
               Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
               Optimize ratio: 1.44 savings: 30.4%
               Output sent to stdout
              ? OCRmyPDF-LOG-END

                  target file (OK): /volume1/scans/OUT/temp_Epson_0454_1595786082.pdf
              ? transfer the file permissions and owners (use ACL)
              ? search tags and date:
                no tags defined
                  check date (dd mm [yy]yy): 06.07.2020 ? valid
                  day:  06
                  month:07
                  year: 2020
              ? renaming:
                  apply renaming syntax ? Epson_0454
              ? edit metadata ERROR - exiftool not found! Please install it over cphub.net
              ? Adapt file date (Source: OCR)
                  target file: Epson_0454.pdf
              ? move source file to: /volume1/scans/_BACKUP/Epson_0454.pdf
                  INFO: (PushBullet-TOKEN not set)
                  INFO: (runtime last file: 00:00:55 (pagecount: 1) | all: 1 PDFs / 1 Pages processed up to now)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Wäre aber praktisch auch Englisch drin zu haben.
Hast du noch eine Idee?

Gruß

geimist · 26. Jul 2020

Ich hatte den Sprachcode nicht im Sinn und es auch nicht überprüft. Jetzt habe ich nochmal nachgeguckt: probiere es mal mit -srd -l deu+eng

yasmin_k · 26. Jul 2020

geimist schrieb:
Ich hatte den Sprachcode nicht im Sinn und es auch nicht überprüft. Jetzt habe ich nochmal nachgeguckt: probiere es mal mit -srd -l deu+eng

Ja, damit funktioniert's.
Allerdings wird mir die Output-Datei mit Berechtigungen "root" geschrieben, da muss ich mal schauen.

geimist · 26. Jul 2020

yasmin_k schrieb:
Allerdings wird mir die Output-Datei mit Berechtigungen "root" geschrieben, da muss ich mal schauen.

Ja, mit den Dateirechten bin ich auch noch nicht ganz zufrieden. Ich musste das ändern, da die Dateien mit der vorhergehenden Methode z.T. nicht sichtbar waren. Das Problem ist z.T., wenn die Ordner mit ACL-Berechtigungen konfiguriert sind.
Derzeit läuft es so: zunächst kopiert synOCR die Standardlinuxrechte von der Quelldatei auf die Zieldatei ( cp --attributes-only -p "$input" "$output" ). Somit sind zunächst der Besitzer und Grupper wie im Original. Zusätzlich lasse ich dann noch mit synoacltool -enforce-inherit "${output}" die ACL-Berechtigungen des Zielordners auf die Zieldatei vererben (greift nur, sofern ACL-Berechtigungen gesetzt sind).

yasmin_k · 26. Jul 2020

geimist schrieb:
Ja, mit den Dateirechten bin ich auch noch nicht ganz zufrieden. Ich musste das ändern, da die Dateien mit der vorhergehenden Methode z.T. nicht sichtbar waren. Das Problem ist z.T., wenn die Ordner mit ACL-Berechtigungen konfiguriert sind.
Derzeit läuft es so: zunächst kopiert synOCR die Standardlinuxrechte von der Quelldatei auf die Zieldatei ( cp --attributes-only -p "$input" "$output" ). Somit sind zunächst der Besitzer und Grupper wie im Original. Zusätzlich lasse ich dann noch mit synoacltool -enforce-inherit "${output}" die ACL-Berechtigungen des Zielordners auf die Zieldatei vererben (greift nur, sofern ACL-Berechtigungen gesetzt sind).

Ok.
Komisch. Bei mir ist der Order "OUT" wo die Zieldateien landen mit der Berechtigung "Admin" die Zieldatei kriegt aber die Berechtigung "root", ich muss die immer manuell ändern, da ich sonst über einen Rechner die nicht aufmachen kann.

Gruß,
Yasmin

geimist · 26. Jul 2020

Kannst du mal bitte das Loglevel auf erweitert stellen, eine Datei abarbeiten lassen und das Log auf meinen Server laden? https://geimist.eu/link/synocrupload

yasmin_k · 26. Jul 2020

geimist schrieb:
Kannst du mal bitte das Loglevel auf erweitert stellen, eine Datei abarbeiten lassen und das Log auf meinen Server laden? https://geimist.eu/link/synocrupload

Done!

JackON · 26. Jul 2020

Hallo liebe Gemeinde,

ich suche etwas Hilfe. Hab mir das ganze auf mein DS418Play installiert. Prinzipiell läuft auch alles.
Jedoch verstehe das mit der Konfiguration nicht usw.

Ich wollte Dokumente scannen, und wenn dies den Begriff RECHNUNG besitzen, eben in einen Ordner RECHNUNG ablegen. Jedoch reagiert er auf diese Schlagwörter nicht. Und Dateiumbennung erfolgt auch keine.

Was benötigt ihr denn um mir etwas unter die Arme zu greifen?

Ich bin in dem Bereich blutiger Anfänger und würde mich über Unterstützung sehr freuen.

Vielen Dank schon mal.

geimist · 26. Jul 2020

Ein Log wäre schonmal ein guter Anfang.
https://geimist.eu/link/synocrupload

geimist · 26. Jul 2020

yasmin_k schrieb:
Done!

Danke.
Es sind auch bei dir die ACL-Berechtigungen.
Ich muss da nochmal forschen.

In dieser Version werden die ACL-Berechtigungen nicht vererbt. Kannst du die mal testen: https://geimist.eu/synOCR/synOCR_latest_1.0.1.2_ohne_ACL-Vererbung_(2020-07-26_21-24)_4c86edf.spk

yasmin_k · 26. Jul 2020

Ok, danke, hab ich schon installiert, aber leider immer noch.

Code:

    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1.2
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-22T07:40:10)
used ocr-parameter:       -srd -l deu+eng
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ? Epson_0445.pdf (Sun Jul 26 21:34:02 CEST 2020)
                  temp. target file: /tmp/tmp.EcuREK0B0o/Epson_0445.pdf

              ? OCRmyPDF-LOG:
               reading file from standard input
               Using Tesseract OpenMP thread limit 3
                   1 page is facing ?, confidence 10.88 - no change
               Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
               Optimize ratio: 1.25 savings: 19.7%
               Output sent to stdout
              ? OCRmyPDF-LOG-END

                  target file (OK): /volume1/scans/OUT/temp_Epson_0445_1595792042.pdf
              ? transfer the file permissions and owners (use ACL)
              ? search tags and date:
                no tags defined
                  check date (dd mm [yy]yy): 10.02.2020 ? valid
                  day:  10
                  month:02
                  year: 2020
              ? renaming:
                  apply renaming syntax ? Epson_0445
              ? edit metadata (exiftool ok)     1 image files updated
              ? Adapt file date (Source: OCR)
                  target file: Epson_0445.pdf
              ? move source file to: /volume1/scans/_BACKUP/Epson_0445.pdf
                  INFO: (PushBullet-TOKEN not set)
                  INFO: (runtime last file: 00:01:17 (pagecount: 1) | all: 6 PDFs / 12 Pages processed up to now)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Lass dir Zeit, ich nicht so dringend.

geimist · 26. Jul 2020

Ich bleibe am Ball. Gib mir bitte etwas Zeit. Ich werde mich, sobald ich kann, damit befassen.
Sorry, dass ich nicht gleich eine Lösung habe.

JackON · 26. Jul 2020

@geimist

LOG hab ich hochgeladen.

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Kaffeautomat