synOCR synOCR - GUI für OCRmyPDF

Nicky_1818

Benutzer
Mitglied seit
31. Jan 2014
Beiträge
88
Punkte für Reaktionen
4
Punkte
8
Ich melde mich nochmal...

kann es sein, dass sich ab und zu der Dockercontainer aufhängt o.ä.? Ich hatte es jetzt über Nacht, dass nach 500 Dokumenten der Dockercontainer gestartet wird, die üblichen 10 Zeilen im Ereignisspeicher stehen, jedoch selbst nach 4-5h kein Ende gefunden wird; im Terminal und im Ereignisfenster wird auch nicht weider angezeigt.
Stoppe ich den Container dann, wird er gleich wieder gestartet (so wie es auch sein soll) und das nächste Dokument ist wieder in wenigen Sekunden geprüft. Das Ganze passiert sporadisch... Irgendwann bleibt der Cointainer wieder hängen, um dann nach dem manuellen Beenden wieder gestartet zu werden um weiterzumachen..?!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234
Das hatte ich glaube noch nicht. Es gibt den Parameter --tesseract-timeout, den du mal in der synOCR Konfiguration mit angeben kannst.
Also z.B.: -rdf -l deu --tesseract-timeout=900

--tesseract-timeout SECONDS
Give up on OCR after the timeout, but copy the
preprocessed page into the final output
 

Nicky_1818

Benutzer
Mitglied seit
31. Jan 2014
Beiträge
88
Punkte für Reaktionen
4
Punkte
8
Danke, ich teste.
--> habe es einfach neu eingetragen, gespeichert und nochmal den manuellen Durchlauf angeschoben.
Die Hinweismeldung, dass bereits eine Instanz läuft, habe ich bestätigt, sodass ich dann nochmal neu gestartet habe.
 

yasmin_k

Benutzer
Mitglied seit
15. Aug 2009
Beiträge
285
Punkte für Reaktionen
0
Punkte
16
Hallo zusammen,

habe jetzt endlich auch synOCR installiert, allerdings krieg ich's nicht zum Laufen.

In der Config Datei ist alles richtig, wenn ich allerdings eine .pdf Datei in den "Eingangsordner" (IN) lege un die Erkennung manuell starte, wird die Datei nicht bearbeiet und das Log schmeisst eine Fehlermeldung (siehe Log hier).

Code:
    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-19T10:57:38)
used ocr-parameter:       -srd -l deu enu
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------
                      ? update image [jbarlow83/ocrmypdf:latest] ? updated successfully

PROCESSING:   ? Epson_0454.pdf (Sun Jul 26 17:32:31 CEST 2020)
                  temp. target file: /tmp/tmp.MH6OpJAc5g/Epson_0454.pdf

              ? OCRmyPDF-LOG:
               usage: ocrmypdf [-h] [-l LANGUAGES] [--image-dpi DPI]
                               [--output-type {pdfa,pdf,pdfa-1,pdfa-2,pdfa-3}]
                               [--sidecar [FILE]] [--version] [-j N] [-q] [-v [VERBOSE]]
                               [--title TITLE] [--author AUTHOR] [--subject SUBJECT]
                               [--keywords KEYWORDS] [-r] [--remove-background] [-d] [-c]
                               [-i] [--unpaper-args UNPAPER_ARGS] [--oversample DPI]
                               [--remove-vectors] [--threshold] [-f] [-s] [--redo-ocr]
                               [--skip-big MPixels] [-O {0,1,2,3}] [--jpeg-quality Q]
                               [--png-quality Q] [--jbig2-lossy] [--pages PAGES]
                               [--max-image-mpixels MPixels]
                               [--pdf-renderer {auto,hocr,sandwich}]
                               [--rotate-pages-threshold CONFIDENCE]
                               [--pdfa-image-compression {auto,jpeg,lossless}]
                               [--fast-web-view MEGABYTES] [--plugin PLUGINS] [-k]
                               [--tesseract-config CFG] [--tesseract-pagesegmode PSM]
                               [--tesseract-oem MODE] [--tesseract-timeout SECONDS]
                               [--user-words FILE] [--user-patterns FILE]
                               input_pdf_or_image output_pdf
               ocrmypdf: error: unrecognized arguments: -
              ? OCRmyPDF-LOG-END

                  ?? failed! (target file is empty or not available)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Kann mir jemand bitte einen Tipp geben, was genau fehlt/nicht passt?

Danke!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234
Zuletzt bearbeitet:

ulli_um

Benutzer
Mitglied seit
20. Jun 2012
Beiträge
29
Punkte für Reaktionen
0
Punkte
1
Servus,

ich mach gerade ein paar Tests zur Dokumentenerkennung und mir sind zwei Dinge aufgefallen.
1) Die automatische Datumserkennung finde ich klasse!
Mir ist aber aufgefallen, wenn auf der ersten Seite mehrere Datum vorhanden sind nimmt er nicht das Erste sondern komischerweise "irgendeins" :)
Ich habe im OCR Text folgende Infos auf der ersten Seite, in genau der Reihenfolge
* 23. Juli 2020
* vom 1. August 2019 bis zum 22. Juli 2020
* vom 1.7.2020 bis zum 31.12.2020

Das Log sagt folgendes
check date (dd mm [yy]yy): 1.7.2020 ? valid

Wäre es möglich die Suche auf das erste vorkommende Datum einzustellen?

2) Meine Files haben z.B folgende Syntax "2020-07-01_Dokumentenname.pdf" Könnte man wenn im Dokument kein Datum gefunden wird das Datum des Dateinamen nehmen und wenn das nicht vordefiniert ist das Erstelldatum des Files?

Noch eine Zwischenfrage. Wird ein Datum "Mai 2020" auch erkannt?

Viele Grüße,
Ulli
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234
  1. funktioniert wie erwartet …
    derzeit werden nur Zahlenformate erkannt. 1.7.2020 ist das erste Datum, welches nur aus Zahlen besteht.
    Das ist auch noch ein Punkt auf der ToDo-Liste. Wenn, dann möchte ich das nicht nur für Deutsch abbilden (selbst da gibt es ja Variationen [Januar, Jänner, Jan., …]). Ich habe schon gesucht, ob es da fertige Skripte zum Parsen für Daten gibt (für Python schon, bringt aber wieder eine Paketabhängikeit - also bevorzugt Bash). Vor allem Multilingual (zur Differenzierung könnte man die OCR-Sprachparameter heranziehen). Wer da also eine Idee hat: immer her damit.
  2. synOCR bietet 3 Quellen für das Datum: OCR, now und Quelldateidatum. Ich dachte, das reicht … :unsure:
    Ich schreibe es mir mal mit auf.
  3. siehe Punkt 1 - also nein
 

yasmin_k

Benutzer
Mitglied seit
15. Aug 2009
Beiträge
285
Punkte für Reaktionen
0
Punkte
16
Hallo Yasmin,

bitte ändere mal die Parameterzeile für ocrmypdf auf: -srd -l deu+enu

Danke dir!

Hab ich geändert, aber das hat nicht geklappt:

Code:
    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-22T07:40:10)
used ocr-parameter:       -srd -l deu+enu
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ? Epson_0454.pdf (Sun Jul 26 19:52:45 CEST 2020)
                  temp. target file: /tmp/tmp.YSgC1l4VCw/Epson_0454.pdf

              ? OCRmyPDF-LOG:
               OCR engine does not have language data for the following requested languages:
               enu
              ? OCRmyPDF-LOG-END

                  ?? failed! (target file is empty or not available)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Hab's danach nur "deu" drin gelassen, damit funktioniert's:

Code:
    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-22T07:40:10)
used ocr-parameter:       -srd -l deu
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ? Epson_0454.pdf (Sun Jul 26 19:54:42 CEST 2020)
                  temp. target file: /tmp/tmp.D3KGUgCuhM/Epson_0454.pdf

              ? OCRmyPDF-LOG:
               reading file from standard input
               Using Tesseract OpenMP thread limit 3
                   1 page is facing ?, confidence 10.99 - no change
               Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
               Optimize ratio: 1.44 savings: 30.4%
               Output sent to stdout
              ? OCRmyPDF-LOG-END

                  target file (OK): /volume1/scans/OUT/temp_Epson_0454_1595786082.pdf
              ? transfer the file permissions and owners (use ACL)
              ? search tags and date:
                no tags defined
                  check date (dd mm [yy]yy): 06.07.2020 ? valid
                  day:  06
                  month:07
                  year: 2020
              ? renaming:
                  apply renaming syntax ? Epson_0454
              ? edit metadata ERROR - exiftool not found! Please install it over cphub.net
              ? Adapt file date (Source: OCR)
                  target file: Epson_0454.pdf
              ? move source file to: /volume1/scans/_BACKUP/Epson_0454.pdf
                  INFO: (PushBullet-TOKEN not set)
                  INFO: (runtime last file: 00:00:55 (pagecount: 1) | all: 1 PDFs / 1 Pages processed up to now)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Wäre aber praktisch auch Englisch drin zu haben.
Hast du noch eine Idee?

Gruß
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234
Ich hatte den Sprachcode nicht im Sinn und es auch nicht überprüft. Jetzt habe ich nochmal nachgeguckt: probiere es mal mit -srd -l deu+eng
 

yasmin_k

Benutzer
Mitglied seit
15. Aug 2009
Beiträge
285
Punkte für Reaktionen
0
Punkte
16
Ich hatte den Sprachcode nicht im Sinn und es auch nicht überprüft. Jetzt habe ich nochmal nachgeguckt: probiere es mal mit -srd -l deu+eng

Ja, damit funktioniert's.
Allerdings wird mir die Output-Datei mit Berechtigungen "root" geschrieben, da muss ich mal schauen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234
Allerdings wird mir die Output-Datei mit Berechtigungen "root" geschrieben, da muss ich mal schauen.
Ja, mit den Dateirechten bin ich auch noch nicht ganz zufrieden. Ich musste das ändern, da die Dateien mit der vorhergehenden Methode z.T. nicht sichtbar waren. Das Problem ist z.T., wenn die Ordner mit ACL-Berechtigungen konfiguriert sind.
Derzeit läuft es so: zunächst kopiert synOCR die Standardlinuxrechte von der Quelldatei auf die Zieldatei ( cp --attributes-only -p "$input" "$output" ). Somit sind zunächst der Besitzer und Grupper wie im Original. Zusätzlich lasse ich dann noch mit synoacltool -enforce-inherit "${output}" die ACL-Berechtigungen des Zielordners auf die Zieldatei vererben (greift nur, sofern ACL-Berechtigungen gesetzt sind).
 

yasmin_k

Benutzer
Mitglied seit
15. Aug 2009
Beiträge
285
Punkte für Reaktionen
0
Punkte
16
Ja, mit den Dateirechten bin ich auch noch nicht ganz zufrieden. Ich musste das ändern, da die Dateien mit der vorhergehenden Methode z.T. nicht sichtbar waren. Das Problem ist z.T., wenn die Ordner mit ACL-Berechtigungen konfiguriert sind.
Derzeit läuft es so: zunächst kopiert synOCR die Standardlinuxrechte von der Quelldatei auf die Zieldatei ( cp --attributes-only -p "$input" "$output" ). Somit sind zunächst der Besitzer und Grupper wie im Original. Zusätzlich lasse ich dann noch mit synoacltool -enforce-inherit "${output}" die ACL-Berechtigungen des Zielordners auf die Zieldatei vererben (greift nur, sofern ACL-Berechtigungen gesetzt sind).

Ok.
Komisch. Bei mir ist der Order "OUT" wo die Zieldateien landen mit der Berechtigung "Admin" die Zieldatei kriegt aber die Berechtigung "root", ich muss die immer manuell ändern, da ich sonst über einen Rechner die nicht aufmachen kann.

Gruß,
Yasmin
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234

JackON

Benutzer
Mitglied seit
15. Okt 2019
Beiträge
10
Punkte für Reaktionen
0
Punkte
7
Hallo liebe Gemeinde,

ich suche etwas Hilfe. Hab mir das ganze auf mein DS418Play installiert. Prinzipiell läuft auch alles.
Jedoch verstehe das mit der Konfiguration nicht usw.

Ich wollte Dokumente scannen, und wenn dies den Begriff RECHNUNG besitzen, eben in einen Ordner RECHNUNG ablegen. Jedoch reagiert er auf diese Schlagwörter nicht. Und Dateiumbennung erfolgt auch keine.

Was benötigt ihr denn um mir etwas unter die Arme zu greifen?

Ich bin in dem Bereich blutiger Anfänger und würde mich über Unterstützung sehr freuen.

Vielen Dank schon mal.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234

yasmin_k

Benutzer
Mitglied seit
15. Aug 2009
Beiträge
285
Punkte für Reaktionen
0
Punkte
16
Ok, danke, hab ich schon installiert, aber leider immer noch.

Code:
    -----------------------------------
    |    ==> Installationsinfo <==    |
    -----------------------------------

synOCR-user:              root
synOCR-Version:           1.0.1.2
Architecture:             x86_64
DSM-build:                25426
Device:                   1511plus (1728853478)
current Profil:           default
DB-version:               3
used image (created):     jbarlow83/ocrmypdf:latest (2020-07-22T07:40:10)
used ocr-parameter:       -srd -l deu+eng
replace search prefix:    no
renaming syntax:          §tit
Symbol for tag marking:   #
source for filedate:      ocr
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume1/scans/IN/
Target directory:         /volume1/scans/OUT/
BackUp directory:         /volume1/scans/_BACKUP/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------

PROCESSING:   ? Epson_0445.pdf (Sun Jul 26 21:34:02 CEST 2020)
                  temp. target file: /tmp/tmp.EcuREK0B0o/Epson_0445.pdf

              ? OCRmyPDF-LOG:
               reading file from standard input
               Using Tesseract OpenMP thread limit 3
                   1 page is facing ?, confidence 10.88 - no change
               Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
               Optimize ratio: 1.25 savings: 19.7%
               Output sent to stdout
              ? OCRmyPDF-LOG-END

                  target file (OK): /volume1/scans/OUT/temp_Epson_0445_1595792042.pdf
              ? transfer the file permissions and owners (use ACL)
              ? search tags and date:
                no tags defined
                  check date (dd mm [yy]yy): 10.02.2020 ? valid
                  day:  10
                  month:02
                  year: 2020
              ? renaming:
                  apply renaming syntax ? Epson_0445
              ? edit metadata (exiftool ok)     1 image files updated
              ? Adapt file date (Source: OCR)
                  target file: Epson_0445.pdf
              ? move source file to: /volume1/scans/_BACKUP/Epson_0445.pdf
                  INFO: (PushBullet-TOKEN not set)
                  INFO: (runtime last file: 00:01:17 (pagecount: 1) | all: 6 PDFs / 12 Pages processed up to now)


    -----------------------------------
    |       ==> synOCR ENDE <==       |
    -----------------------------------

Lass dir Zeit, ich nicht so dringend.
 

Anhänge

  • Bildschirmfoto 2020-07-26 um 21.36.34.png
    Bildschirmfoto 2020-07-26 um 21.36.34.png
    37,2 KB · Aufrufe: 8
  • Bildschirmfoto 2020-07-26 um 21.36.19.png
    Bildschirmfoto 2020-07-26 um 21.36.19.png
    52,6 KB · Aufrufe: 8

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.379
Punkte für Reaktionen
1.195
Punkte
234
Ich bleibe am Ball. Gib mir bitte etwas Zeit. Ich werde mich, sobald ich kann, damit befassen.
Sorry, dass ich nicht gleich eine Lösung habe.
 

JackON

Benutzer
Mitglied seit
15. Okt 2019
Beiträge
10
Punkte für Reaktionen
0
Punkte
7
@geimist

LOG hab ich hochgeladen.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat