synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.392
Punkte für Reaktionen
1.207
Punkte
234
@BigStephan

Du kannst gerne mal vom Server das aktuelle Build testen. Ich muss das zwar noch dokumentieren, aber der Parameter tagname_RegEx sollte wie oben angegeben funktionieren (gerne auch mal mit verschiedenen RegEx spielen / testen).

Außerdem kannst du dir die bisherige Laufzeit im Skript anzeigen lassen (dafür musst du den erweiterten Loglevel 2 einstellen).

Ich freue mich auf dein Feedback
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.392
Punkte für Reaktionen
1.207
Punkte
234
Der OCR-Prozess funktioniert, die Datei wird entsprechend umgenannt und in den definierten Ordner verschoben, ist danach nicht zu öffnen (mit verschiedenen PDF-Viewern getestet).
Vielen Dank für dein Log.
Dem Log nach zu urteilen, gibt es ein Problem beim Kopieren (es kann kein Hardlink gesetzt werden, da cp davon ausgeht, die Dateien würden Volume-übergreifend verlinkt). Da hatte ich schonmal einen Workarround für einen anderen User eingebaut. Kannst du mal von meinem Server (geimist.eu/synOCR/) das letzte Build testen und nochmal ein Log schicken?
 

oberhex

Benutzer
Mitglied seit
18. Apr 2015
Beiträge
15
Punkte für Reaktionen
3
Punkte
3
Ok, danke...werde ich machen und gebe dir dann Rückmeldung!!
 

oberhex

Benutzer
Mitglied seit
18. Apr 2015
Beiträge
15
Punkte für Reaktionen
3
Punkte
3
Hi geimist,
hab es mit dem aktuellen Build getestet und nun hat es funktioniert. Vielen Dank für deine Mühen. Benötigst du noch das Log? Gru?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.392
Punkte für Reaktionen
1.207
Punkte
234
Das freut mich :)

Ich hatte noch mal ein Build erstellt, wo der Fehler besser geloggt wird. Das müsste installiert werden und in der GUI das Loglevel 2 ausgewählt werden. Das fände ich schon mal interessant (mit einer Datei, die anfangs nicht funktionierte).
Danke
 

polonus

Benutzer
Mitglied seit
01. Sep 2008
Beiträge
30
Punkte für Reaktionen
2
Punkte
8
Hallo Zusammen, zuallererst Vielen, Vielen Dank an geimst für tolle Arbeit!!! Ich benutze synocr seit einigen Tagen und bin super zufrieden damit! Heute habe ich aber leider ein Schreck bekommen. Die Desktop SynOCR Icon ist verschwunden :-( Die Anwendung funktioniert immer nach wie vor. Ich sehe, dass meine Dokumente stündlich gelesen und bearbeitet werden. Ich komme aber nicht mehr an die Regeln. Ich dachte ich würde einfach die Anwendung neu installieren. Ich vermute, dass meine zahlreiche Regeln, die ich definiert habe damit verloren gehen würden. Weißt jemand Rat? Kann ich die Regeln aus einer Datei auf dem System herauskopieren? Es war viel Arbeit sie zu definieren... Ich habe DS920+ mit DSM6.2.3-25426. Ist bei jemanden sonst sowas vorgekommen? Ich habe Synology Mail+ installiert und danach deinstalliert. Ich vermute das war der Auslöser ... Vielen herzlichen Dank im Voraus!!! polonus
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.392
Punkte für Reaktionen
1.207
Punkte
234
Hallo polunus,

das Phänomen ist mir nicht bekannt :unsure:

Welcher Benutzer?
Hat er die Berechtigung für synOCR (Systemsteuerung ? Berechtigungen)?

Die Einstellungen kannst du dir mit HyperBackup sichern (alternativ findest du die Einstellungen hier: /usr/syno/synoman/webman/3rdparty/synOCR/etc).
Erweiterte Regeln als YAML-Datei findest du in deinem Dateisystem (standardmäßig im INPUT-Ordner).
 

polonus

Benutzer
Mitglied seit
01. Sep 2008
Beiträge
30
Punkte für Reaktionen
2
Punkte
8
Hallo geimst, Danke für deine Antwort. Tja sowas habe ich auch noch nie gesehen. Du meinst welcher Benutzer angemeldet war oder welcher Benutzer Synology Mail+ installierte bzw. deinstallierte? In beiden Fällen war das der Benutzer admin. Grüße, polonus
 

polonus

Benutzer
Mitglied seit
01. Sep 2008
Beiträge
30
Punkte für Reaktionen
2
Punkte
8
Hallo geimst, ja der Benutzer admin hat alle Berechtigungen somit auch für Synocr. Grüße, polonus
 

no.one

Benutzer
Mitglied seit
30. Dez 2020
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Hallo Zusammen,

ich versuche PDFs', die von einer Bank stammen (Auszüge, Mitteilungen etc.) zu verarbeiten bzw. abzulegen.
Die PDFs' kann ich mit einem Rader (PDF-XChange Viewer) problemlos lesen (ohne Eingabe eines Passwortes / irgend eines Hinweises).
Sollen diese dann aber verarbeitet werden (Tags' setzen etc.) bekomme ich im log die folgende Fehelrmeldung:

? OCRmyPDF-LOG:
reading file from standard input
EncryptedPdfError: Input PDF is encrypted. The encryption must be removed to
perform OCR.

For information about this PDF's security use
qpdf --show-encryption infilename

You can remove the encryption using
qpdf --decrypt [--password=[password]] infilename
? OCRmyPDF-LOG-END

?? failed! (target file is empty or not available)
Wenn ich versuche "08/15" PDFs' zu bearbeiten Anleitungen / Datenblätter bekomme ich KEINE Fehlermeldung.

Kennt jemand den Effekt / weiß jemand was zu tun ist?

Vielen Dank im Voraus.

Ich habe nun das gleiche Problem mit manchen meiner PDFs....

@geimist Ist es möglich das "qpdf --decrypt..." automatisiert mit synOCR durchlaufen zu lassen?

LG no.one
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.392
Punkte für Reaktionen
1.207
Punkte
234
@geimist Ist es möglich das "qpdf --decrypt..." automatisiert mit synOCR durchlaufen zu lassen?
Evtl. könnte man auf qpdf im Dokercontainer OCRmyPDF zugreifen (hilft wohl nur beim Entfernen des Eigentümerkennworts, aber nicht beim Entfernen des Benutzerkennworts).

Die Fragen, die sich mir stellen:
  • Wem gehören die Dateien?
  • Wer hat die Rechte daran?
  • Wie betrifft mich das als Entwickler, wenn ich eine entsprechende Möglichkeit bereitstellen würde?
 

dreamdealer

Benutzer
Mitglied seit
29. Nov 2009
Beiträge
8
Punkte für Reaktionen
0
Punkte
1
Ausrichtungsproblem.

Tag zusammen. Ich habe seit ca. 2 Wochen (ist mir erst im Nachhinein aufgefallen) das Problem, dass Scans im querformat (also nicht richtig ausgerichtet) mit folgenden Parametern gescannt:

-srd -l deu --rotate-pages-threshold 5

Zwar korrekt gedreht werden, die ursprüngliche Ausrichtung des Dokuments bleibt aber erhalten (hoffe mit der Erklärung könnt ihr was anfangen).

Es wird also der Seiteninhalt "auf der Seite" um 90° gedreht, ohne dass die Ausrichtung der Seite verändert wird.

Ich hab mir jetzt nen Wolf in unterschiedlichsten Quellen gelesen, werde aber leider nicht schlauer.

Setup:
PDFs werden ungedreht und ohne OCR im Eingangsordner abgelegt.

Und da ein Bild ja mehr als 1000 Worte sagt...siehe die Anlage.

Oberes Bild --> So kommts aus dem Scanner
Unteres Bild --> Nach SynOCR

Für Hilfe dankbar:

Stefan

Log:
synOCR-user: root
synOCR-Version: 1.0.2
Architecture: x86_64
DSM-build: 25426
Device: 1520plus (3769673777)
current Profil: Stefan default
DB-version: 3
used image (created): jbarlow83/ocrmypdf:latest (2021-01-26T09:53:58)
used ocr-parameter: -srd -l deu --rotate-pages-threshold 5
replace search prefix: yes
renaming syntax: §ysource_§msource_§dsource
Symbol for tag marking: #
source for filedate: source
Docker Test: OK
Loglevel: normal
Application Directory:
Source directory:
Target directory:
BackUp directory:


----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 20210202_224238_0001.pdf (Tue Feb 2 22:43:02 CET 2021)
temp. target file: /tmp/tmp.hdICM9Dhrr/20210202_224238_0001.pdf

? OCRmyPDF-LOG:
reading file from standard input
Start processing 2 pages concurrently
2 page is facing ?, confidence 6.10 - will rotate ?
1 page is facing ?, confidence 9.65 - will rotate ?
Postprocessing...
Optimize ratio: 1.00 savings: -0.1%
Image optimization did not improve the file - discarded
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK):
? search tags and date:
source for tags is the list from the GUI
tag count: 1
Search by tag: "XXXXXXXXXX
rename tag is: ""

Date not found in OCR text - use file date:
day: 02
month:02
year: 2021
? renaming:
apply renaming syntax ? 2021_02_02
? edit metadata ERROR - exiftool not found! Please install it over cphub.net
File name already exists! Add counter (7)
target file: 2021_02_02 (7).pdf
? Adapt file date (Source: Source file)
? move source file to: /vXXXXXXXX
INFO: (PushBullet-TOKEN not set)
INFO: (runtime last file: 00:00:35 (pagecount: 2) | all: 365 PDFs / 1505 Pages processed up to now)


-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------
 

Anhänge

  • Bildschirmfoto 2021-02-02 um 23.07.10.png
    Bildschirmfoto 2021-02-02 um 23.07.10.png
    1,4 MB · Aufrufe: 14

polonus

Benutzer
Mitglied seit
01. Sep 2008
Beiträge
30
Punkte für Reaktionen
2
Punkte
8
Dann gerne mal wie beschrieben ein Backup machen, synOCR deinstallieren und anschließend neu installieren.
Hallo geimst, Vielen Dank für deine Antwort! Ich habe das heute gemacht. Das hat aber leider nichts gebracht. Deinstalliert, neu installiert und die Icon sind trotzdem nicht sichtbar :-( Grüße, polonus
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
5.565
Punkte für Reaktionen
1.397
Punkte
234
  • Like
Reaktionen: geimist

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.392
Punkte für Reaktionen
1.207
Punkte
234

wagawaga

Benutzer
Mitglied seit
13. Mrz 2012
Beiträge
18
Punkte für Reaktionen
0
Punkte
1
Hallo, ich bin mir jetzt nicht so ganz sicher, ob ich nicht wieder ein älteres Thema aufmache. So richtig hatte ich die Problemstellung hinsichtlich der Sortierung von Tags vielleicht auch nicht verstanden.

Generell möchte ich eigentich folgendes erreichen:

Gegebenes Dokument: Mahnung zu einer Rechnung eines Handwerksbetriebes.


YAML-Rule-File:

aaa_Level1_XYZ_Handwerksbetrieb:
tagname: XYZ_Handwerksbetrieb
targetfolder:
condition: all
subrules:
- searchstring: "XYZ Handwerksbetrieb"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
bbb_Suffix1_Rechnung:
tagname: Rechnung
targetfolder:
condition: all
subrules:
- searchstring: "Rechnung"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false
ccc_Suffix2_Mahnung:
tagname: Mahnung
targetfolder:
condition: all
subrules:
- searchstring: "Rechnung"
searchtyp: contains
isRegEx: false
source: content
casesensitive: false

Aus den Logs erkenne ich, dass die Tags entsprechend der sampletagrulename (also aaa_*, bbb_*, ccc_*" abgearbeitet werden.

Wenn aber alle oben aufgeführten Rules erfüllt sind, dann bekomme ich den Dateinamen: 2020-xx-xx_Mahnung_Rechnung_XYZ_Handwerksbetrieb, denn offenbar werden die Rules zwar alphabetisch abgearbeitet aber auch alle zugeordneten Tags aplphabetisch sortiert zusammengefügt.

Gewollt hätte ich aber: 2020-xx-xx_XYZ_Handwerksbetrieb_Rechnung_Mahnung

also

2020-xx-xx_Level1_Suffix1_Suffix2

Habe ich da nur etwas bislang falsch gemacht oder geht das tatsächlich derzeit (hoffentlich noch) nicht?

Vielen Dank für eine aufhellende Rückmeldung!
W.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.392
Punkte für Reaktionen
1.207
Punkte
234
Im aktuellen Release ist noch die Sortierung enthalten. Wenn du aber den aktuellen Build von meinem Server nimmst, dann sollte es wie gewünscht funktionieren.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat