synOCR synOCR - GUI für OCRmyPDF

Timsche2210

Benutzer
Mitglied seit
15. Apr 2019
Beiträge
14
Punkte für Reaktionen
2
Punkte
3
Hi,

ich bin etwas im Stress, da ich auf DSM 7 geupgraded habe und mein Home Assistant in der VM nicht richtig läuft...
In den ganzen Reboot und Nachdenk-Zeiten würde ich gerne SYNOCR wieder über Docker installieren.
Wenn ich die letzten Seiten richtig überflogen habe, gibt es aktuell nur eine Beta?
Leider habe ich absolut kein Schimmer wie ich diese installieren kann / muss....
Gibt es die Möglichkeit, vom Hyperbackup die Konfig irgendwie zu erlangen?
Hab keine Ahnung mehr, wie die ganzen Konfigs eingestellt waren.
Falls das hier schon beantwortet wurde, reicht mir (vorerst) auch mal ein Link :)

Grüße
Timo
 

khakan

Benutzer
Mitglied seit
03. Dez 2020
Beiträge
3
Punkte für Reaktionen
0
Punkte
1
Hallo Geimist

Hoods hatte eine Ähnliche / gleiche Problem schon geschrieben (https://www.synology-forum.de/threads/synocr-gui-fuer-ocrmypdf.99647/post-962498).
Problem ist bei PDF Dokumenten die schon OCR durchlauf haben (egal ob per PDF App oder direkt vom Scanner).
Wenn ich diese PDF Doks durch synOCR umbennen möchte (Schalter -s) wird der Text so kaputt gemacht dass es die Tags nicht findet,
Text kopiert und in ein Text editor hinzugefügt, es sieht dann so aus:
??????????????????????????????????????????? ???????????
P??????????????????????????? ?
???????
??qrsttq??????????????????????????????????????????

Da der Schalter -s nicht das macht was was es soll (überspringen der OCR), ist Frage, ob es möglich ist ocrmypdf überhaupt nicht aufzurufen
z.B. mit einem Schalter -skipocr? Der Schalter "--skip-text" (von ocrmypadf) unter OCR Optionen hat nichts gebracht.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
@Hoods hatte mir Logs geschickt, ich konnte mich dem aber noch nicht annehmen. Prinzipiell ist es - wie ich da auch schon schrieb - ein Problem von OCRmyPDF. Ob @Hoods ein entsprechendes Ticket eröffnet hat, weiß ich nicht.

Über eine entsprechende Funktion könnte man nachdenken, halte ich aber nicht als zielführend, wenn es sich wirklich lediglich um einen Bug von OCRmyPDF handeln sollte.
 

LabSen

Benutzer
Mitglied seit
02. Feb 2011
Beiträge
14
Punkte für Reaktionen
0
Punkte
1
Hallo geimist

Ich verwende dein Tools seit langer Zeit mal wieder. Leider gibt es nun aber eine Fehlermeldung:

Code:
    -----------------------------------
    |    ==> installation info <==    |
    -----------------------------------

synOCR-user:              root
synOCR-version:           1.1.2
Architecture:             x86_64
DSM-build:                25556
Device:                   1813plus (4216945856)
current Profil:           default
DB-version:               4
used image (created):     jbarlow83/ocrmypdf:latest (2021-10-12T21:04:02)
used ocr-parameter:       -srd -l deu
replace search prefix:    yes
renaming syntax:          §yocr§mocr§docr_§tag
Symbol for tag marking:   _
source for filedate:      source
ignored dates by search:
Docker Test:              OK
Loglevel:                 normal
Application Directory:    /usr/syno/synoman/webman/3rdparty/synOCR
Source directory:         /volume3/Austausch/Scan/
Target directory:         /volume3/Austausch/Scan/
BackUp directory:         /volume3/Austausch/Scan/Backup/


    ----------------------------------
    |    ==> Funktionsaufrufe <==    |
    ----------------------------------
ERROR at line 1241: pagecount_new=$(( $(get_key_value ./etc/counter pagecount) + $pagecount_latest))
ERROR at line 1242: ocrcount_new=$(( $(get_key_value ./etc/counter ocrcount) + 1))

PROCESSING:   ? Xerox Scan_26102021194220_1.pdf (Tue Oct 26 20:10:02 CEST 2021)
sed: -e expression #1, char 7: unterminated `s' command
ERROR at line 1258: title=$( echo "${title}" | sed s/${SearchPraefix}//I )
                  temp. target file: /tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf
ERROR at line 1270: dockerlog=$(OCRmyPDF 2>&1)

              ? OCRmyPDF-LOG:
               ./synOCR.sh: line 241: /tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf: No such file or directory
               reading file from standard input
                   1 skipping all processing on this page
               Postprocessing...
               Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
               Optimize ratio: 1.00 savings: 0.0%
               write /dev/stdout: broken pipe
               ERROR at line 241: cat - > "$outputtmp"
               ERROR at line 241: cat - > "$outputtmp"
              ? OCRmyPDF-LOG-END

stat: cannot stat '/tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf': No such file or directory
./synOCR.sh: line 1284: [: -eq: unary operator expected
                  ?? failed! (target file is empty or not available)
rm: cannot remove '/tmp/tmp.FQ59RFIM2d/ERROR at line 1258: sed s/${SearchPraefix}//I.pdf': No such file or directory
ERROR at line 1286: rm "${outputtmp}"
                                  ERROR-Directory [/volume3/Austausch/Scan/ERRORFILES] will be created!

Kannst du mir weiterhelfen?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Wie lautet dein SearchPraefix?
Evtl. funktioniert es, wenn du das Entfernen des SearchPraefix deaktivierst (zu nächst als Workarround …)
 

LabSen

Benutzer
Mitglied seit
02. Feb 2011
Beiträge
14
Punkte für Reaktionen
0
Punkte
1
Meine zu suchende Tags sehen so aus:

Code:
UBS;Cembra;FKB;Billag;EWBuchs;Raiffeisen;rii-seez-net;Swisscom;SGKB;TransferWise;Steueramt;SBB;Helvetia;LKW;Marquart;VPBank;Steuererklärung;Steuerrechnung;Stundung;§Rechnung;§Lieferschein;Bestellung;Führerausweis;Führerschein;Prämienabrechnung;Übertretungsanzeige;Lohnabrechnung;§Police;Kontoauszug;Membercard;Versicherungspolice;Invoice;§RMA;Zinsausweis;Belastungsanzeige;Vorsorgebeiträge;Mahnung;Akontorechnung
 

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
Hallo Stephan,

ich ärgere mich noch immer mit ExifTool herum.
ExifTool ist unter /usr/share/applications/Exiftool installiert.
Der Pfad ist in /etc/profile gespeichert.
Ein Aufruf in der Konsole startet auch Exiftool
Das Log meldet noch immer:
edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it

Da muss doch irgendwo in den synocr scripten ein Aufruf des Exiftools sein, der den falschen Pfad vorgibt?

DSM 7
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Was ist denn das Ergebnis, wenn du über den DSM Aufgabenplaner echo $PATH ausgeben lässt?
Hast du das manuell installiert? Vielleicht kannst du einfach noch ein Link in ein bekannteres bin-Verzeichnis setzen.
 

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
hmm da wird der Pfad/usr/share/applications/Exiftool nicht ausgegeben....
In der Konsole wird er aber sehr wohl ausgegeben.

Ich habe ExifTool nach dieser Anleitung von scrapix @jaroboo auf https://community.synology.com/enu/forum/68/post/144720?page=1 installiert.

Ich weiß leider zu wenig von Linux um einen Link zu setzen. Komme leider aus der Windows Welt. Kannst Du da helfen?
Oder anders gefragt, kann ich das Verzeichnis einfach verschieben?
 
Zuletzt bearbeitet:

Schrotti

Benutzer
Mitglied seit
10. Okt 2020
Beiträge
22
Punkte für Reaktionen
3
Punkte
3
Ok, das hat nun funktioniert. (nachdem ich noch lernen musste, dass Linux hier zwischen Groß- und Kleinschreibung unterscheidet;-)
Danke.
Jetzt wird ExifTool gefunden.
Allerdings gibt es nun weitere Fehler:

? edit metadata (exiftool ok) Can't locate Image/ExifTool.pm in @INC (you may need to install the Image::ExifTool module) (@INC contains: /usr/local/bin/lib /usr/local/lib/perl5/site_perl /usr/local/share/perl5/site_perl /usr/local/lib/perl5/vendor_perl /usr/local/share/perl5/vendor_perl /usr/local/lib/perl5/core_perl /usr/local/share/perl5/core_perl .) at /usr/local/bin/exiftool line 37.
BEGIN failed--compilation aborted at /usr/local/bin/exiftool line 37.
ERROR at line 862: exiftool -overwrite_original -time:all="${date_yy}:${date_mm}:${date_dd} 00:00:00" -sep ", " -Keywords="$( echo $renameTag | sed -e "s/^${tagsymbol}//g;s/${tagsymbol}/, /g" )" "${outputtmp}"
In line 37 steht: use Image::ExifTool qw{:pPublic};

Ich glaube, da bist Du nun raus. Der Pfad funktioniert ja nun.
Ich werde mich mal an den Thread nebenan dranhängen.

Danke Dir bis dahin.
 
  • Sad
Reaktionen: geimist

HansDampf71

Benutzer
Mitglied seit
01. Nov 2021
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Ich habe hier lediglich einen Post wegen Encrypted-PDF gefunden, trifft aber auf meinen Fall nicht ganz zu.
Ich habe diverse Dokumente privat eingescannt. Der OCR Prozess läuft auch über fast alle eingescannten PDF-Dateien.

Nur 3 Stück lässt er mit folgender Meldung aus:
Code:
EncryptedPdfError: Input PDF is encrypted. The encryption must be removed to
perform OCR.

For information about this PDF's security use
qpdf --show-encryption infilename

You can remove the encryption using
qpdf --decrypt [--password=[password]] infilename
? OCRmyPDF-LOG-END

Da mein Scanner diese ja nicht verschlüsselt erstellt, hat er mit den anderen Dateien auch nicht gemacht, frage ich mich was da passiert ist?
Wenn ich über Windows Bordmittel die Datei noch mal als PDF "ausdrucke" funktioniert es. Workaround also möglich. Aber schöner wäre es wenn es grundsätzlich funktioniert. Jemand einen Hinweis für mich?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Das ist eine Fehlermeldung direkt von OCRmyPDF (synOCR hat da keinen Einfluss drauf). Es gibt ja Scanner, die PDFs auch signieren können. Ob das dann einen entsprechenden Effekt erzeugt, weiß ich nicht. Auch würde es ja nicht dazu passen, dass es mit anderen funktioniert (es sein denn, dass es mit einem bestimmten Scannerprofil zusammenhängt).

Zielführend wäre eine Nachfrage beim Entwickler von OCRmyPDF auf GitHub.

PS: welche OCRmyPDF-Version nutzt du? Vielleicht wäre da mal ein Update hilfreich. Hin und wieder gibt es da ja auch behobene Bugs.
 

HansDampf71

Benutzer
Mitglied seit
01. Nov 2021
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Nein, es ist einfach immer das gleiche Scannerprofil und auch entsprechende Settings hat der Scanner nicht.

Ich nutze synOCR erst seit wenigen Tagen und habe die Stable 1.12 installiert.
Welche OCRmyPDF dahinter steckt? Ich weiß es nicht.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Könntest du mir mal ein allgemeines Dokument (ohne OCR) schicken, welches diesen Fehler aufweist?
Hallo @HansDampf71,

vielen Dank für deinen Upload. Ich bin mir aber sehr sicher, dass du dieses Dokument nicht eingescannt hast, sondern dass es digital erstellt wurde und du es so (=verschlüsselt) bekommen hast:

Bildschirmfoto 2021-11-06 um 15.26.25.pngBildschirmfoto 2021-11-06 um 15.29.06.png
 

HansDampf71

Benutzer
Mitglied seit
01. Nov 2021
Beiträge
3
Punkte für Reaktionen
1
Punkte
3
Danke für Deine Mühe. Dann müssen in dem Ordner für meine eingescannten Dokumente tatsächlich noch einige PDF gewesen sein, die ich scheinbar seinerzeit per Email erhalten habe. Erinnere mich zwar nicht, aber dann wohl die einzige Erklärung :D
 
  • Like
Reaktionen: geimist


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat