synOCR synOCR - GUI für OCRmyPDF

independence2206

Benutzer
Mitglied seit
30. Nov 2013
Beiträge
547
Punkte für Reaktionen
23
Punkte
38
Bei mir SynOCR ziemlich lange ziemlich stabil aber seit einigen Wochen passiert einfach nichts mehr. Ich stoße den Scan manuell oder per Zeitplan an und es passiert einfach nichts. In der "App" sieht es so aus als ob normal abgearbeitet wird aber am Ende sind immer noch genauso viele PDF Dateien im Quellordner wie zu Beginn. Was ist denn nun das Problem?! Jemand ne Idee?
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
99
Punkte
134
Immer noch in Quellordner, aber durchsuchbar geworden? Dann ist das "Verschieben" vl. da Problem? Suchrpräfix anpassen? Zielordner existiert? etc.
 

independence2206

Benutzer
Mitglied seit
30. Nov 2013
Beiträge
547
Punkte für Reaktionen
23
Punkte
38
@TeXniXo: Vielen Dank, ich bin nicht drauf gekommen, dass die Dateien durchsuchbar sein könnten aber einfach nicht verschoben werden. So ist es auch. Der Zielordner existiert, die Logs werden auch dort geschrieben, einfach nur die Dateien wechseln aber nicht den Speicherort
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Bei mir SynOCR ziemlich lange ziemlich stabil aber seit einigen Wochen passiert einfach nichts mehr. Ich stoße den Scan manuell oder per Zeitplan an und es passiert einfach nichts. In der "App" sieht es so aus als ob normal abgearbeitet wird aber am Ende sind immer noch genauso viele PDF Dateien im Quellordner wie zu Beginn. Was ist denn nun das Problem?! Jemand ne Idee?


Da in einem temporären Ordner gearbeitet wird, werden die Quelldateien nicht ersetzt, sofern unterschiedliche Ordner konfiguriert worden sind. Um nicht lange im Trüben zu fischen, wäre ein entsprechendes Log sehr hilfreich.
 

Dufooy

Benutzer
Mitglied seit
03. Nov 2012
Beiträge
277
Punkte für Reaktionen
0
Punkte
16


@geimist Danke für den Link, dort habe ich leider nicht dass richtige gefunden, da ich aber nun weiß wo ich gucken muss habe ich mit nachfolgendem Link dieses gefunden when-ocr-is-skipped

Rich (BBCode):
If --skip-text is issued, then no OCR will be performed on pages that already have text. 
The page will be copied to the output. 
This may be useful for documents that contain both 
“born digital” and scanned content, or to use OCRmyPDF 
to normalize and convert to PDF/A regardless of their contents.

Frage dazu, kann ich dass -skip-text selber aktivieren?

Danke Dir
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Genauso so wie die anderen Optionen (--redo-ocr --force-ocr) kommt der Parameter bei "OCR Optionen" in synOCR hinein. Also lautet deine Zeile z.B.:
Rich (BBCode):
-dc --skip-text --clean-final -l deu
 

Dufooy

Benutzer
Mitglied seit
03. Nov 2012
Beiträge
277
Punkte für Reaktionen
0
Punkte
16
@geimist ... danke Dir...habs auch gerade selber gefunden...kann man an Dich spenden?

Schönen Abend und danke für Deine Geduld D.
 

independence2206

Benutzer
Mitglied seit
30. Nov 2013
Beiträge
547
Punkte für Reaktionen
23
Punkte
38
Da in einem temporären Ordner gearbeitet wird, werden die Quelldateien nicht ersetzt, sofern unterschiedliche Ordner konfiguriert worden sind. Um nicht lange im Trüben zu fischen, wäre ein entsprechendes Log sehr hilfreich.

Ich konnte das Problem zwischenzeitlich lösen. Ich hab in Docker mal die Container gelöscht, hab im synOCR einen anderen Container ausgewählt und hab vorher synOCR deinstalliert und neu installiert. Zudem gab es in den Logs noch einen Hinweis, dass er sich bei einer sehr großen PDF aufgehangen hat.. Die hab ich dann mal entfernt.
 

Elvez2000

Benutzer
Mitglied seit
20. Jan 2018
Beiträge
15
Punkte für Reaktionen
0
Punkte
1
Erst einmal meinen riesen Dank für das Paket und die ganze Mühe - dies hat mir ganz schön viel Mühe abgenommen (insbesondere, weil ich kein Docker-Profi bin).

Ich habe drei kurze Fragen:

1) gibt es irgendwo eine zusammenhängende Übersicht über sämtliche Argumente, die man ocrmypdf in der "OCR Optionen" Zeile von synOCR mitgeben kann?
2) gibt es irgendwo eine detailliertere Erklärung/Anleitung zu den Tags? Bzw. in wie weit sind diese noch konfigurierbar?
3) wie stellt Ihr sicher, dass immer das letzte image von ocrmypdf genutzt wird, bzw. wie bekommt man auf der Synology heraus, welche version eines images heruntergeladen wurde?

Danke schonmal vorab!
 

Elvez2000

Benutzer
Mitglied seit
20. Jan 2018
Beiträge
15
Punkte für Reaktionen
0
Punkte
1
Ach ja, und noch etwas, das mir auffällt:

bei mir gibt es Probleme, die Profile zu wechseln. Egal, was ich in "default" ändere oder ob ich ein neues Profil anlege führt synOCR immer ein "altes" Profil aus (jedenfalls sehe ich keinerlei Änderungen z.B,. im Logfile).

Ist so ein Fehler schon einmal aufgetreten bzw. wie/wo könnte ich hier prüfen was bei mir hakt?

Danke!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
1) gibt es irgendwo eine zusammenhängende Übersicht über sämtliche Argumente, die man ocrmypdf in der "OCR Optionen" Zeile von synOCR mitgeben kann?
Infos dazu findest du hier: https://ocrmypdf.readthedocs.io/en/latest/cookbook.html

2) gibt es irgendwo eine detailliertere Erklärung/Anleitung zu den Tags? Bzw. in wie weit sind diese noch konfigurierbar?
Derzeit beschränken sich die Möglichkeiten weitestgehend auf die dokumentierten (beschrieben im 'Info-i'). Ich hoffe, dass mit Unterstützung hier in Zukunft noch mehr möglich wird.

3) wie stellt Ihr sicher, dass immer das letzte image von ocrmypdf genutzt wird, bzw. wie bekommt man auf der Synology heraus, welche version eines images heruntergeladen wurde?
In der Regel solltest du nicht auf das neuste Image angewiesen sein. Du kannst einfach das Abbild in der Dockergui löschen - es wird dann beim nächsten Durchlauf das neuste gezogen.

4) bei mir gibt es Probleme, die Profile zu wechseln. Egal, was ich in "default" ändere oder ob ich ein neues Profil anlege führt synOCR immer ein "altes" Profil aus (jedenfalls sehe ich keinerlei Änderungen z.B,. im Logfile).
Das wechseln der Profile dient nur der Auswahl für die GUI. Deshalb steht ganz oben auf der Seite: "Über die Profile kannst du beliebig viele Konfigurationen anlegen, welche alle bei jedem Programmlauf abgearbeitet werden." Wenn du steuern möchtest, ob ein Profil ausgeführt werden soll, oder nicht, kannst du den Schalter "Profil aktiviert" / "Profil deaktiviert" unter Allgemein anpassen.
 

Elvez2000

Benutzer
Mitglied seit
20. Jan 2018
Beiträge
15
Punkte für Reaktionen
0
Punkte
1
Super und herzlichen Dank für die schnelle Antwort!

Insbesondere das mit den Profilen klappt jetzt! Noch eine Frage zu den Tags:

Was heißt "Info-i" bzw. wie komme ich da ran?

Und: kann ich einen gefundenen Tag auch dazu nutzen, den Tag an sich umzuändern und um damit dann den Dateinamen zu verändern?

Ein Beispiel: ich möchte nach den Tags "abc" und "xyz" suchen und - falls gefunden - den Dateinamen um "123" bzw "789" erweitern. Ich habe jetzt unter dem Punkt "zu suchende Tags" eingetragen: abc=123;xyz=789
Weiterhin habe ich unter "OCR Rename-Syntax" eingetragen: §tit § tag

Dies funktioniert nur leider nicht. Wenn z.B. "abc" gefunden wird, wird auch nur "abc" an den Titel des Dokuments angehängt.
 

Elvez2000

Benutzer
Mitglied seit
20. Jan 2018
Beiträge
15
Punkte für Reaktionen
0
Punkte
1
Ah, ok! Herzlichen Dank!

Dann warte ich mal ab und drücke die Daumen, dass Aliase irgendwann einmal noch kommen. Ich würde helfen - bin aber leider mehr oder weniger blank, was das Programmieren angeht :(
Nur mal interessehalber: wie/wo wird denn dieses Tagging durchgeführt? Ist das ein Extrascript und in welcher Sprache liegt es vor?
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Nur mal interessehalber: wie/wo wird denn dieses Tagging durchgeführt? Ist das ein Extrascript und in welcher Sprache liegt es vor?
Fast alles ist in Bash - ich bin auch kein Profi (eher alles andere als das), weshalb ich hier auch nicht weiterkomme. Eine Herausforderung ist, die Regeln möglichst einfach in der GUI darstellen zu können. Da wurde mir schon Hilfe angeboten und ich hoffe, dass es da irgendwann Fortschritte gibt.

Die Tagsuche findest du hier ab Zeile 370.
 

Elvez2000

Benutzer
Mitglied seit
20. Jan 2018
Beiträge
15
Punkte für Reaktionen
0
Punkte
1
Obwohl ich zumindest ein ganz klein wenig Bash kann bin ich auf den ersten Blick auch überfragt (insbesondere, was das Zusammenspiel mit der GUI angeht). Ich lese einmal ein wenig quer, vielleicht finde ich was - ansonsten hoffe ich einmal auf das "Internetkollektiv" ;-)
Beste Grüße und nochmals vielen Dank für die tolle Arbeit und den Einsatz!
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Die Herausforderung ist, die einzelnen Regeln möglichst einfach in der GUI verwalten zu können (Stichwort dynamische Tabelle). Die Regeln werden - wie jetzt auch - in die sqlite-DB geschrieben und vom Skript abgearbeitet. Das ist dann das kleinste Problem - ich kann die GUI nicht entsprechend erweitern. Aber wie schon geschrieben, bekomme ich da evtl. Unterstützung (wenn es dabei bleibt).
 

KleinerStiesel

Benutzer
Mitglied seit
30. Jul 2018
Beiträge
16
Punkte für Reaktionen
0
Punkte
0
Hallo eine Kurze Frage bei den Dateinamen umbennen nach Tags wie bkomme ich es hin das er ein Lerzeichen zwischen den entsprechenden Tags macht?
§tag §yocr-§mocr-§docr
Die AusgabeDatei trägt jetzt den Namen: MusterMuster 2020-04-05.pdf soll aber Muster Muster 2020-04-05.pdf lauten
Unbenannt.PNG
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat