synOCR synOCR - GUI für OCRmyPDF

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.137
Punkte für Reaktionen
898
Punkte
424
Geh in den Aufgabenplaner und definiere eine benutzerdefinierte Aufgabe mit dem Befehl (auf die exakte Schreibweise achten und die Ordner mit deinen Namen ersetzen)
Code:
mv /volume1ordner /volume1/GemeinsamerOrder/
und führe sie aus. Das verschiebt den Ordner wieder in den existierenden gemeinsamen Ordner der für dich sichtbar ist.
 
  • Like
Reaktionen: geimist und markmyway

markmyway

Benutzer
Mitglied seit
25. Okt 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Große Klasse - das hat geklappt! Herzlichen Dank für die sehr schnelle, hilfreiche und kompetente Antwort @Fusion!
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.385
Punkte für Reaktionen
1.199
Punkte
234
Die files werden alle abgearbeitet und es sieht gut aus. Vielleicht kannst du ja was damit anfangen
Vielen Dank
Dann werde ich das umstellen. Eigenartig ist nur, dass mit expr ja noch an einigen anderen Stellen Berechnungen durchgeführt werden (Löschen der überzähligen Logs, Hochzählen bei Duplikaten). Funktioniert das alles bei dir, oder ist dir da bisher lediglich kein Fehler aufgefallen?

Scheinbar hat das Script, mein NAS, wer auch immer Probleme mit "expr".
Was für ein NAS hast du?
Welche DSM-Version?

Geh in den Aufgabenplaner und definiere eine benutzerdefinierte Aufgabe …
Vielen Dank für deine schnelle Unterstützung ?
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Vielen Dank
Dann werde ich das umstellen. Eigenartig ist nur, dass mit expr ja noch an einigen anderen Stellen Berechnungen durchgeführt werden (Löschen der überzähligen Logs, Hochzählen bei Duplikaten). Funktioniert das alles bei dir, oder ist dir da bisher lediglich kein Fehler aufgefallen?
Logs werden glaube ich nicht gelöscht. Hab für jedes PDF ein logfile, wobei das damit zusammenhängen kann da ich bisher immer error hatte u d er die deswegen aufbewahrt.

Was für ein NAS hast du?
Welche DSM-Version?
Ein DS920+ und die aktuellste Version. Leider gibt's noch keine DSM7 Preview dafür, sonst wäre die drauf.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.385
Punkte für Reaktionen
1.199
Punkte
234
Ein DS920+ und die aktuellste Version. Leider gibt's noch keine DSM7 Preview dafür, sonst wäre die drauf.
Verstehe ich nicht. Die habe ich ja auch.

Bitte bedenke: die meisten 3rdParty Pakete (inkl. synOCR) funktionieren noch nicht unter DSM 7!
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
könnt mir mal bitte jemand diese Beobachtung verifizieren:

Mische ich PDFs welche mit Passwort geschützt sind und welche die das nicht sind, rödelt synocr besonders lang und lässt am Ende auch die PDFs unkonvertiert liegen, welche kein Passwortschutz haben.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.385
Punkte für Reaktionen
1.199
Punkte
234
Es läuft vereinfacht so:

Code:
Schleife arbeitet bei jedem Durchlauf ein PDF aus dem Inputordner ab
    > PDF wird an ocrmypdf übergeben
    > Test: Ausgabedatei leer (0 Byte) oder nicht vorhanden
        > nächste Datei

Ich habe gerade 2 verschlüsselte und 2 unverschlüsselte PDFs durchlaufen lassen. Bei mir funktioniert es wie erwartet.
Genaueres müsste man mal deinem Log entnehmen. Vielleicht gibt es bei dir irgendein timeout, welches das Skript nicht korrekt abfängt? Die Dateien werden ja wirklich einzeln der Reihe nach abgearbeitet. Erst wenn die 1. fertig ist, kommt die 2. dran …

PS: ich habe dein anderes Problem noch nicht vergessen ?
 

Loomis

Benutzer
Mitglied seit
20. Sep 2020
Beiträge
14
Punkte für Reaktionen
0
Punkte
1
Hallo,

ich arbeite seit einiger Zeit mit dem synOCR / OCRmyPDF - Feine Sache! Ich hätte da ein anliegen, was ich hier leider im Thread nicht gefunden habe.
Ist folgendes Szenario möglich:

- Ich habe ein Label auf einem Bauteil, das ich abfotografiere/scanne (bspw. mit Scanner Pro)
- Lege das PDF oder JPG auf der NAS in den Input-Ordner ab
- Das Label hat immer das gleiche Wort, wonach ich den OCRmyPDF ansetzen würde, nämlich: "Komission:"
- Findet er dieses Wort, soll er die Folgezahlen bspw. 20-1234 ebenfalls mitnehmen und daraus im Output-Ordner einen Ordner erstellen
- Dort legt er das fertige PDF dann ab

ein anderes Bauteil könnte eine andere Nummer besitzen, z.B. 20-4567 - So soll er einen weiteren Ordner mit anlegen Namens 20-4567 und dort das PDF ablegen.

Könnte dieser Workflow irgendwie funktionieren?

Vielen Dank im voraus für Eure Antworten

Gruß, Carsten
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.385
Punkte für Reaktionen
1.199
Punkte
234
Das Muster der Zahlenfolge lässt sich bestimmt via RegEx finden und ermitteln. Derzeit gibt es aber keine dynamische Zielordnererstellung. Das wäre bestimmt machbar, aber derzeit komme ich nicht einmal dazu, mich um aktuelle Bugs zu kümmern. Ich schreibe es mir aber mit auf.
 
  • Like
Reaktionen: Loomis

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
Es läuft vereinfacht so:

Ich habe gerade 2 verschlüsselte und 2 unverschlüsselte PDFs durchlaufen lassen. Bei mir funktioniert es wie erwartet.
Genaueres müsste man mal deinem Log entnehmen. Vielleicht gibt es bei dir irgendein timeout, welches das Skript nicht korrekt abfängt? Die Dateien werden ja wirklich einzeln der Reihe nach abgearbeitet. Erst wenn die 1. fertig ist, kommt die 2. dran …

PS: ich habe dein anderes Problem noch nicht vergessen ?
Siehe weiter oben Stephan.... bzgl. meinem Problem ..... konnte ich selbst lösen. War auf "Tag" statt auf "Folder" gestellt. Das andere Problem bzgl. Passwort geschütze PDF war auch ein "User Error" von mir und ist ein Folgefehler. Wenn die YAML Top Level Namen nicht "korrekt" sind verzwurbelt sich SynOCR. Er bricht nicht ab, aber es hat Fehler im Log und PDS (selbst bereits erledigte) werden gelöscht usw. Unschön.....
Mir wär ein"Hard Stop" bei Fehlerhafter YAML Datei lieber. Was gar nicht geht sind die bekannten Zahlen als Beginn des Top-Level Namens, aber auch Bindestrich und Scharfes S mag SynOCR gar nicht im Namen.....
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.385
Punkte für Reaktionen
1.199
Punkte
234
Die YAML-Validierung steht eben ganz oben auf meiner Liste. Ich habe vor, die Regelnamen automatisch zu prüfen, bzw. zu konvertieren.

Mit dem anderen Problem meinte ich, dass du doch eine Variablenverwechslung festgestellt hattest.
Oder hatte sich eben das erledigt?

Du siehst, ich stehe derzeit überhaupt nicht in der Materie … :rolleyes:
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
ja, das ist erledigt. Was ich/wir als Variablenverwechselung verortet hatten, war eine Tag/Folder als Verzeichnis Konfiguration.
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Mir ist jetzt aufgefallen das wenn ich ein PDF habe was er nicht bearbeiten kann, dann legt er ein temp_name.pdf an und arbeitet die nachfolgenden nicht mehr ab. Somit fängt er beim nächsten Lauf zwangsläufig mit dem PDF an was er nicht abarbeiten kann und bricht dann wieder ab.

Kann man das beeinflussen? Bzw ist das so gewollt das er aufhört?
 

zephyr550

Benutzer
Mitglied seit
29. Apr 2015
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Hey guten Morgen, zunächst einmal vielen Dank für die erstklassige Arbeit an SynOCR und das du so dahinterstehst!!! Nach nun mehreren Stunden probiererei weiß ich nun leider nicht mehr weiter. Ich schaff es einfach nicht anstatt der Tags (bsp. Versicherung; HUK=Versicherung) eine Regeldatei funktionsfähig zu bekommen.
Sobald ich eine Regeldatei verwende, werden die Dateien in den _OUTPUT Ordner verschoben und nur mit einem Datum versehen, statt getaggt und in den jeweiligen Ordnern kopiert zu werden.

Ich denke an irgendeiner Stelle mach ich etwas falsch. Hängt wahrscheinlich an der Regeldatei.
Ich hoffe ihr könnt mir da weiterhelfen.
 

Anhänge

  • Regeldatei1.JPG
    Regeldatei1.JPG
    49,6 KB · Aufrufe: 19
  • tagconfig.txt
    11,5 KB · Aufrufe: 37

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
@zephyr550 In der aktuellen tag config sehe ich nichts von der HUK. An sich sieht die config aber erstmal gut aus. Der einzige Unterschied zu meiner ist, das ich searchstring: "such text" habe, also mit "". Ebenso scheint es ein Fehler mit den Push Notifications zu geben. Kannst du diese mal deaktivieren, den "_" aus dem Tag selbst entfernen und mal die "" hinzufügen und nochmal testen ob es dann geht?

Code:
tag3b868791a4344b2b85fe70eeb51f4551:
    tagname: "KFZ Versicherung"
    targetfolder: "../Versicherungen/AXA/KFZ"
    condition: all
    subrules:
    - searchstring: "axa"
      isRegEx: false
      casesensitive: false
      searchtyp: contains
      source: content
 
Zuletzt bearbeitet:

zephyr550

Benutzer
Mitglied seit
29. Apr 2015
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
@zephyr550 In der aktuellen tag config sehe ich nichts von der HUK. An sich sieht die config aber erstmal gut aus. Der einzige Unterschied zu meiner ist, das ich searchstring: "such text" habe, also mit "". Ebenso scheint es ein Fehler mit den Push Notifications zu geben. Kannst du diese mal deaktivieren, den "_" aus dem Tag selbst entfernen und mal die "" hinzufügen und nochmal testen ob es dann geht?

Die HUK sollte auch nur ein Beispiel sein.
Die config hab ich nun soweit geändert das die searchstring: "...." mit "" aufgeführt sind. leider auch ohne Erfolg.
Muss eigentlich die config datei in YAML konvertiert werden und wenn ja wie?
 

CSchmitt

Benutzer
Mitglied seit
29. Mrz 2018
Beiträge
40
Punkte für Reaktionen
8
Punkte
8
Die HUK sollte auch nur ein Beispiel sein.
Die config hab ich nun soweit geändert das die searchstring: "...." mit "" aufgeführt sind. leider auch ohne Erfolg.
Muss eigentlich die config datei in YAML konvertiert werden und wenn ja wie?
Also meine Config ist eine .txt. Daran sollte es denke ich nicht liegen. Ich habe noch ein anderes pattern zum Umbenennen der Dateien, aber das kann es denke ich auch nicht sein.

Da bin ich nun leider auch Ratlos.
 

Anhänge

  • DDAF14AD-5505-4154-9DED-53286E1AC700.jpeg
    DDAF14AD-5505-4154-9DED-53286E1AC700.jpeg
    77,3 KB · Aufrufe: 27

zephyr550

Benutzer
Mitglied seit
29. Apr 2015
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
oh man... hab den Fehler endlich gefunden. Beim rumprobieren habe in der config datei das Zeichen # bei #synOCR_YAMLRULEFILE entfernt.
Ich denke das in der Verbindung mit den "" in den searchstrings war die Lösung.
Mein Fehler! ?
Vielen Dank für die Hilfe!!!
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat