synOCR - GUI für OCRmyPDF

koehntopp

Benutzer
Mitglied seit
18. Jan 2021
Beiträge
11
Punkte für Reaktionen
1
Punkte
53
Kann mir bitte mal jemand auf die Sprünge helfen - hab die Version 1.1.1, kann aber den Knopf nicht finden um die yaml Datei einzulesen, im Log steht immer dass Default verwendet wird...?

Bildschirmfoto 2021-05-02 um 20.50.18.png
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.482
Punkte für Reaktionen
187
Punkte
129
"default" ist der Name deines Profils.

Bzgl. der YAML-Datei:
Du hast keinen Pfad (im Tagfeld) zu deiner YAML-Datei angeben …
 
Zuletzt bearbeitet:

TJ.

Benutzer
Mitglied seit
29. Apr 2021
Beiträge
18
Punkte für Reaktionen
2
Punkte
9
Hallo geimist,

vielen Dank für deine wirklich tolle Arbeit. Ich habe schon lange nach so einer Lösung für mich und mein NAS gesucht und nun endlich gefunden. Ich habe mich schon von Seite 1 an bis Seite 63 durchgearbeitet und einiges gelernt, sodass die grundlegenden Funktionen schon für mich funktionieren. Bevor ich jetzt aber anfange komplexere Regeln zu erstellen, würde ich gerne ein paar Probleme klären, über die ich gestolpert bin und nicht verstehe, da ich echt ein Anfänger in diesem Genre bin. Vielleicht kannst du mir bitte helfen, Licht ins dunkle zu bringen.

1. Im Log habe ich immer vier Zeilen mit "ERROR at Line...", obwohl alles funktionieren zu scheint. (siehe Screenshot)

2. Im Log habe ich immer die Zeile "Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata." obwohl es als normales pdf eingescannt wurde. (siehe Screenshot)

3. Wie kann ich den Zähler der verarbeitetet Dokumente im UI zurücksetzen?

Beste Grüße
TJ
 

Anhänge

  • Bildschirmfoto.png
    Bildschirmfoto.png
    358,8 KB · Aufrufe: 17

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.482
Punkte für Reaktionen
187
Punkte
129
Herzlich willkommen im Forum @TJ. :)
  1. Das ist kein wirklicher Fehler - das Errorhandling denkt das nur.
    Darauf habe ich leider keinen Einfluss
  2. Diese Meldung stammt direkt von ocrmypdf - auch da kann ich dir nicht konkret weiterhelfen.
    Sie sollte aber kein Problem darstellen
  3. Das ist in der Tat nicht implementiert.
    Es müsste lediglich diese Datei gelöscht werden: /usr/syno/synoman/webman/3rdparty/synOTR/etc/counter
    Das geht über das Terminal / Aufgabenplaner so: rm -f "/usr/syno/synoman/webman/3rdparty/synOTR/etc/counter"

    Alternativ kannst du natürlich auch einfach synOCR deinstallieren und neuinstallieren.
    Alle Einstellungen sind in diesem Fall neu vorzunehmen.
 
Zuletzt bearbeitet:

TJ.

Benutzer
Mitglied seit
29. Apr 2021
Beiträge
18
Punkte für Reaktionen
2
Punkte
9
Danke für die prompte Antwort. :)

Dann kann ich mich ja erstmal zurücklehnen und mir über passende Regeln den Kopf zerbrechen. Das Reseten des Counters werde ich dann mal machen, wenn das ganze System bei mir in den "scharfen Betrieb" geht. Im Moment probiere ich noch viel rum. Und dabei laufen mir sicher noch einige Fragen über den Weg!
 

koehntopp

Benutzer
Mitglied seit
18. Jan 2021
Beiträge
11
Punkte für Reaktionen
1
Punkte
53
"default" ist der Name deines Profils.

Bzgl. der YAML-Datei:
Du hast keinen Pfad (im Tagfeld) zu deiner YAML-Datei angeben …

OK, das war jetzt kniffliger als erwartet ;)

Die Abhängigkeit von Profilname und Dateiname der yaml-Datei war nicht offensichtlich, das geht aber jetzt prinzipiell.

(Was auch verwirrt ist dass das Dropdown das aktuelle Profile zeigt, der Knopf aber "wechseln zu" sagt, d.h. suggeriert dass man bei Klick auf das Angezeigte wechselt. Wäre deutlicher wenn die "Wechseln?" Frage erst käme wenn ein anderes Profil ausgewählt wird).


Ich digitalisiere gerade die Ablage der letzten 20 Jahre, da ist das Schreiben von Regeln komplett illusorisch. Ich mache 'nur' den schnellen Scan und lege die PDFs in einen Ordner aus dem ich dann mit TagSpaces ( https://www.tagspaces.org/ ) Tags vergebe und den Dateinamen ändere.
Das Ergebnis schiebe ich dann in Google Drive, das gibt mir Volltextsuche (auch für die vergebene Tags) etc.
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.482
Punkte für Reaktionen
187
Punkte
129
Die Abhängigkeit von Profilname und Dateiname der yaml-Datei war nicht offensichtlich, das geht aber jetzt prinzipiell.
  • Da besteht eigentlich kein Zusammenhang. Lediglich die automatisch erstellte Regeldatei (sofern über den Button erstellt), ist nach dem Profil benannt. Die Regeldatei kann aber beliebig benannt werden - Hauptsache, der Pfad steht korrekt im Profil.
(Was auch verwirrt ist dass das Dropdown das aktuelle Profile zeigt, der Knopf aber "wechseln zu" sagt, d.h. suggeriert dass man bei Klick auf das Angezeigte wechselt. Wäre deutlicher wenn die "Wechseln?" Frage erst käme wenn ein anderes Profil ausgewählt wird).
  • Webdesign ist nicht meine Welt - darüber könnte man nachdenken. Vielen Dank für deinen Eindruck!
 

TJ.

Benutzer
Mitglied seit
29. Apr 2021
Beiträge
18
Punkte für Reaktionen
2
Punkte
9
Hallo geimist,

ich habe meine vorhandenen Dokumente jetzt soweit alle ocr't und kann nun anfangen meine Regeln zu entwickeln. Dabei bin ich auf eine Frage gestoßen, die ich mir nicht beantworten kann. Was genau kann ich mit den Profilen machen und wie wende ich sie an?

Ich frage deshalb, weil ich festgestellt habe, das es bei mir auch Dokumente gibt, die ich zwar ocr'en aber nicht mit Tags umbenennen möchte. Das führt aber bei meiner "Standardeinstellung" dazu, dass die Dokumente nach dem ocr'en z.B. "2021-05-14_" heißen. Kann ich das problem mit verschiedenen Profilen lösen? Und wenn ja, wie?

Beste Grüße
TJ
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.482
Punkte für Reaktionen
187
Punkte
129
Da es ja auf dem NAS nur eine synOCR-Installation, aber ggf. mehrere User / Anwendungsfälle gibt, kann man mit Profilen mehrere Konfigurationen abdecken. Idealerweise sollte jedes Profil wenigstens einen eigenen Inputordner haben. Du kannst also für deine Dokumente, welche nicht umbenannt werden sollen, ein eigenes Profil anlegen, lässt hier die Tageinstellungen leer und passt die Umbenennungssyntax an.
 

TJ.

Benutzer
Mitglied seit
29. Apr 2021
Beiträge
18
Punkte für Reaktionen
2
Punkte
9
Aber wie wird dann erkannt welches Profil genutzt werden soll? Ist das an die Benutzer des NAS gebunden, oder einfach nur so gedacht, dass jeder angelegte Benutzer seinen eigenen Inputordner überwacht und entsprechend der Tag-Einstellungen alles abarbeitet?
Und wenn ich einen Zeitplan erstellt habe, wird der dann auch von allen Profilen genutzt?
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.482
Punkte für Reaktionen
187
Punkte
129
Und wenn ich einen Zeitplan erstellt habe, wird der dann auch von allen Profilen genutzt?
So ist es. Bei jedem Programmlauf werden ALLE (aktiven) Profile abgearbeitet. Daher der Hinweis auf abweichende Inputordner.
 

t30

Benutzer
Mitglied seit
11. Feb 2021
Beiträge
12
Punkte für Reaktionen
0
Punkte
1
WOW. Echt tolle Anwendung! Gibt es irgendwo eine entsprechende Datei für Tags? Also was den Dateinamen in die klassischen Kategorien umbenennt wie Rechnung, Versicherung,…? Vielleicht noch mit Speicherung nach Jahr?
 

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.482
Punkte für Reaktionen
187
Punkte
129
Da die Umbenennung / das Setzen von Tags ja ganz individuell ist, gibt es meinerseits keine 'Vorlage'. Wenn du dir aber die leere Regeldatei erstellen lässt (Button in der GUI neben dem Tag-Feld), ist eine Beschreibung und ein Beispiel enthalten.
 
  • Like
Reaktionen: t30

P3t3rG

Benutzer
Mitglied seit
16. Jan 2021
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Hallo @geimist
da heute der erste Release Candidate von DSM 7.0 rausgekommen ist, die kurze Nachfrage: Gibt es bereits ein SynOCR-Version, die man auf DSM7.0 testen kann? (Ich spiele gern Versuchs-Kaninchen)
Danke! Viele Grüße
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
9
Punkte für Reaktionen
0
Punkte
1
Man kann ja auch einfach nicht updates. Ich nutze lieber das tool als die neue dem version
 

HUHA

Benutzer
Mitglied seit
09. Apr 2020
Beiträge
8
Punkte für Reaktionen
6
Punkte
53
Hello.
Today i see i have an error with SynOcr, starting from around 3 june .

the error is this


./synOCR.sh: line 1226: 340580 + : syntax error: operand expected (error token is "+ ")




the line 1226 in synocr.sh is this





pagecount_new=$(( $(get_key_value ./etc/counter pagecount) + $pagecount_latest))

is strange because at one hour it was working, the next hour is was not working anymore. And i did not update anything on DSM, only if it was done automatically.


I did a restore with Hyper Backup from 02 june , but the error is still there.

Even if i delete
/Synocr/etc/counter
is recreating the counter file back with 0 , but the error is still there on all profiles.

I attached 2 log files, one which was processed OK and another one with the error.

Can somebody give me a hint what to do next to resolve it ?

I can try to reinstall, but how can i keep my configurations profiles?

Thank you.
 

Anhänge

  • synOCR_2021-06-03_17-30-33.txt
    1,4 KB · Aufrufe: 1
  • OK synOCR_2021-06-03_12-10-04.txt
    58,1 KB · Aufrufe: 1

geimist

Benutzer
Mitglied seit
04. Jan 2012
Beiträge
3.482
Punkte für Reaktionen
187
Punkte
129
You are still using version 1.1.0, please update to the current version. This bug should be fixed in the last release.

(best is to put cphut.net as package source in the package center).
 
  • Like
Reaktionen: HUHA

HUHA

Benutzer
Mitglied seit
09. Apr 2020
Beiträge
8
Punkte für Reaktionen
6
Punkte
53
Hello.
I made the update and start working.
I see now, that this issue was discuss a page back. I did not search. Shame on me.
Thank you very much.