synOCR synOCR - GUI für OCRmyPDF

collaborator · 08. Nov. 2021

geimist schrieb:
Wenn es im Inkognito-Modus funktioniert, weiß ich nicht, was ich ändern könnte. Wie sieht es mit einem anderen Browser aus?

der eleganteste Weg wäre über Hyperbackup. Wenn das nicht vorhanden ist, kannst du deine bestehende DB über die Shell so kopieren (geht auch im Aufgabenplaner und einmal ausführen):
WICHTIG: Passe den Pfad zur Quelldatei an!

Bash:

cp -f "/volume…<PFAD>/synOCR.sqlite" /usr/syno/synoman/webman/3rdparty/synOCR/etc/synOCR.sqlite

Hallo

Jezt es funktioniert

Wie kann ich zusätzliche Sprache in ocrmypdf installieren? @geimist

Danke

geimist · 08. Nov. 2021

Welche Sprache brauchst du?

collaborator · 08. Nov. 2021

Danke für deine Antwort @geimist

Ich möchte Türkisch hinzufügen

geimist · 08. Nov. 2021

Dann solltest du das geimist/ocrmypdf-polyglot Image auswählen. Als Parameter musst du die entsprechende Sprache angeben. Optional kannst du auch mehrere Sprachen kombinieren. Hier ein Beispiel für Deutsch und Türkisch: -l deu+tur

Bildschirmfoto 2021-11-08 um 20.28.50.png

collaborator · 08. Nov. 2021

Danke @geimist zusätzliche Sprachen funktioniert jetzt

fjsw · 11. Nov. 2021

Hallo zusammen,
ja, ich bin nach vielen Stunden Konfigurationsfrust reumütig von paperless-ng zu synocr zurückgekehrt. Jetzt hoffe ich, dass Ihr mir meinen kleinen Exkurs nicht krumm nehmt und mir mit meinen Problemchen behilflich seid... Ich möchte gern, dass die OCR-ten PDF-Dokumente umbenannt werden nach dem Schema "datum-firma-betreff.pdf". Dabei sollten folgende Eigenschaften erfüllt werden:
- Datum: möglichst das erste im Dokument gefundene Datum. Wenn kein Datum im Text gefunden, dann das aktuelle Datum.
- Firma: die erste aus einer vorgegebenen Tag-Liste ( "Firma1", "Firma2", ...) gefundene Firma
- Betreff: der erste aus einer vorgegebenen Tag-Liste gefundene Betreff ("Rechnung", "Gutschrift", "Bescheinigung"...)

Ist das mit dem tag-config-file zu realisieren? Ich müsste ja dazu z.B. einen tag "Firma" haben, welcher ich wie einer Variablen den im Text gefundenen Wert zuordnen kann. Genauso mit dem tag "Betreff".

Im Voraus vielen Dank für Euren Input!
LG fj

Jörg0815 · 12. Nov. 2021

Hallo in die Runde.

Ich habe Synocr mehr oder weniger erfolgreich eingerichtet. Bei mir werden allerdings die gewählten Ordner und Dateinamen als Output nicht erstellt, es gibt also keinen OrdneR „Ablage“ usw., eine Fehlermeldung bekomme ich im Log File aber auch nicht. ich komm leider nicht weiter und bitte um Rat.

ps: ich sehe keinen Nutzer mit dem Namen synocr-User, könnte das mein Problem sein?

Danke und Grüße Jörg

geimist · 12. Nov. 2021

Die Prüfung auf den Ordner lautet:
tag directories "Gehaltsabrechnung Amazon" exists? ? OK [subfolder target dir]

Ganz sicher, dass der Ordner /volume1/home/Ablage/Gehaltsabrechnung Amazon/ nicht vorhanden ist? Kannst du mal direkt in der Filestation nachsehen?

Jörg0815 · 12. Nov. 2021

Hallo Stephan,

er ist definitiv nicht vorhanden, ich habe auch versucht die Ordner anzulegen aber auch dann legt er dort nichts ab.. Ich hänge seit Stunden an dem Problem.

Gruß Jörg

geimist · 12. Nov. 2021

Ich sehe gerade: Irgendetwas stimmt mit deinem Pfad nicht. Den Pfad /volume1/home/Ablage sollte es nicht regulär geben. Eher sollte er /volume1/homes/<USERNAME>/Ablage… lauten. Bitte prüfe das mal in deinen Pfadangaben.

Deshalb sage ich immer: Kontextmenü auf den Zielordner ? Eigenschaften und hier den Pfad herauskopieren.

(Das, was du in der Filestation siehst, ist lediglich eine Verknüpfung auf /volume1/homes/<dein Username>/)

Jörg0815 · 12. Nov. 2021

You Made my day! Vielen Dank ? Entschuldige, ich bin absoluter Neuling.

schönen Start ins Wochenende dir!

geimist · 12. Nov. 2021

@fjsw,

sorry für die späte Antwort.

fjsw schrieb:
Jetzt hoffe ich, dass Ihr mir meinen kleinen Exkurs nicht krumm nehmt und mir mit meinen Problemchen behilflich seid...

Warum sollte dir das jemand krumm nehmen. Tools sind dazu da, Probleme oder Aufgaben zu lösen. Nicht jedes Tool passt zu jeder Aufgabe oder jedem Geschmack ?

Ich werde versuchen, dir zu helfen. Aber alles wird nicht 1:1 funktionieren.

fjsw schrieb:
- Datum: möglichst das erste im Dokument gefundene Datum. Wenn kein Datum im Text gefunden, dann das aktuelle Datum.

Fast so funktioniert es. Allerdings wird bei einer negativen Suche im Dokument nicht das aktuelle Datum, sondern das Dateidatum genommen.

fjsw schrieb:
- Firma: die erste aus einer vorgegebenen Tag-Liste ( "Firma1", "Firma2", ...) gefundene Firma

Bisher kann man mit der YAML-Datei keine Funktionen realisieren. Mit etwas Fleiß sollte sich das aber realisieren lassen. Letztendlich musst du für jede Firma eine Regel erstellen, in der zum einen die gewünschte Firma enthalten sein muss, alle anderen dürfen es aber nicht.

YAML:

tagFirma_01:
    tagname: "HUK24"
    condition: all
    subrules:
    - searchstring: HUK24
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: Allianz
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: AXA
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false
tagFirma_02:
    tagname: "AXA"
    condition: all
    subrules:
    - searchstring: AXA
      searchtyp: contains
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: Allianz
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false
    - searchstring: HUK24
      searchtyp: "does not contain"
      isRegEx: false
      source: content
      casesensitive: false

fjsw schrieb:
- Betreff: der erste aus einer vorgegebenen Tag-Liste gefundene Betreff ("Rechnung", "Gutschrift", "Bescheinigung"...)

Hier wird es komplizierter. Wie gesagt: Funktionen als solche gibt es nicht. Wenn du eine definierte Liste von Tags hast, könnte man es ähnlich realisieren, wie mit den Firmen. Ob das deinen Anforderungen gerecht wird, weiß ich nicht … ????

geimist · 12. Nov. 2021

Jörg0815 schrieb:
You Made my day! Vielen Dank ? Entschuldige, ich bin absoluter Neuling.

schönen Start ins Wochenende dir!

Sehr schön. Entschuldigen brauchst du dich nicht. Ich freue mich, dass es funktioniert. Der Ordnung halber sollten wir jetzt aber noch etwas aufräumen, denn die Zieldateien sind durchaus da - du siehst sie lediglich nicht.

Bist du mit der Konsole vertraut?
Könntest du mal bitte diesen Befehl hier absetzen: ls -la /volume1/home/Ablage/
(das geht zur Not auch im Aufgbenplaner als benutzerdefiniertes Skript, wenn man sich dann die Ausgabe anzeigen lässt).

Benares · 12. Nov. 2021

Kleine Anmerkung: /volume1/home gibt es physisch nicht, nur /volume1/homes/<Benutzer>
/home ist nur ein Konstrukt in Samba und in der Filestation, worüber jedem Benutzer sein Home-Verzeichnis eingeblendet wird.

Edit: Seh grad, das hatte ja @geimist in #1969 schon beschrieben

fjsw · 12. Nov. 2021

geimist schrieb:
...
sorry für die späte Antwort.

Hallo Stephan, das macht doch nix! Ich bin Dir sehr dankbar für JEDEN Support - egal wie schnell oder langsam!

geimist schrieb:
...Allerdings wird bei einer negativen Suche im Dokument nicht das aktuelle Datum, sondern das Dateidatum genommen.

Kein Problem, damit kann ich auch gut leben.

geimist schrieb:
Bisher kann man mit der YAML-Datei keine Funktionen realisieren. Mit etwas Fleiß sollte sich das aber realisieren lassen. Letztendlich musst du für jede Firma eine Regel erstellen, in der zum einen die gewünschte Firma enthalten sein muss, alle anderen dürfen es aber nicht.

Ja, so habe ich es jetzt gemacht. Bei knapp 100 Firmen (die, mit denen ich am meisten zu tun habe) hat das dazu geführt, dass mein yaml-file heute auf ca. 1300 Zeilen angeschwollen ist. Das bremst den Prozess ein wenig - aber es läuft jetzt schon ganz manierlich. Noch ein bisschen Feinschliff, dann bin ich mit dem Ergebnis gut zufrieden. Vielen Dank nochmal für Deine Unterstützung!
LG Franz Josef

geimist · 12. Nov. 2021

Benares schrieb:
Kleine Anmerkung: /volume1/home gibt es physisch nicht, …

Jetzt schon ?
(jedenfalls bei ihm)

Vom User angegebene Verzeichnisse werden rekursiv angelegt, sofern sie mit /volume… beginnen.

Penche1903 · 12. Nov. 2021

Hallo Zusammen,

habe synocr zwar zum laufen gebracht, aber irgendwie werde ich nach Textsuche nicht fündig.
Ich vermute mal, das es nur eine Einstellungssache ist, aber ich sehe den Wald vor lauter Bäume nicht mehr.

Nachfolgend die LOG Datei von mir.

Vielen Dank vorab

-----------------------------------
| ==> installation info <== |
-----------------------------------

synOCR-user: synOCR
synOCR-user is admin: yes
synOCR-version: 1.1.902
Architecture: x86_64
DSM-build: 42218
Device: 218plus (0006252336)
current Profil: default
DB-version: 4
WARNING: Error loading config file: .dockercfg: $HOME is not defined
used image (created): jbarlow83/ocrmypdf:latest (2021-11-04T07:42:52)
used ocr-parameter: -srd -l deu
replace search prefix: yes
renaming syntax: §y-§m-§d_§tag_§tit
Symbol for tag marking: #
Document split pattern:
source for filedate: ocr
ignored dates by search: 2021-02-29;2020-11-31
Docker Test: WARNING: Error loading config file: .dockercfg: $HOME is not defined
OK
Loglevel: normal
Application Directory: /usr/syno/synoman/webman/3rdparty/synOCR
Source directory: /volume1/Papierlos_Eingang/
Target directory: /volume1/Papierlos_Ausgang/
BackUp directory: /volume1/Papierlos_Backup/

----------------------------------
| ==> Funktionsaufrufe <== |
----------------------------------

PROCESSING: ? 2021-11-12-16h38m26s_scan_QuickScan.pdf (Fri Nov 12 18:40:43 CET 2021)
temp. target file: /tmp/tmp.ihZXe1Zlsf/2021-11-12-16h38m26s_scan_QuickScan.pdf

? OCRmyPDF-LOG:
WARNING: Error loading config file: .dockercfg: $HOME is not defined
reading file from standard input
1 skipping all processing on this page
Postprocessing...
Optimize ratio: 1.00 savings: -0.4%
Image optimization did not improve the file - optimizations will not be used
Output sent to stdout
? OCRmyPDF-LOG-END

target file (OK):
? search tags and date:
source for tags is yaml based tag rule file [/volume1/Papierlos_Eingang/_TagConfig_[profile_default].txt]
validate the integrity of yaml-file:
ERROR at line 612: rulenames=$(cat "${taglisttmp}" | egrep -v '^[[:space:]]|^#|^$' | egrep ':[[:space:]]?$')
rule name _612: was adjusted
rule name __:__:space:_____ was adjusted
syntax error in row ERROR at line 634 [value must be only "all" OR "any" OR "none"]
syntax error in row ERROR at line 643 [value must be only "true" OR "false"]
syntax error in row ERROR at line 652 [value must be only "content" OR "filename"]
syntax error in row ERROR at line 661 [value must be only "is" OR "is not" OR "contains" OR "does not contain" OR "starts with" OR "does not starts with" OR "ends with" OR "does not ends with" OR "matches" OR "does not match"]
syntax error in row ERROR at line 670 [value must be only "true" OR "false"]

rename tag is: ""

Using date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Dates found: 1
check date (dd mm [yy]yy): 10.11.21
? valid
day: 10
month:11
year: 2021
? renaming:
apply renaming syntax ? 2021-11-10__2021-11-12-16h38m26s_scan_QuickScan
? edit metadata FAILED! - exiftool not found! Please install it over cphub.net if you need it
target file: 2021-11-10__2021-11-12-16h38m26s_scan_QuickScan.pdf
? Adapt file date (Source: OCR)
? move source file to: /volume1/Papierlos_Backup/2021-11-12-16h38m26s_scan_QuickScan.pdf
INFO: (notification dosn't work at DSM7 without i18n …)
./synOCR.sh: line 1389: /dev/ttyS1: Permission denied
ERROR at line 1389: echo 2 > /dev/ttyS1 > /dev/null
INFO: (PushBullet-TOKEN not set)

Stats:
? runtime last file: 00:00:19
? pagecount last file: 1
? file count profile : (profile default) - 2 PDF's / 2 Pages processed up to now
? file count total: 2 PDF's / 2 Pages processed up to now

? delete tmp-files …

-----------------------------------
| ==> synOCR ENDE <== |
-----------------------------------

geimist · 12. Nov. 2021

Penche1903 schrieb:
habe synocr zwar zum laufen gebracht, aber irgendwie werde ich nach Textsuche nicht fündig.

Wenn ich dich richtig verstehe, funktionieren die Regeln nicht?
Offensichtlich passt etwas in deiner Regeldatei nicht. Kannst du die mir mal hochladen (Link in meiner Signatur)?

Penche1903 · 12. Nov. 2021

Ob das die Regeldatei ist, kann ich Dir es wirklich nicht sagen.

Ich habe eine Datei eingescannt und in den Ordner Eingang kopiert.
Danach habe ich Synocr manuell ausführen lassen. Es packt auch die PDF Datei in den Ordner Ausgang.
Alles so wie es sein soll, aber wenn ich nach einem Wort suchen lasse, was im Dokument ist, findet es nichts.

Wo finde ich die Regeldatei? ????

Sorry bin ein Neuling der nicht viel Ahnung hat.

geimist · 12. Nov. 2021

Ich meine diese Datei: /volume1/Papierlos_Eingang/_TagConfig_[profile_default].txt

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat