DSM 7.1 Zieldateiname wird nicht gebildet!!

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Status
Für weitere Antworten geschlossen.

gkar

Benutzer
Registriert
30. März 2023
Beiträge
8
Reaktionspunkte
1
Punkte
3
Hallo,
ich habe mir letzte Woche einen Synology DS218+ gekauft und mache gerade meine erste Erfahrungen mit SynOCR. Meine Konfiguration sieht wie folgt aus:

synOCR-user: synOCR
synOCR-user is admin: yes
synOCR-version: 1.3.1
Architecture: x86_64
DSM-build: 42962
Device: 218plus (3667225027)
current Profil: eh4
monitor is running?: no
DB-version: 8
used image (created): jbarlow83/ocrmypdf:latest (2023-03-30T05:15:57)
document author:
used ocr-parameter (raw): -srd -l deu+eng
OCR-arg 1: -srd
OCR-arg 2: -l
OCR-arg 3: deu+eng
ocropt_array: -srd -l deu+eng
search prefix:
replace search prefix: yes
renaming syntax: §tag_§tit_ocred
Symbol for tag marking: #
target file handling: useCatDir
Document split pattern: SYNOCR-SEPARATOR-SHEET
split page handling: discard
clean up spaces: false
Date search method: use standard search via RegEx
date found order: firstfound
source for filedate: ocr
ignored dates by search: 2021-02-29;2020-11-31
date range in past: 0 [absolute: 0]
date range in future: 0 [absolute: 0]

Soweit passt es alles. Meine PDFs werden erkannt und abgearbeitet.
Dabei werden aber meine PDF Dateien nach der Vorgabe "§tag_§tit_ocred" NICHT umbenannt.

Ausschnitt aus Logfile:
---------------------------------------------------------------------------------------------------------------
CURRENT FILE: ➜ doc00485520230201154318.pdf
➜ File permissions source file:
-rw-rw-r-- 1 synOCR synOCR 99046 Feb 1 15:43 /volume1/DATEN/_OUTPUT/synOCR_tmp_1680505199/doc00485520230201154318.pdf

-----------------------------------------------------------------------------------
| search tags in ocr text: |
-----------------------------------------------------------------------------------

no tags defined

-----------------------------------------------------------------------------------
| search for a valid date in ocr text: |
-----------------------------------------------------------------------------------

run RegEx date search - search for date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Dates found: 2
check date (dd mm [yy]yy): 24.12.2022
➜ valid
day: 24
month:12
year: 2022

-----------------------------------------------------------------------------------
| rename and sort to target folder: |
-----------------------------------------------------------------------------------


[runtime up to now: 00:00:01]

➜ renaming:
apply renaming syntax ➜ _doc00485520230201154318_ocred

[runtime up to now: 00:00:01]

➜ insert metadata (use python PyPDF2)
used metadata:
➜ '/Author': '',
➜ '/Keywords': '',
➜ '/CreationDate': 'D:20221224'

[runtime up to now: 00:00:01]

target file: _doc00485520230201154318_ocred.pdf

CURRENT FILE: ➜ doc00485520230201154318.pdf
➜ File permissions source file:
-rw-rw-r-- 1 synOCR synOCR 99046 Feb 1 15:43 /volume1/DATEN/_OUTPUT/synOCR_tmp_1680505199/doc00485520230201154318.pdf

-----------------------------------------------------------------------------------
| search tags in ocr text: |
-----------------------------------------------------------------------------------

no tags defined

-----------------------------------------------------------------------------------
| search for a valid date in ocr text: |
-----------------------------------------------------------------------------------

run RegEx date search - search for date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Dates found: 2
check date (dd mm [yy]yy): 24.12.2022
➜ valid
day: 24
month:12
year: 2022

-----------------------------------------------------------------------------------
| rename and sort to target folder: |
-----------------------------------------------------------------------------------


[runtime up to now: 00:00:01]

➜ renaming:
apply renaming syntax ➜ _doc00485520230201154318_ocred

[runtime up to now: 00:00:01]

➜ insert metadata (use python PyPDF2)
used metadata:
➜ '/Author': '',
➜ '/Keywords': '',
➜ '/CreationDate': 'D:20221224'

[runtime up to now: 00:00:01]

target file: _doc00485520230201154318_ocred.pdf
---------------------------------------------------------------------------------------------------------------
Was ist hier falsch? Warum ist der Zieldateiname: _doc00485520230201154318_ocred.pdf?
Meine Erwartung ist als Zieldateiname z.B. "ein aus Datei ausgelesenes Wort"__doc00485520230201154318_ocred.pdf".

Herzlichen Dank für Eure Unterstützung im voraus.
 
Auch von mir ein herzliches Willkommen 🙋‍♂️
-----------------------------------------------------------------------------------
| search tags in ocr text: |
-----------------------------------------------------------------------------------

no tags defined
Wie und wo hast du denn Regeln für die zu findenden Tags hinterlegt? In der GUI oder einer YAML-Datei? Was steht in deinem Tagfeld in der GUI? Wenn da etwas eingetragen ist: handelt es sich auch um das korrekte Profil?
 
Ich glaube, ich habe es herausgefunden, woran es liegt. Ich muss tags definieren. Erst dann können die Dateien auch danach umbenannt werden.
 
Ja, sonst weiß synOCR ja nicht, welche Begriffe dir wichtig sind. Vielleicht lohnt sich auch ein Blick ins WIKI.
 
Sorry, ich habe das gleiche Problem nochmal, obwohl ich eine tags.txt in einem festgelegten Pfad hinterlegt habe. Es wurde auch ein paar Dateien richtig abgearbeitet bzw. nach tags umbenannt. Dann habe ich wahrscheinlich irgendwas geändert. Seitdem kriege ich die Meldung:

-----------------------------------------------------------------------------------
| search tags in ocr text: |
-----------------------------------------------------------------------------------

no tags defined

obwohl in der tags.txt folgendes steht:


rule_91:
tagname: EH4_§tagname_RegEx
tagname_RegEx: (?i)(Polizei|Gericht|usw)
targetfolder: /volume1/DATEN/_ARCHIVE/EH4/§ynow4/
subrules:
- searchstring: (Polizei|Gericht)
searchtyp: contains
isRegEx: true
source: content
casesensitive: true

In der PDF habe ich auf jeden Fall die Wörter Gericht und Polizei mehrfach. Ich kann auch danach suchen, finde sie auch.
Was mache ich falsch?
 
/volume1/DATEN/_CONFIG/tags.txt Die Datei existiert auch und kann über vim bearbeiten.
 
Was steht in deinem Profil (in der GUI) im Tagfeld? Ist dort der Pfad zu deiner Datei hinterlegt? Dieser Fehler lässt schlussfolgern, dass das Feld leer ist.
Mögliche Fehlerquelle: mehrere Profile und du hast nicht das passende Profil in der GUI angepasst.
 
Ich habe 3 profile, default, eh4, test1. Von denen ich nur eine nutze, eh4. Soll ich die anderen löschen?
 
test1 und default gelöscht.
Nächster Test leider immer noch das gleiche Ergebis.


●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
● STEP 2 - SEARCH TAGS / RENAME / SORT: ●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●


●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
CURRENT FILE: ➜ doc00515720230410230520.pdf

-----------------------------------------------------------------------------------
| search tags in ocr text: |
-----------------------------------------------------------------------------------

no tags defined

-----------------------------------------------------------------------------------
| search for a valid date in ocr text: |
-----------------------------------------------------------------------------------

run RegEx date search - search for date format: 1 (1 = dd mm [yy]yy; 2 = [yy]yy mm dd; 3 = mm dd [yy]yy)
Dates found: 2
check date (dd mm [yy]yy): 19.11.2020
➜ valid
day: 19
month:11
year: 2020


der Inhalt der Datei: /volume1/DATEN/_CONFIG/tags.txt

#-----------------------------------------------------------
# nachstehend die automatisch konvertieren Benutzerregeln:
# §tag_§docr.§mocr.§yocr4_ocred
#-----------------------------------------------------------
rule_90:
tagname: EH4.Wohnung_§tagname_RegEx
tagname_RegEx: (?i)(Wohnheim|Tomaselli|Zoulas|Schwarz|Kolev|Petrik|Mietvertrag|Hermann-|Odenwaldstrasse)
targetfolder: /volume1/DATEN/_ARCHIVE/EH4/§ynow4/
subrules:
- searchstring: (Wohnheim|Tomaselli|Zoulas|Schwarz|Kolev|Petrik|Mietvertrag|Hermann-|Odenwaldstrasse)
searchtyp: contains
isRegEx: true
source: content
casesensitive: true

rule_91:
tagname: TEST_§tagname_RegEx
tagname_RegEx: (?i)(Polizei|Gericht|usw)
targetfolder: /volume1/DATEN/_ARCHIVE/TEST/§ynow4/
subrules:
- searchstring: (Polizei|Gericht)
searchtyp: contains
isRegEx: true
source: content
casesensitive: true
 
Meine Konfiguration sieht wie folgt aus:
synOCR-user: synOCR
synOCR-user is admin: yes
synOCR-version: 1.3.1
Architecture: x86_64
DSM-build: 42962
Device: 218plus (3667225027)
current Profil: default
monitor is running?: yes
DB-version: 8
used image (created): jbarlow83/ocrmypdf:v12.7.2 (2021-11-04T21:53:21)
document author:
used ocr-parameter (raw): -srd -l deu+eng
ocropt_array: -srd -l deu+eng
search prefix:
replace search prefix: yes
renaming syntax: §yocr-§mocr-§docr_§tag_§tit
Symbol for tag marking: #
target file handling: useCatDir
Document split pattern: SYNOCR-SEPARATOR-SHEET
split page handling: discard
clean up spaces: false
Date search method: use standard search via RegEx
date found order: firstfound
source for filedate: ocr
ignored dates by search: 2021-02-29;2020-11-31
date range in past: 0 [absolute: 0]
date range in future: 0 [absolute: 0]
Docker test: OK
DSM notify to user: admin
Loglevel: normal
max. count of logfiles: 10
rotate backupfiles after: (purge backup deactivated)
Source directory: /volume1/DATEN/_INPUT/
Target directory: /volume1/DATEN/_OUTPUT/
Target temp directory: /volume1/DATEN/_OUTPUT/synOCR_tmp_1681392633/
BackUp directory: /volume1/DATEN/_BACKUP/
 
Soll ich die anderen löschen?
Du brauchst sie nicht löschen. Wenn sich die Konfiguration der Profile überschneidet (z.B. identischer Quellordner), dann deaktiviere wenigstens das ungenutze Profil. Weil jetzt in deinem Fall wird zuerst das Profil default abgearbeitet. Und wenn du da keine Tags (oder eine entsprechende Datei) definiert hast, kann auch nichts gefunden werden.
 
Stephan - du bist spitze... bin begeistert von der Lösung und von Dir, super, hätte sowas viel früher beschaffen müssen.
Nochmal herzlichen Dank und bis zum nächsten Male...
 
  • Like
Reaktionen: geimist
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat