synOCR synOCR - GUI für OCRmyPDF

Thonav

Benutzer
Sehr erfahren
Mitglied seit
16. Feb 2014
Beiträge
7.878
Punkte für Reaktionen
1.503
Punkte
274
Stell doch einfach mal ein Bild der Rechnung ein und schreib dann wie Du es haben willst. Dann - und nur dann, kann Dir sicherlich beantwortet werden, ob es so geht, oder eben nicht.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234

Thule

Benutzer
Mitglied seit
19. Nov 2020
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Ich nutze aktuell immer noch das Textfeld, finde die externe Tagdatei aber sehr interessant:
Wird die externe Tagdatei von oben nach unten durchgearbeitet?
Hintergrund wäre: Wenn ich die Tags logisch anordne und beim der letzten zugehörigen Tag einer logischen Einheit einen Zielordner definiere, werden dann die folgenden Tags trotzdem noch erfasst oder wird die Datei dann sofort ins Zielverzeichnis kopiert?

Beispiel - Auf jeder Baumarktrechnung stehen die Bankdaten des Baumarkts. Diese sollen jedoch nicht als Tag in den Dateinamen eingetragen werden, wenn es sich um eine Baumarktrechnung handelt. Würde das funktionieren bzw. wo würde die Datei landen (target1 oder target2) ?

Rechnung_1:
tagname: Rechnung
targetfolder:
condition: any
subrules:
- searchstring: Rechnung
searchtyp: is
isRegEx: false
source: content
casesensitive: true
Baumarkt_2:
tagname: Baumarkt
targetfolder: //volumeX/target1
condition: any
subrules:
- searchstring: Baumarkt
searchtyp: is
isRegEx: false
source: content
casesensitive: true
Bankname_3:
tagname: Bankname
targetfolder: //volumeX/target2
condition: any
subrules:
- searchstring: Bankname
searchtyp: is
isRegEx: false
source: content
casesensitive: true

Hallo Passwort,

meine Idee dazu:
Du möchtest die Rechnung eines Baumarkts "PW Bau" in den entsprechenden Ordner verschieben.

Für speziell diesen Baumarkt würde ich mir dann folgende Regel anlegen:


Baumarkt_PW Bau:
tagname: Rechnung PW Baumarkt
targetfolder: //volumeX/target1
condition: any
subrules:
- searchstring: PW Baumarkt
searchtyp: is
isRegEx: false
source: content
casesensitive: true
- searchstring: Bankname
searchtyp: is
isRegEx: false
source: content
casesensitive: true
- searchstring: Rechnung
searchtyp: is
isRegEx: false
source: content
casesensitive: true

Wenn PW Baumarkt & Bankname & Rechnung gefunden wird, betitelt ocrmypdf die pdf als "Rechnung PW Baumarkt"
Deinen Tag "Rechnung" verstehe ich noch. Hier hältst du es allgemein. Wenn es eine Rechnung ist, erstelle den Tag Rechnung und verschiebe die Datei nicht.
Tag 2 & 3 würde ich aber zusammenfassen.
Falls der Tag Bankname nicht in die Datei geschrieben werden sollst, wieso lässt du ihn dann erstellen?

Ich hänge auch noch an den Tags und wie man diese am effizientesten erstellt (ggf. ein Excel-Makro?) und wie man die Dateien am besten ablegt.
Durch die neue Version wird dieses Tool https://github.com/tfeldmann/organize obsolet oder? Da man ja über die externe Tagdatei den Ordner inkl. Unterordner angeben kann.
 

Thule

Benutzer
Mitglied seit
19. Nov 2020
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Interessant!
Ich habe das eben mal testen wollen, allerdings bekomme ich seit der Umstellung der Tagname von GUI auf YAML-File keinerlei Tags mehr.
Die YAML sieht folgendermaßen aus:

Rechnung_1:
tagname: Rechnung
targetfolder: /volume1/Synology Drive/10_Dokumente/10_Rechnungen/
condition: all
subrules:
- searchstring: Rechnung
searchtyp: is
isRegEx: false
source: content
casesensitive: false
KoelnerGolfclub_9:
tagname: Kölner Golfclub
targetfolder: /volume1/Synology Drive/10_Dokumente/golf/
condition: any
subrules:
- searchstring: Kölner Golfclub
searchtyp: is
isRegEx: false
source: content
casesensitive: false


  • Es wird nur das Datum gesetzt
  • Es werden keine Tags in die Datei geschrieben
  • Die Datei wird nicht verschoben. Weder in Rechnungen noch nach Golf
Vollständigen LOG habe ich dir zugesandt.
Hier der Auszug des Fehlers:

? OCRmyPDF-LOG:
reading file from standard input
1 page is facing ?, confidence 7.24 - no change
Postprocessing...
Some input metadata could not be copied because it is not permitted in PDF/A. You may wish to examine the output PDF's XMP metadata.
Optimize ratio: 1.00 savings: 0.0%
Output sent to stdout
? OCRmyPDF-LOG-END

Zuvor hatte ich noch das EXIFTool installiert. Liegt es vielleicht daran?
==> Habe EXIF Tool gestoppt => Fehler immernoch da.
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Hallo Thule,

dein YAML-File hat einen Fehler (Zeile 45 deines Logs). Yaml erwartet zwingend die korrekte Einrückung mittels Leerzeichen. Hast du deine Regeln automatisch konvertieren lassen? Dann sollte es erstmal passen und du siehst die Syntax. Beim Posten von Code, wie deinem YAML-Beispiel, bitte unbedingt iher im Thread auch als Code einfügen - so wird er korrekt dargestellt und man kann Fehler eher erkennen.

Wenn es nicht an den Leerzeichen liegt, kannst du mir auch mal deine Regeldatei hochladen.
 

Thule

Benutzer
Mitglied seit
19. Nov 2020
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Hi,

Danke für die Antwort.
Ich habe folgendes gemacht. Backup meiner Tags in die GUI kopiert = funktioniert
Automatisch in YAML File konvertieren lassen => war erfolgreich
Dann habe ich die gleiche PDF (Rohformat, nicht bereits OCR) nochmal bearbeiten lassen => nicht erfolgreich
Ich habe keine händischen Änderungen vorgenommen.

Ich habe dir das Log als auch die Tagdatei hochgeladen.
Der Pfad zur Datei ist auch richtig gesetzt in der GUI.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Dein letzter Tag Regelname beginnt mit einer Zahl - das wird noch nicht richtig verdaut und ich konnte da noch keine Abhilfe schaffen. Da bitte mal irgendeinen Buchstaben davorsetzen.
 
Zuletzt bearbeitet:

Thule

Benutzer
Mitglied seit
19. Nov 2020
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Ok das war der Fehler. Ich komme mir etwas doof vor, weil ich das gelesen hatte, aber bei mir selbst vergessen habe zu prüfen.
Wichtig ist:
- Nicht nur der zu setzende Tag, sondern auch der Tagname darf nicht mit einer Zahl anfangen.

Bezüglich des Workflows.
Wenn ich einen Tag Rechnung habe und einen Tag Hotel und beides in einen separaten Ordner verschieben lasse. Welche Verschiebung greift als erstes?
Die die als erstes gefunden wurde?
Macht es deshalb mehr Sinn, wie oben beschrieben, Tags zu kombinieren also Rechnung & Hotel = Hotelordner?
Wie machst du das?
Habe es dir nochmal hochgeladen, Taggen geht, aber verschieben nicht.

Hast du Paypal? Würde dir gerne etwas für deine Arbeit geben, weil ich es wirklich großartig finde :)
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
- Nicht nur der zu setzende Tag, sondern auch der Tagname darf nicht mit einer Zahl anfangen.
Eigentlich NUR der Regelname. Man kann durchaus Tags mit führenden Ziffern suchen lassen. Das hatte ich oben falsch geschrieben und korrigiert.
Wenn ich einen Tag Rechnung habe und einen Tag Hotel und beides in einen separaten Ordner verschieben lasse. Welche Verschiebung greift als erstes?
Beide. Befinden sich beide Ziele auf demselben Volume, wird ein Hardlink erstellt, sonst eine Kopie. Verweisen mehrere gleichzeitig zutreffende Tags auf ein und denselben Ordner, wird lediglich eine Kopie angelegt.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Hast du Paypal? Würde dir gerne etwas für deine Arbeit geben, weil ich es wirklich großartig finde :)

Vielen Dank für deine Aufmerksamkeit (dazu hatte ich etwas ganz unten in der synOCR-Hilfe geschrieben).
Aber die nächste große Hürde wird erst einmal die DSM 7 Kompatibilität. Das betrifft grundsätzlich alle Communitypakete und ich weiß noch nicht, was da auf mich drauf zu kommt. Bevor das nicht erledigt ist, kann ich das nicht mit gutem Gewissen befürworten …
 

Thule

Benutzer
Mitglied seit
19. Nov 2020
Beiträge
8
Punkte für Reaktionen
1
Punkte
3
Hinweis: Verschieben geht, ich hatte die falsche Option in der GUI ausgewählt.
Verschieben nach Kategorieordner war nicht gewählt.

Danke Stephan!
 

Stu

Benutzer
Mitglied seit
21. Nov 2020
Beiträge
4
Punkte für Reaktionen
6
Punkte
53
Hallo zusammen,

zunächst einmal vielen herzlichen Dank an Stephan für synOCR, der Komfort und die Ergebnisse sind super!

Ich habe eine kurze Frage - und in diesem Thread bisher nichts Passendes dazu gefunden: immer, wenn eine OCR-Konvertierung abgeschlossen wurde (kurz nach dem "Piep"), erhalte ich in /var/log/messages zwei BTRFS-Fehlermeldungen:

Code:
...
2020-11-21T10:08:09+01:00 ds918plus kernel: [91281.230258] BTRFS error (device dm-0): cannot find qgroup item, qgroupid=557 !
2020-11-21T10:08:09+01:00 ds918plus kernel: [91281.230258]
2020-11-21T10:08:09+01:00 ds918plus kernel: [91281.278661] BTRFS error (device dm-0): cannot find qgroup item, qgroupid=556 !
2020-11-21T10:08:09+01:00 ds918plus kernel: [91281.278661]
...

Die qgroupid ändert sich im Lauf der Zeit immer wieder.

Mit dmesg erhalte ich ein ähnliches Bild:

Code:
...
[91276.743245] docker0: port 1(docker50dbca0) entered disabled state
[91276.750204] dockerf345b2b: renamed from eth0
[91276.987427] docker0: port 1(docker50dbca0) entered disabled state
[91276.994647] device docker50dbca0 left promiscuous mode
[91277.000403] docker0: port 1(docker50dbca0) entered disabled state
[91281.230258] BTRFS error (device dm-0): cannot find qgroup item, qgroupid=557 !
[91281.278661] BTRFS error (device dm-0): cannot find qgroup item, qgroupid=556 !

Was löst diesen Fehler aus (ich gehe davon aus, dass es mit Docker zu tun hat) bzw. wie kann er behoben werden? Und: muss ich mir um meine Files Sorgen machen?

Vielen Dank und schöne Grüße,

Stefan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.381
Punkte für Reaktionen
1.195
Punkte
234
Hallo Stefan,

sehr interessant. Auch ich sehe den Fehler oft in meinem Log - allerdings unabhängig von einem synOCR-Durchlauf. In der Regel gebe ich nicht allzu viel auf Fehlermeldungen im Log, sofern ich kein 'aktives' Fehlverhalten der DS beobachten kann.

Falls jemand nähere Informationen dazu hat, immer her damit …
 
  • Like
Reaktionen: Stu

Logan09uk

Benutzer
Mitglied seit
21. Nov 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
@geimist Ich wollte mich nur sehr für dieses Tool bedanken. Es war genau das, was ich gesucht habe, und hat das Gehen papierlos einfach gemacht.

Ich habe einige frühere Beiträge über die Integration der Unterstützung für Zuordnungsbeschriftungen in das Synology Drive mit den Tags gesehen. Ich kann darüber nach Juli nichts mehr finden. Ist das etwas, worüber noch gearbeitet wird oder nicht?

Entschuldigen Sie, wenn etwas keinen Sinn ergibt, aber ich habe mein Englisch ins Deutsche übersetzt. Dank
 

Andy+

Benutzer
Sehr erfahren
Mitglied seit
25. Jan 2016
Beiträge
5.043
Punkte für Reaktionen
328
Punkte
189
Alles zu seiner Zeit.... :cool:
 

Logan09uk

Benutzer
Mitglied seit
21. Nov 2020
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Mit den Tags für Synology Drive bin ich noch nicht weitergekommen (ich bin überhaupt noch nicht weitergekommen
1f62d.png
).
?Keine Sorge, ich kenne das Gefühl. Etiketten wären einfach ein schönes Extra, aber auch ohne sie ist das erstaunlich. Es hat mir ermöglicht, Schubladen von Papierunordnung zu löschen und sie tatsächlich zu sortieren und die Dinge leicht zu finden.

Mach weiter so ?
 

linuxdep

Benutzer
Mitglied seit
02. Jan 2009
Beiträge
584
Punkte für Reaktionen
11
Punkte
38
Was für Etiketten? Habe schon einige Zeit nicht mehr alles gelesen hier, wird etwas viel. Vie genutzt hatte ich es auch noch nicht, aber habe es vor. Mal sehen wann, bin dank Homeoffice genau so beschäftigt wie vorher, wenn nicht noch mehr... dann noch Kinder bespaßen.
Weihnachten wird hoffentlich ruhiger.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat