synOCR synOCR - GUI für OCRmyPDF

Mitglied seit
30. Nov 2014
Beiträge
43
Punkte für Reaktionen
3
Punkte
8
Danke - Kein Problem! Ich bin froh, dass ich keine Texterkennung von Hand machen muss! Und mit der Volltextsuche finde ich trotzdem die Dokumente die ich brauche!
 

floflo

Benutzer
Mitglied seit
20. Feb 2020
Beiträge
1
Punkte für Reaktionen
0
Punkte
0
Vielen Dank für das schöne Package! :)

Ich hab für's renaming bei mir noch folgendes in's Script gepackt:

header=$(head -n 1 $searchfile | sed "s/[^[:alpha:].-]//g")

Bin noch nicht 100% zufrieden mit dem Ergebnis (will noch so Sachen ausprobieren wie "Nehme die ersten 5 Wörter" statt die erste Zeile, und am sed pattern sollte man auch noch schrauben), aber bei Dateinamen wie "2020-02-20_InformationzurVerarbeitungIhrerDaten_BRWC0B5D72AAF07_...." hab ich jetzt schon ein bisschen mehr Ahnung um was es sich in der Datei handelt (ohne Tags zu konfigurieren)

Wäre ja vielleicht auch ne Idee für das offizielle Release :)
 

dirtyheizer

Benutzer
Mitglied seit
17. Mrz 2008
Beiträge
12
Punkte für Reaktionen
0
Punkte
0
Hi,
erstmal Danke an das Package auch von mir.
Mein zu suchende TAGs sind die Folgenden:

Rechnung;Arbeit;Versicherung;

Es wäre hilfreich, wenn hier case sensitive gesucht werden würde,
In meinem Fall, ein Infoschreiben, wurde im Dateinamen mit Arbeit umbenannt, weil im PDF "Bearbeitungs-Nr. " gefunden wurde.

Ist das möglich, die Tags case sensitive (evtl. auch über ein separten Flag) umzusetzen?

Vielen Dnak im Voraus.
Mit freundlichen Grüßen
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Du kannst mit vorangestelltem Paragrafenzeichen (§) die exakte Schreibweise definieren, was den Paramter -w für grep setzt:
Rich (BBCode):
-w, --word-regexp         force PATTERN to match only whole words

Rechnung;§Arbeit;Versicherung; würde also in deinem Fall zum gewünschten Ergebnis führen. Unabhängig davon ist die Suche case insensetiv.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
… Ich hab für's renaming bei mir noch folgendes in's Script gepackt:
header=$(head -n 1 $searchfile | sed "s/[^[:alpha:].-]//g")

Wäre ja vielleicht auch ne Idee für das offizielle Release :)

Das ist eine schöne Idee, aber bei mir waren die Ergebnisse zu wenig hilfreich. Sollte die Tagerkennung in Zukunft umfangreicher gestaltet werden können, wäre diese sicherlich die zielführendere Lösung für aussagekräftige Dateinamen.

Vielen Dank fürs Gedanken-machen - ich freue mich immer über Input :eek:
 

Zer0x

Benutzer
Mitglied seit
24. Sep 2018
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Hi, erstmal super und Danke für das Klasse Tool! Donation ging auch schon raus :)

Mal eine Frage: Gibt es irgendwo ein paar Presets für die Tags an denen man sich etwas orientieren kann bzw. was Sinn macht?
Tu mir gerade schwer ein richtiges Konzept aufzubauen. (Habe jetzt auch nicht alle Seiten durchgelsen)

Danke im Voraus! :)
 

Species8472

Benutzer
Mitglied seit
24. Feb 2020
Beiträge
7
Punkte für Reaktionen
0
Punkte
1
Danke für synOCR.

Versuche mich gerade ein bisschen "einzufuchsen". Ich habe einen großen Berg Papier zu digitalisieren. Würde gerne alle Dokumente in einem Rutsch scannen und dann von synOCR nicht nur umbenennen und verschlagworten, sondern auch in einzelne PDFs nach bestimmten Kriterien splitten lassen. Beispiel: Jede Seite nacheinander durchsuchen und wenn bestimmte Worte oder Wortfolgen auf dieser Seite zu finden sind, dann jeweils splitten. Beispiele: "Sehr geehrter Herr Mayer", "Sehr geehrte Frau Mustermann", "Rechnung", Die Einzeldokumente dann ganz normal weiterverarbeiten (umbenennen und verschlagworten).

Workflow also: 50 Seiten Scannen in eine Datei Scan_001.pdf --> Anhand der Wortliste in einzelne PDF splitten (z.B. in Scan_001_Teil_1) --> Einzelne PDF wie gewohnt in synOCR umbenennen und verschlagworten.

Genial wäre es noch, die fertigen PDFs in eine eigene Dokumentenstruktur zu verschieben.

Hat da schon jemand in diese Richtung etwas gebastelt?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
…Mal eine Frage: Gibt es irgendwo ein paar Presets für die Tags an denen man sich etwas orientieren kann bzw. was Sinn macht?…
Das lässt sich schwer pauschalisieren. Es kommt halt auf deinen Content an. Speziellen Sachen weise ich eine Kategorie zu ( …;Tag=Kategorie_so_und_so;…). Z.B. kommt alles, was zu einer Versicherung gehört, in einen eigenen Ordner ( [FONT=&quot]…;Allianz=Versichung;1 00 23 785=Versicherung;HUK24=Versicherung;…[/FONT])

Das Tagging soll ja möglichst in Zukunft auch noch variabler werden …
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
… Würde gerne alle Dokumente in einem Rutsch scannen und dann von synOCR nicht nur umbenennen und verschlagworten, sondern auch in einzelne PDFs nach bestimmten Kriterien splitten lassen. …
Ich bin gerade am Sondieren bzgl. des splitten. D.h. aktuell geht es so noch nicht. Du müsstest also jedes Dokument einzeln scannen. Der Aufwand ist beim Einstieg ins papierlose Büro sicherlich erhöht, aber im Alltag spielt es wahrscheinlich keine große Rolle, ob man Dokumente einzeln oder auf einmal scannt.

… Beispiel: Jede Seite nacheinander durchsuchen und wenn bestimmte Worte oder Wortfolgen auf dieser Seite zu finden sind, dann jeweils splitten. Beispiele: "Sehr geehrter Herr Mayer", "Sehr geehrte Frau Mustermann", "Rechnung",…
Das sehe ich problematisch. Auf diese Art würden sicherlich viele mehrseitige Dokumente zerstört, weil nicht auf jeder Seite alle Merkmale vorhanden sind.
Wahrscheinlich wird der User in Keyword definieren können, bei welchem ein Split erfolgt (Separator sheet). Leerseiten wären auch eine Möglichkeit, wenn auch aufwändiger und unsicherer.
 

polo130312

Benutzer
Mitglied seit
26. Feb 2020
Beiträge
5
Punkte für Reaktionen
1
Punkte
3
Danke für synOCR
Ich bin ebenfalls gerade dabei mein privates Büro auf papierlos umustellen und versuche soviel wie nur möglich auf meiner DS218+ abzubilden. Was sich mir bisher nicht erschlossen hat, welches Docker Image das beste für den Einsatz mit synOCR ist? Wird jbarlow83/ocrmypdf noch gepflegt bzw. weiter entwickelt, oder wäre ein anderes Image zukunftssicherer?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Das ocrmypdf Image von jbarlow83 ist das offizielle und wird regelmäßig aktualisiert. Darin sind aber nur 3 oder 4 Sprachen enthalten. Wenn du also eine abweichende Sprache benötigst, so kannst du mein ocrmypdf-polyglot Image aus dem Dockerhub laden, welches das offizielle Image als Grundlage hat aber zusätzlich alle möglichen tesseract-Sprachen enthält.

Grundsätzlich brauchst du erstmal gar nichts manuell auswählen. Einfach synOCR ausprobieren, wodurch das Standardimage geladen wird.
 

hamma50

Benutzer
Mitglied seit
10. Jan 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
1
Du brauchst kein Image. Einfach nur das synOCR Paket installieren. Rest läuft automatisch.
 

polo130312

Benutzer
Mitglied seit
26. Feb 2020
Beiträge
5
Punkte für Reaktionen
1
Punkte
3
Danke für die Hilfe! Das synOCR lässt sich wirklich kinderleicht einrichten und liefert super Ergebnisse.
Bei Automatisierung des Aufgabenstarts mittes des integrierten Aufgabenplaners läuft synOCR auch regelmäßig gemäß Einstellung (natürlich mit Hinweis im Sicherheitsberater, den man benutzerdefiniert ausblenden kann...).
Leider funktioniert bei mir die manuelle Aufgabenplanung entsprechend der FAQ-Seite nicht. Ist beim Befehlsaufruf mit dem Aufgabenplaner nocht etwas zu beachten, oder muss der Befehl noch angepasst werden?
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
573
Punkte für Reaktionen
31
Punkte
54
Also meine manuellen Einstellungen im DSM-Aufgabenplaner (nicht im synOCR) sind wie folgt:

Benutzer: root
Zeitplan: täglich, alle 5 Minuten
Aufgabeneinstellung, Befehl ausführen: bash /usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Michael
 

polo130312

Benutzer
Mitglied seit
26. Feb 2020
Beiträge
5
Punkte für Reaktionen
1
Punkte
3
Hatte zuerst das "bash" nicht im Feld und dachte es liegt daran. Habe nun Deine Einstellungen übernommen, läuft aber dennoch nicht...
 

polo130312

Benutzer
Mitglied seit
26. Feb 2020
Beiträge
5
Punkte für Reaktionen
1
Punkte
3
:rolleyes: ohhh man...schlimm, wenn der Fehler vor dem Bildschirm sitzt...
Ich hatte in meinem Eingangsordner zwar 2 PDF, allerdings hatte ich vergessen, das OCR Such-Präfix in den Dateinamen rein zu schreiben. Da kann ich lange warten und mich wundern, warum synOCR "nicht läuft"...
Die Aufgabe läuft nun sauber gemäß Planung...

VG, Stefan
 

Garachico

Benutzer
Mitglied seit
02. Mrz 2020
Beiträge
1
Punkte für Reaktionen
0
Punkte
0
Hallo zusammen,

erst einmal vielen Dank für synOCR. Tolles Tool!
Ich habe dazu zwei Fragen:

1. Damit die zu vergebenden Tags im Dateinamen nicht zusammengeschrieben werden, ist es nötig, nach jedem Tag noch ein Leerzeichen hinzuzufügen (Beispiel: "Commerzbank ;Depot ;...")
Ansonsten sieht das im Dateinamen aufgrund der automatischen Umbenennung so aus "2020-02-21 CommerzbankDepot.pdf".
Ist das so gewollt?

2. Gibt es eine Möglichkeit die Reihenfolge der Tags festzulegen, wie sie dann im Dateinamen auftauchen? Ich habe beispielsweise in meiner Tagliste erst Commerzbank und dann Depot als Tag vergeben. Dennoch bekomme ich eine Datei mit dem Namen "2020-02-21 Depot Commerzbank.pdf", also zuerst „Depot", was ich nicht möchte.

Danke und viele Grüße,
Jens
 

Yippie

Benutzer
Mitglied seit
01. Feb 2011
Beiträge
573
Punkte für Reaktionen
31
Punkte
54
1. Damit die zu vergebenden Tags im Dateinamen nicht zusammengeschrieben werden, ist es nötig, nach jedem Tag noch ein Leerzeichen hinzuzufügen (Beispiel: "Commerzbank ;Depot ;...")
Ansonsten sieht das im Dateinamen aufgrund der automatischen Umbenennung so aus "2020-02-21 CommerzbankDepot.pdf".
Ist das so gewollt?
Nutze dieses Feature zwar nicht, aber wenn ich's nutzen würde, dann fände ich es OK, dass ein gewolltes Leerzeichen auch explizit angegeben werden muss. Grund: Was sollen alle diejenigen machen, die kein Leerzeichen im Dateinamen wünsche? Auch diese Möglichkeit muss in Betracht gezogen werden.

Michael
 

Datenbunker

Benutzer
Mitglied seit
05. Sep 2018
Beiträge
27
Punkte für Reaktionen
2
Punkte
3
Bei mir werden PDFs welche in Tagordner einsortiert werden sollen, einfach gelöscht bzw. der Ordner wird nicht angelegt, wenn die Variable "Tags im Dateinamen kennzeichnen" leer ist.

Wenn ich # drinnen lasse, dann heisst der Ordner "%23abc".
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
1. Damit die zu vergebenden Tags im Dateinamen nicht zusammengeschrieben werden, ist es nötig, nach jedem Tag noch ein Leerzeichen hinzuzufügen (Beispiel: "Commerzbank ;Depot ;...") Ansonsten sieht das im Dateinamen aufgrund der automatischen Umbenennung so aus "2020-02-21 CommerzbankDepot.pdf".
Dafür gibt es in der Konfiguration die Möglichkeit, die Tagkennzeichnung anzupassen (z.B. mit einer # oder _ oder auch kombiniert)
2. Gibt es eine Möglichkeit die Reihenfolge der Tags festzulegen, wie sie dann im Dateinamen auftauchen? Ich habe beispielsweise in meiner Tagliste erst Commerzbank und dann Depot als Tag vergeben.
Kehre einfach die Anordnung um - derzeit wird die Liste der Reihe nach abgearbeitet, aber Funde immer vor vorherige Funde gesetzt - ich kann mich gerade nicht an den Grund erinnern, warum ich das gerade so gemacht hatte - vielleicht gibt es auch keinen. Dann könnte ich das einfach ändern (bringt allerdings wieder die Reihenfolge von denjenigen durcheinander, die sich bereits angepasst haben)
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat