synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
… Gleich mal eine gute Nachricht vorne weg für Nutzer von NICHT-Plus Modellen: Da läuft mit hoher Wahrscheinlichkeit auch Docker drauf, es wird nur nicht in den Paketquellen angezeigt. …
Die Value-Modelle sind mit hoher Wahrscheinlichkeit NICHT Dockerkompatibel - dein Modell ist eins der wenigen Ausnahmen. Das ist auch der Grund, warum ich das Dockerpaket nicht als Installationsprüfung aufgenommen habe. Es ließe sich nämlich automatisch dazuinstallieren, aber bei deinem Modell würde die Installation abbrechen. Die entscheidende Voraussetzung ist eine Intel 64bit CPU und darauf wird während der Installation geprüft.

… Einen Wunsch hätte ich noch, der bestimmt gar nicht schwer umzusetzen ist: Könntest Du noch neben Pushbullet Pushover Notifications implementieren? Dann wäre die Lösung für mich perfekt.

Pushbullet gibt's doch … :confused:
(unter DSM-Benachrichtigung und sonstige Einstellungen)
 

Feuerwasser

Benutzer
Mitglied seit
28. Aug 2012
Beiträge
245
Punkte für Reaktionen
0
Punkte
22
Da geb ich Dir natürlich Recht, es sind mit Sicherheit nicht alles kompatibel. Ich denke jedoch dass dies für Einige die Dein Paket gerne nutzen würden aber keinen Docker-Support haben evtl. ein kleine Hoffnungsschimmer ist.
Pushbullet gibt's doch …
(unter DSM-Benachrichtigung und sonstige Einstellungen)
Da hab ich mich wohl missverständlich ausgedrückt. Ich meinte dass es schön wäre, neben einem Support für Pushbullet auch einen Support von Pushover zu haben. Die Lösung nutzen ebensoviele wie Pushbullet. Siehe https://pushover.net/
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Hey,

habe die GUI gerade einmal getestet und muss sagen: gute Arbeit!!!
Ich muss auch zugeben, dass ich nicht alle 52 Seiten dieses Threads gelesen habe, deshalb verzeiht mir, wenn meine folgende Frage eventuell schon einmal auftauchte.

Ich stemple meine Unterlagen vor dem Scannen mit einem Paginierstempel ab der eine fortlaufende 6 stellige Nummer erstellt ("000248").
Natürlich dort auf der ersten Seite des Dokumentes, wo Platz ist.

Wäre es irgendwie möglich, diese Ziffer im Script zu erkennen und ebenfalls mit in den Dateinamen zu packen? (Mir ist klar, dass zufällig eventuell enthaltene andere 6-stellige Ziffern natürlich fälschlicherweise hier erkannt würden, aber damit könnte ich leben, da ich davon ausgehe, dass diese i.d.R. nicht häufig vorkommen).

Grüße

Stephan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Herzlich willkommen im Forum, Stephan :)

… Ich muss auch zugeben, dass ich nicht alle 52 Seiten dieses Threads gelesen habe, deshalb verzeiht mir, wenn meine folgende Frage eventuell schon einmal auftauchte. …
Unverzeilich ! ! ! :p

Ich stemple meine Unterlagen vor dem Scannen mit einem Paginierstempel ab der eine fortlaufende 6 stellige Nummer erstellt ("000248"). … Wäre es irgendwie möglich, diese Ziffer im Script zu erkennen und ebenfalls mit in den Dateinamen zu packen? …

Zur Zeit ist keine RegEx für die Tagsuche möglich. Du könntest versuchen, nach dem relativ statischen Teil deiner Nummer suchen (z.B. die ersten 4 Ziffern). Besser geht es z.Z. leider nicht.
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Hallo geimist,

Danke! (Im Forum bin ich schon seit fast 5 Jahren, nur leider nicht aktiv, sondern read-only :)
Da siehst mal, dass Deine Gui sogar die Stillen zum reden bringt.

Ok...Um nach der fixen Anzahl zu suchen, könnte ich jetzt bspw. nach "00" suchen....aber wie bekomme ich das Script dann dazu, dass er mir daraus dann die vollständige Nummer in den Dateinamen packt?
Gibts es Platzhalter / Joker bei der Tag-Suche?

2. Frage: (ich gebe zu mir erschließt sich das Funktionsprinzip von OCRmyPDF nicht, da ich mich hiermit nie beschäftigt habe) Könnte man die Tag-Suche auch auf bestimmte Bildbereiche begrenzen, bzw. ein Blatt in bspw. 4 Quadranten teilen und nur im 2. Quadranten nach dem Datum oder ähnlichem suchen? Kein Must-Have....reine Interessensfrage.

EDIT: kurze Zusatzfrage: wenn er mehrere TAGS aus meiner Vorgabeliste findet, nach welcher Reihenfolge bennent er dann die Datei? dies scheint weder nach Alphabet noch nach der Reihenfolge in der TAG-Liste zu passieren...gibt es da eine Vorgabemöglichkeit?



Grüße

Stephan
 

davesofly

Benutzer
Mitglied seit
28. Dez 2019
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
Hallo Geimist,

vielen Dank für deine tolle Arbeit!

Leider kriege ich es nicht hin, dass Tags mit Leerzeichen erkannt werden. Muss ich dabei etwas besonderes beachten?
Anmerkung 2019-12-28 155403.jpg

Viele Grüße,
Dave
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Herzlich willkommen im Forum, Dave :)

Sollte eigentlich passen.
Kannst du mal das entsprechende PDF öffnen, dir die zu suchende Textpassage kopieren und in einem Textverarbeitungsprogramm einfügen. Jetzt solltest du erkennen können, ob an dieser Stelle z.B. 2 Leerzeichen vorhanden sind, oder etwas anderes im Text falsch erkannt worden ist.
 

Biernot78

Benutzer
Mitglied seit
26. Okt 2018
Beiträge
48
Punkte für Reaktionen
3
Punkte
8
Hallo,
da ich heute etwas Zeit hatte habe ich mir das Tool auch installiert.
Das ging ohne Probleme. Nur den Docker bekomme ich nicht zum laufen.
Egal welche Version ich auf meine 918+ instaliiere der Docker startet immer wieder neu (Schleife).
Was kann das sein ?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Meinst du das Paket "Docker" oder der OCRmyPDF-Container? Um den Container brauchst du dich nicht zu kümmern. Der wird nur temporär für jede PDF erstellt und dann verworfen.
 

Biernot78

Benutzer
Mitglied seit
26. Okt 2018
Beiträge
48
Punkte für Reaktionen
3
Punkte
8
Ach so OK - DANKE dann teste ich das jetzt mal.

Nicht falsch verstehnen aber wäre gut wenn diese Infos im ersten Post stehen würden.
Könnte man das ergänzen und evtl. andere wichtige Infos?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Die Voraussetzung ist ja lediglich ein installiertes Paket "Docker". Um den Rest kümmert sich synOCR (also auch der Download von OCRmyPDF, ect.). Ich weiß gar nicht, warum so viele User da übereifrig sind ;)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Hmm, "leider" wird alles richtig in Text umgewandelt. Hast du eine andere Idee?…
Hast du evtl. ein weiteres Profil erstellt und die Dateien werden bereits im ersten Profil ("default") abgearbeitet?
Ich hatte es vorhin extra nochmal gecheckt - hier funktioniert es mit Leerzeichen …
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Hey Stephan,

Hast Du hierzu noch irgend eine Idee?

Grüße

Stephan





Hallo geimist,

Danke! (Im Forum bin ich schon seit fast 5 Jahren, nur leider nicht aktiv, sondern read-only :)
Da siehst mal, dass Deine Gui sogar die Stillen zum reden bringt.

Ok...Um nach der fixen Anzahl zu suchen, könnte ich jetzt bspw. nach "00" suchen....aber wie bekomme ich das Script dann dazu, dass er mir daraus dann die vollständige Nummer in den Dateinamen packt?
Gibts es Platzhalter / Joker bei der Tag-Suche?

2. Frage: (ich gebe zu mir erschließt sich das Funktionsprinzip von OCRmyPDF nicht, da ich mich hiermit nie beschäftigt habe) Könnte man die Tag-Suche auch auf bestimmte Bildbereiche begrenzen, bzw. ein Blatt in bspw. 4 Quadranten teilen und nur im 2. Quadranten nach dem Datum oder ähnlichem suchen? Kein Must-Have....reine Interessensfrage.

EDIT: kurze Zusatzfrage: wenn er mehrere TAGS aus meiner Vorgabeliste findet, nach welcher Reihenfolge bennent er dann die Datei? dies scheint weder nach Alphabet noch nach der Reihenfolge in der TAG-Liste zu passieren...gibt es da eine Vorgabemöglichkeit?



Grüße

Stephan
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Sorry, ist leider untergegangen. Ich dachte, ich hätte schon geantwortet … :(

… Um nach der fixen Anzahl zu suchen, könnte ich jetzt bspw. nach "00" suchen....aber wie bekomme ich das Script dann dazu, dass er mir daraus dann die vollständige Nummer in den Dateinamen packt? Gibts es Platzhalter / Joker bei der Tag-Suche?…
Nein, dass ist derzeit nicht möglich. Dazu müsste ich eine RegEx-Suche implementieren.

… ich gebe zu mir erschließt sich das Funktionsprinzip von OCRmyPDF nicht, da ich mich hiermit nie beschäftigt habe …
Wenn ein Dokument zu einem PDF gescannt wird, so liegt ja dem nur ein Foto zugrunde. Das PDF kann der Mensch zwar normal lesen - für den Computer ist es aber nur ein Bild. OCRmyPDF sucht nach enthaltenem Text und legt diesen in einer unsichtbaren Ebene über das Bild. Das PDF ist jetzt auch für den Computer durchsuchbar und Text auswählbar.

… Könnte man die Tag-Suche auch auf bestimmte Bildbereiche begrenzen, bzw. ein Blatt in bspw. 4 Quadranten teilen und nur im 2. Quadranten nach dem Datum oder ähnlichem suchen? Kein Must-Have....reine Interessensfrage. …
Ich wüsste nicht, wie das (mit vernünftigem Aufwand) realisierbar wäre.

… EDIT: kurze Zusatzfrage: wenn er mehrere TAGS aus meiner Vorgabeliste findet, nach welcher Reihenfolge bennent er dann die Datei? dies scheint weder nach Alphabet noch nach der Reihenfolge in der TAG-Liste zu passieren...gibt es da eine Vorgabemöglichkeit?
Nach jedem Tag wird der Reihe nach gesucht. Wenn ich das im Quellcode jetzt richtig gesehen habe, entspricht die Reihenfolge umgekehrt deiner Angabe in der Konfiguration / Tagliste.
 

BigStephan

Benutzer
Mitglied seit
14. Apr 2014
Beiträge
16
Punkte für Reaktionen
1
Punkte
3
Okay...
Dann passe ich die Reihenfolge umgekehrt an...das sollte gehen.
Der Rest ist nicht zwingend notwendig :)

Grüße

Stephan
 

KGBist2000

Benutzer
Mitglied seit
10. Jan 2016
Beiträge
140
Punkte für Reaktionen
1
Punkte
18
Hallo Stephan,
zunächst einmal, super Arbeit. Habe das SynOCR heute getestet und die ersten Test hat es gut überstanden. Zur Zeit mache ich das mit meinem HP-Drucker manuell, wollte aber irgendwie wenigstens das ganze teilautomatisieren. Da kam deine Arbeit genaut richtig. ;-)

Eine Kleinigkeit ist mir aufgefallen (kann aber auch an meiner Syno liegen), wenn ich die DSM Oberfläche mit https://192.168.... aufrufen, dann geht SynOCR. Wenn ich aber über die domain gehen https://dsm.domain.de und SynOCR starte, geht das fenster auf, ich bekomme kurzzeitig die standard Fehlermeldung vom ngnix "Die angeforderte Seite konnte nicht geladen werden" und die DSM-Oberfäche schmiert ab. Dann muss ich mich erneut einloggen.

Mein DSM ist aus dem Netz erreichbar über den Reverse-Proxy von DSM. Einstellung im Reverse-Proxy:

https://dsm.domain.de:443 -> 192.168.XXX.XXX:5001 (HTST und HTTP/2 erzwingen)

Kennst du schon das Problem?
 

KGBist2000

Benutzer
Mitglied seit
10. Jan 2016
Beiträge
140
Punkte für Reaktionen
1
Punkte
18
Hi Stephan,
super, daran lag es. Jetzt läuft es! :)

VG
Idris
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat