synOCR synOCR - GUI für OCRmyPDF

geimist · 27. Dez. 2019

Feuerwasser schrieb:
… Gleich mal eine gute Nachricht vorne weg für Nutzer von NICHT-Plus Modellen: Da läuft mit hoher Wahrscheinlichkeit auch Docker drauf, es wird nur nicht in den Paketquellen angezeigt. …

Die Value-Modelle sind mit hoher Wahrscheinlichkeit NICHT Dockerkompatibel - dein Modell ist eins der wenigen Ausnahmen. Das ist auch der Grund, warum ich das Dockerpaket nicht als Installationsprüfung aufgenommen habe. Es ließe sich nämlich automatisch dazuinstallieren, aber bei deinem Modell würde die Installation abbrechen. Die entscheidende Voraussetzung ist eine Intel 64bit CPU und darauf wird während der Installation geprüft.

… Einen Wunsch hätte ich noch, der bestimmt gar nicht schwer umzusetzen ist: Könntest Du noch neben Pushbullet Pushover Notifications implementieren? Dann wäre die Lösung für mich perfekt.

Pushbullet gibt's doch …

(unter DSM-Benachrichtigung und sonstige Einstellungen)

Feuerwasser · 27. Dez. 2019

Da geb ich Dir natürlich Recht, es sind mit Sicherheit nicht alles kompatibel. Ich denke jedoch dass dies für Einige die Dein Paket gerne nutzen würden aber keinen Docker-Support haben evtl. ein kleine Hoffnungsschimmer ist.

Pushbullet gibt's doch …
(unter DSM-Benachrichtigung und sonstige Einstellungen)

Da hab ich mich wohl missverständlich ausgedrückt. Ich meinte dass es schön wäre, neben einem Support für Pushbullet auch einen Support von Pushover zu haben. Die Lösung nutzen ebensoviele wie Pushbullet. Siehe https://pushover.net/

geimist · 27. Dez. 2019

Da habe ich nicht genau genug gelesen - sorry …

Mal gucken. Ich schreibe es auf die ToDo Liste.

BigStephan · 27. Dez. 2019

Hey,

habe die GUI gerade einmal getestet und muss sagen: gute Arbeit!!!
Ich muss auch zugeben, dass ich nicht alle 52 Seiten dieses Threads gelesen habe, deshalb verzeiht mir, wenn meine folgende Frage eventuell schon einmal auftauchte.

Ich stemple meine Unterlagen vor dem Scannen mit einem Paginierstempel ab der eine fortlaufende 6 stellige Nummer erstellt ("000248").
Natürlich dort auf der ersten Seite des Dokumentes, wo Platz ist.

Wäre es irgendwie möglich, diese Ziffer im Script zu erkennen und ebenfalls mit in den Dateinamen zu packen? (Mir ist klar, dass zufällig eventuell enthaltene andere 6-stellige Ziffern natürlich fälschlicherweise hier erkannt würden, aber damit könnte ich leben, da ich davon ausgehe, dass diese i.d.R. nicht häufig vorkommen).

Grüße

Stephan

geimist · 27. Dez. 2019

Herzlich willkommen im Forum, Stephan

BigStephan schrieb:
… Ich muss auch zugeben, dass ich nicht alle 52 Seiten dieses Threads gelesen habe, deshalb verzeiht mir, wenn meine folgende Frage eventuell schon einmal auftauchte. …

Unverzeilich ! ! !

Ich stemple meine Unterlagen vor dem Scannen mit einem Paginierstempel ab der eine fortlaufende 6 stellige Nummer erstellt ("000248"). … Wäre es irgendwie möglich, diese Ziffer im Script zu erkennen und ebenfalls mit in den Dateinamen zu packen? …

Zur Zeit ist keine RegEx für die Tagsuche möglich. Du könntest versuchen, nach dem relativ statischen Teil deiner Nummer suchen (z.B. die ersten 4 Ziffern). Besser geht es z.Z. leider nicht.

BigStephan · 27. Dez. 2019

Hallo geimist,

Danke! (Im Forum bin ich schon seit fast 5 Jahren, nur leider nicht aktiv, sondern read-only

Da siehst mal, dass Deine Gui sogar die Stillen zum reden bringt.

Ok...Um nach der fixen Anzahl zu suchen, könnte ich jetzt bspw. nach "00" suchen....aber wie bekomme ich das Script dann dazu, dass er mir daraus dann die vollständige Nummer in den Dateinamen packt?
Gibts es Platzhalter / Joker bei der Tag-Suche?

2. Frage: (ich gebe zu mir erschließt sich das Funktionsprinzip von OCRmyPDF nicht, da ich mich hiermit nie beschäftigt habe) Könnte man die Tag-Suche auch auf bestimmte Bildbereiche begrenzen, bzw. ein Blatt in bspw. 4 Quadranten teilen und nur im 2. Quadranten nach dem Datum oder ähnlichem suchen? Kein Must-Have....reine Interessensfrage.

EDIT: kurze Zusatzfrage: wenn er mehrere TAGS aus meiner Vorgabeliste findet, nach welcher Reihenfolge bennent er dann die Datei? dies scheint weder nach Alphabet noch nach der Reihenfolge in der TAG-Liste zu passieren...gibt es da eine Vorgabemöglichkeit?

Grüße

Stephan

davesofly · 28. Dez. 2019

Hallo Geimist,

vielen Dank für deine tolle Arbeit!

Leider kriege ich es nicht hin, dass Tags mit Leerzeichen erkannt werden. Muss ich dabei etwas besonderes beachten?

Viele Grüße,
Dave

geimist · 28. Dez. 2019

Herzlich willkommen im Forum, Dave

Sollte eigentlich passen.
Kannst du mal das entsprechende PDF öffnen, dir die zu suchende Textpassage kopieren und in einem Textverarbeitungsprogramm einfügen. Jetzt solltest du erkennen können, ob an dieser Stelle z.B. 2 Leerzeichen vorhanden sind, oder etwas anderes im Text falsch erkannt worden ist.

Biernot78 · 28. Dez. 2019

Hallo,
da ich heute etwas Zeit hatte habe ich mir das Tool auch installiert.
Das ging ohne Probleme. Nur den Docker bekomme ich nicht zum laufen.
Egal welche Version ich auf meine 918+ instaliiere der Docker startet immer wieder neu (Schleife).
Was kann das sein ?

geimist · 28. Dez. 2019

Meinst du das Paket "Docker" oder der OCRmyPDF-Container? Um den Container brauchst du dich nicht zu kümmern. Der wird nur temporär für jede PDF erstellt und dann verworfen.

davesofly · 28. Dez. 2019

geimist schrieb:
Jetzt solltest du erkennen können, ob an dieser Stelle z.B. 2 Leerzeichen vorhanden sind, oder etwas anderes im Text falsch erkannt worden ist.

Hmm, "leider" wird alles richtig in Text umgewandelt. Hast du eine andere Idee?

Vielen Dank und viele Grüße,
Dave

Biernot78 · 28. Dez. 2019

Ach so OK - DANKE dann teste ich das jetzt mal.

Nicht falsch verstehnen aber wäre gut wenn diese Infos im ersten Post stehen würden.
Könnte man das ergänzen und evtl. andere wichtige Infos?

geimist · 28. Dez. 2019

Die Voraussetzung ist ja lediglich ein installiertes Paket "Docker". Um den Rest kümmert sich synOCR (also auch der Download von OCRmyPDF, ect.). Ich weiß gar nicht, warum so viele User da übereifrig sind

geimist · 28. Dez. 2019

davesofly schrieb:
Hmm, "leider" wird alles richtig in Text umgewandelt. Hast du eine andere Idee?…

Hast du evtl. ein weiteres Profil erstellt und die Dateien werden bereits im ersten Profil ("default") abgearbeitet?
Ich hatte es vorhin extra nochmal gecheckt - hier funktioniert es mit Leerzeichen …

BigStephan · 28. Dez. 2019

Hey Stephan,

Hast Du hierzu noch irgend eine Idee?

Grüße

Stephan

BigStephan schrieb:
Hallo geimist,

Danke! (Im Forum bin ich schon seit fast 5 Jahren, nur leider nicht aktiv, sondern read-only
Da siehst mal, dass Deine Gui sogar die Stillen zum reden bringt.

Ok...Um nach der fixen Anzahl zu suchen, könnte ich jetzt bspw. nach "00" suchen....aber wie bekomme ich das Script dann dazu, dass er mir daraus dann die vollständige Nummer in den Dateinamen packt?
Gibts es Platzhalter / Joker bei der Tag-Suche?

2. Frage: (ich gebe zu mir erschließt sich das Funktionsprinzip von OCRmyPDF nicht, da ich mich hiermit nie beschäftigt habe) Könnte man die Tag-Suche auch auf bestimmte Bildbereiche begrenzen, bzw. ein Blatt in bspw. 4 Quadranten teilen und nur im 2. Quadranten nach dem Datum oder ähnlichem suchen? Kein Must-Have....reine Interessensfrage.

EDIT: kurze Zusatzfrage: wenn er mehrere TAGS aus meiner Vorgabeliste findet, nach welcher Reihenfolge bennent er dann die Datei? dies scheint weder nach Alphabet noch nach der Reihenfolge in der TAG-Liste zu passieren...gibt es da eine Vorgabemöglichkeit?

Grüße

Stephan

geimist · 28. Dez. 2019

Sorry, ist leider untergegangen. Ich dachte, ich hätte schon geantwortet …

… Um nach der fixen Anzahl zu suchen, könnte ich jetzt bspw. nach "00" suchen....aber wie bekomme ich das Script dann dazu, dass er mir daraus dann die vollständige Nummer in den Dateinamen packt? Gibts es Platzhalter / Joker bei der Tag-Suche?…

Nein, dass ist derzeit nicht möglich. Dazu müsste ich eine RegEx-Suche implementieren.

… ich gebe zu mir erschließt sich das Funktionsprinzip von OCRmyPDF nicht, da ich mich hiermit nie beschäftigt habe …

Wenn ein Dokument zu einem PDF gescannt wird, so liegt ja dem nur ein Foto zugrunde. Das PDF kann der Mensch zwar normal lesen - für den Computer ist es aber nur ein Bild. OCRmyPDF sucht nach enthaltenem Text und legt diesen in einer unsichtbaren Ebene über das Bild. Das PDF ist jetzt auch für den Computer durchsuchbar und Text auswählbar.

… Könnte man die Tag-Suche auch auf bestimmte Bildbereiche begrenzen, bzw. ein Blatt in bspw. 4 Quadranten teilen und nur im 2. Quadranten nach dem Datum oder ähnlichem suchen? Kein Must-Have....reine Interessensfrage. …

Ich wüsste nicht, wie das (mit vernünftigem Aufwand) realisierbar wäre.

… EDIT: kurze Zusatzfrage: wenn er mehrere TAGS aus meiner Vorgabeliste findet, nach welcher Reihenfolge bennent er dann die Datei? dies scheint weder nach Alphabet noch nach der Reihenfolge in der TAG-Liste zu passieren...gibt es da eine Vorgabemöglichkeit?

Nach jedem Tag wird der Reihe nach gesucht. Wenn ich das im Quellcode jetzt richtig gesehen habe, entspricht die Reihenfolge umgekehrt deiner Angabe in der Konfiguration / Tagliste.

BigStephan · 28. Dez. 2019

Okay...
Dann passe ich die Reihenfolge umgekehrt an...das sollte gehen.
Der Rest ist nicht zwingend notwendig

Grüße

Stephan

KGBist2000 · 29. Dez. 2019

Hallo Stephan,
zunächst einmal, super Arbeit. Habe das SynOCR heute getestet und die ersten Test hat es gut überstanden. Zur Zeit mache ich das mit meinem HP-Drucker manuell, wollte aber irgendwie wenigstens das ganze teilautomatisieren. Da kam deine Arbeit genaut richtig. ;-)

Eine Kleinigkeit ist mir aufgefallen (kann aber auch an meiner Syno liegen), wenn ich die DSM Oberfläche mit https://192.168.... aufrufen, dann geht SynOCR. Wenn ich aber über die domain gehen https://dsm.domain.de und SynOCR starte, geht das fenster auf, ich bekomme kurzzeitig die standard Fehlermeldung vom ngnix "Die angeforderte Seite konnte nicht geladen werden" und die DSM-Oberfäche schmiert ab. Dann muss ich mich erneut einloggen.

Mein DSM ist aus dem Netz erreichbar über den Reverse-Proxy von DSM. Einstellung im Reverse-Proxy:

https://dsm.domain.de:443 -> 192.168.XXX.XXX:5001 (HTST und HTTP/2 erzwingen)

Kennst du schon das Problem?

geimist · 29. Dez. 2019

Guck mal hier: https://www.synology-forum.de/showt...I-für-OCRmyPDF&p=817600&viewfull=1#post817600

KGBist2000 · 29. Dez. 2019

Hi Stephan,
super, daran lag es. Jetzt läuft es!

VG
Idris

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat