synOCR synOCR - GUI für OCRmyPDF

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Ich kann da auch nicht so viel dazu sagen. Ich habe ja mit ocrmypdf als solches auch keinen größeren Einblick. Bei meinem Test mit deiner Datei werden auch die Zahlen über dem ursprünglichen Barcode nicht richtig gelesen (werden als Text interpretiert …). Evtl. hängt es mit der Nähe zur Grafik (Barcode) zusammen? Probierte hatte ich es übrigens mit dem Polyglot-Image von mir, aber das ist nichts anderes als das von jbarlow83 - nur um alle Sprachpakete erweitert.

Frage doch mal direkt bei jbarlow83 nach (https://github.com/jbarlow83/OCRmyPDF)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Ich habe mal die Datei mit höheren DPI gesichert und nochmal durchlaufen lassen. So werden bei mir die Zahlen korrekt erkannt.

Versuche es mal bitte mit einer höheren Scanauflösung.
 

winka

Benutzer
Mitglied seit
25. Dez 2013
Beiträge
432
Punkte für Reaktionen
0
Punkte
16
Vielen Dank!

Das wollte ich auch versuchen. Und ich werde es einmal mit der Brother-Software ORCen lassen.
Eine höhere Auflösung ist in der weiteren Praxis weniger ein Thema. Ich werde wohl am die Parameter von OCR ran müssen.
Ich finde es nur komisch, das die Zahlen des Aufklebers so Schwierigkeiten machen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
… Ich finde es nur komisch, das die Zahlen des Aufklebers so Schwierigkeiten machen.
Auch die original aufgedruckten Zahlen über dem Barcode wurden bei mir ja auch nicht (korrekt) erkannt. Ich glaube nicht, dass hier ein Zusammenhang zu deinen Aufklebern besteht.
 

dewenni

Benutzer
Mitglied seit
05. Okt 2019
Beiträge
8
Punkte für Reaktionen
1
Punkte
1
Ich hab mal eine vermutlich allgemeine Frage bezüglich Sonderzeichen und Escape.
Ich würde gerne als Tag ein Stichwort mit "&" suchen.
Beispielsweise H&M
Prinzipiell klappt das auch, aber im Dateinamen steht dann #H§tagM

Wenn ich ein Backslash als Escape Zeichen vor das & stelle, wird der Tag nicht mehr erkannt.

Weiß jemand wie man das hin bekommt?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Sorry, ist ein Bug.
Version v0.16.1 ist auf dem Weg - damit sollte es dann richtig funktionieren.
 
Zuletzt bearbeitet:

apejovic

Benutzer
Mitglied seit
28. Nov 2013
Beiträge
30
Punkte für Reaktionen
6
Punkte
8
Moin miteinander!

Also erst mal ein großes Lob an dich @geimist. Tolle Arbeit. Ich hoffe die Schnapszahl-Spende konnte Dich wenigstens etwas beglücken. Natürlich erwarte ich jetzt Lifetime-Service ;)

Bin mit meinem testen noch nicht fertig, aber das OCRen von nicht OCR Dokumenten klappt schon mal super.

Hierzu hätte ich mal ein paar Fragen, falls mir das jemand beantworten könnte:

....ohne SSH habe ich jetzt keine Idee …:rolleyes:

1. Wie sieht so eine Befehl per SSH aus? (Irgendetwas leichtes bitte)
2. Wie schnell würde diese Konfiguration "greifen"?
3. Wie lange bleibt diese Änderung per SSH erhalten?
4. SSH ohne dann nur ohne GUI?

Danke
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
… Ich hoffe die Schnapszahl-Spende konnte Dich wenigstens etwas beglücken. Natürlich erwarte ich jetzt Lifetime-Service ;)
Ich hoffe, meine kurze Antwort hatte dich erreicht?

1. Wie sieht so eine Befehl per SSH aus? (Irgendetwas leichtes bitte)
2. Wie schnell würde diese Konfiguration "greifen"?
3. Wie lange bleibt diese Änderung per SSH erhalten?
4. SSH ohne dann nur ohne GUI?

Der Aufruf würde einfach so aussehen (wahrscheinlich nur von root, da sich sonst Docker nicht steuern lässt):
Rich (BBCode):
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Was ist dein genaues Ziel? Wie gesagt: ich sehe es praktischer, synOCR in kurzen Intervallen zu starten (wenn benötigt), als mit einem zusätzlichen Hintergrunddienst einen Folderwatcher zu implementieren.
 

stb6756

Benutzer
Mitglied seit
14. Feb 2020
Beiträge
1
Punkte für Reaktionen
0
Punkte
0
Hallo!
Habe eine Frage zu den Pfaden:
Ich möchte PDF-Dateien verarbeiten, die auf einem Netzwerkpfad liegen.
Wie kann ich diesen Netzwerkpfad als lokales Volume einbinden, um dann darin die OCR-Jobs zu triggern?
Danke!
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
99
Punkte
134
Auf die gleiche Art und Weise, wie du andere Ordner in Explorer einbindest - oder verstehe ich deine Frage falsch?
Wo liegt denn dein Ordner, der PDFs "sammelt"?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Ich verstehe es so, dass sich das Ziel des Netzwerkpfads nicht auf der DS befindet. Also musst du zunächst das Ziel als Remoteordner in der Filestation (FileStation > extras > Remote Ordner bereitstellen > Freigegebener CIFS-Ordner) mounten. Den entsprechenden Pfad in der Filestation kannst du dann in den synOCR-Einstellungen eintragen.
 

AceTheFace

Benutzer
Mitglied seit
17. Feb 2020
Beiträge
1
Punkte für Reaktionen
0
Punkte
1
Hi geimist,

vielen Dank für deine tolle Arbeit! Ich würde mich gerne ein bißchen tiefer mit dem Tool beschäftigen, da ich gerne komplexere Regeln für das Einsortieren definieren möchte (Beispiel: Tag1 und Tag2 aber nicht Tag3 --> Zielordner). Ich habe mir auch mal den Source ausgecheckt und mir nen groben Überblick geschafft. Soweit ist mir klar, wie es funktioniert, was mir aber noch gar nicht klar ist, wie denn die Entwicklungsumbegung für so ein DS Tool aussieht:

* Arbeitest du lokal und baust/deployst das dann auf das NAS zum Testen?
* Liegt der Source auf dem NAS und kann von dort direkt gestartet/getestet werden? Wenn ja, wie?

Würde mich freuen, wenn du mir ein paar Tipps geben könntest. Revanchiere mich dann vielleicht schon bald mit nem PR ;-)

Gruß und danke,
Ace
 
Mitglied seit
30. Nov 2014
Beiträge
43
Punkte für Reaktionen
3
Punkte
8
Hallo zusammen,

auch von mir ein herzliches Dankeschön für die tolle OCR-Lösung!

Habe mir gerade eine Tagliste in Excel erstellt. Damit kann ich die Reihenfolge der Tags festlegen (z.B. zuerst die Tags mit den Absendern, dann die mit den Empfängern, dann Inhalttags).
Nach den letzten Ergänzungen hat sich der GUI beim Speichern allerdings verabschiedet, d.h. er hat nicht gespreichert und die Meldung "[Server] hat die Verbindung unerwartet geschlossen." Nach meinen Erkenntnissen ist die Grenze der Tags bei 264 erreicht.

Kann man die Anzahl irgendwie erhöhen? Bzw. ist die Grenze in synOCR oder in OCRmyPDF festgelegt?

Vielen Dank für die Rückmeldung!
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
Ab wie viel Zeichen funktioniert das Tag-Feld nicht mehr?
Ich fürchte, es wird an der Formularübertragung scheitern, sobald die Datenmenge zu groß ist …
 

beogaard

Benutzer
Mitglied seit
02. Jul 2013
Beiträge
4
Punkte für Reaktionen
0
Punkte
1
Freut mich, wenn es euch freut :eek:

Noch ist das Programm jung; die Userwünsche entsprechend viele. Die Frequenz wird langfristig sicherlich nicht so bleiben können.
Wenn es nur kleinere Dinge sind, dann bekommen wir das schon schnell hin. Derzeit knappere ich gerade an den gewünschten User-Profilen, welche ich nicht mehr in der Konfigurations-Textdatei, sondern als Datenbank abbilden will, was wiederum umfangreicher als gedacht ist …

(@koen: deine gewünschte Funktion für Trennseiten kommt erst danach …)

Moin @geimist,

erst einmal auch von mir ein riesen Kompliment an das Tool.
Super Job und eine super Hilfe.
Wie kann ich Dir eigentlich eine Spende zukommen lassen?

Und dann würde ich gern nochmal das Thema Trennseite aufgreifen.
Siehst Du eine Möglichkeit mehrere Quelldokumente mit jeweils einer blanko Seite zur Trennung als ein PDF einzuscannen und bei Durchlauf von synoOCR in einzelne Dokumente aufzusplitten?

Danke nochmal für deinen tollen Einsatz.

Grüße aus Hamburg
Björn
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.371
Punkte für Reaktionen
1.188
Punkte
234
… Kann man die Anzahl irgendwie erhöhen? Bzw. ist die Grenze in synOCR oder in OCRmyPDF festgelegt?…
Ich kann dir leider keine schnelle Lösung anbieten. Wir müssen mal gucken, wie wir das in Zukunft handhaben werden.
Sorry
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat