synOCR - GUI für OCRmyPDF

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84
Man kann die Stärke der Erkennung auch etwas beeinflussen:
Füge mal dazu bitte --rotate-pages-threshold 5 hinzu. Das sorgt für eine etwas aggressivere Ausrichtungskorrektur (mit der Gefahr, dass korrekt ausgerichtete Seiten fälschlicherweise gedreht werden).
Mit dem Wert kannst du etwas experimentieren (ich habe keine Doku zu diesem Parameter gefunden).
Rich (BBCode):
--rotate-pages --rotate-pages-threshold 5
 

Fischje

Benutzer
Mitglied seit
12. April 2011
Beiträge
36
Punkte für Reaktionen
0
Punkte
0
Ach das probier ich direkt Mal heute Abend.Danke.

Was mir immer noch fehlt, bevor ich am WE mit der Initialbefüllung meines digitalen Archivs starte, ist eine vernünftige Tag/Kategorie/Ordnerstruktur.

Beispiel: Gestern habe ich eine Testrechnung gescannt, bei der unten im Footer etwas von "Bezahlen auch über Amazon pay möglich" stand.Daraufhin hatten meine Suchkriterien die Rechnung in den Amazonordner abgelegt.

Ich brauche irgendwie ein besseres System.
 

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84
Vielleicht gibt es dazu in Zukunft die Möglichkeit für Regeln und RegEx-Suche. Das werde aber nicht ich beisteuern können.
 

MacHolgi

Benutzer
Mitglied seit
30. Dezember 2019
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
Erst mal herzlichen Dank für diese tolle Erweiterung für die DiskStation!

Läßt sich eigentlich auch ein zu überwachender Ordner (Quellordner) definieren, der außerhalb der Diskstation liegt (konkret auf einem freigegebenen Share der Fritz!Box? Zielordner wäre auf der Diskstation.
Da die Fritz!Box „always on“ ist, ist sie bei mir aktuell das Scan-Ziel. Die Synology läuft nicht ständig. Würde sie aber gerne so konfigurieren, dass sie nach dem hochfahren die Scans von der Fritz!Box holt, OCR macht und dann auf der DiskStation abspeichert.

Geht das?
Grüßle und bleibt gesund!
Holger
 

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84
Hallo Holger :)

Es sind nur lokale Ordner möglich. Dein Vorhaben sollte sich aber dennoch realisieren lassen:
Mounte doch den FritzBox-Ordner als Remoteordner in der Filestation und setze ein enges Zeitintervall für synOCR. So sollten zeitnah nach dem Start der DS deine PDFs verarbeitet werden.
(Theoretisch könnte man synOCR auch Ereignis-basiert starten lassen [> beim Hochfahren], es könnte dann aber sein, dass synOCR gestartet wird, bevor der Remoteordner eingehangen wurde)
 

MacHolgi

Benutzer
Mitglied seit
30. Dezember 2019
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
Hallo Stephan,

vielen Dank für den Tipp!
So hat es wunderbar funktioniert: Meine Scans landen im Speicher der Fritz!Box, diesen Ordner habe ich als Remote-Ordner in meiner DS216+II angelegt und als Quellordner für synOCR definiert. Der Zielordner liegt direkt auf dem NAS - genau das, was ich wollte :)

Ein Hinweis noch: die Aufrufparameter für OCRmyPDF, die nach der Installation von synOCR standardmäßig eingetragen waren, hatten einen Dreher. Dort stand:
„(...) -l -r deu“ OCRmyPDF kam da ins straucheln, weil der Sprachparameter deu nicht direkt nach dem -l kam, sondern das -r dazwischen stand.

Danke nochmal für den Tipp und Deine schnelle Antwort, lieber Stephan!

Grüße, Holger
 

Fischje

Benutzer
Mitglied seit
12. April 2011
Beiträge
36
Punkte für Reaktionen
0
Punkte
0
Ein Hinweis noch: die Aufrufparameter für OCRmyPDF, die nach der Installation von synOCR standardmäßig eingetragen waren, hatten einen Dreher. Dort stand:
„(...) -l -r deu“ OCRmyPDF kam da ins straucheln, weil der Sprachparameter deu nicht direkt nach dem -l kam, sondern das -r dazwischen stand.
Hallo Holger. War bei mir nicht der Fall. Seltsam.
 

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84
Default-Wert im Code ist: -srd -l deu[FONT=&quot][/FONT][FONT=&quot]
[/FONT]
Das sollte beim Erstellen eines neuen Profils verifizierbar sein.
 

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84

HUHA

Benutzer
Mitglied seit
09. April 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
1
IMPLEMENTIERUNGEN:
  • Tags können über ein externes Textfile geladen werden (nur Reintext)
  • Dockerimages mit :latest-Tag können automatisch aktualisiert werden
Hello.
Thank you for the update.
I update it to synOCR-Version: 0.17.0 , but in the GUI i do not find the section for "Tags können über ein externes Textfile geladen werden (nur Reintext)"
Where this should be ?
 

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84
You must enter the absolute path to the text file in the text field for the tags (this information can be found behind the info "i")

I'm interested in your experience.
 

HUHA

Benutzer
Mitglied seit
09. April 2020
Beiträge
5
Punkte für Reaktionen
0
Punkte
1
You must enter the absolute path to the text file in the text field for the tags (this information can be found behind the info "i")

I'm interested in your experience.
I am away from home now, but i log on to the nas , made the necessary arangements , i put all the tags (that did not fit in one profile) in one text file, tags.txt, and uploaded in to _INPUT folder.
I delete all the tags from "zu suchende Tags" and i put the path to the tags.txt . Save the configuration, put 3 PDF files in _input folder and launch the program.
The result , all 3 files were renamed correctly, so it works your new update.
with these new option , is there a limit for the number of characters inside the text file, that the program will not work ?

Thank you again for your program.
 

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84
… with these new option , is there a limit for the number of characters inside the text file, that the program will not work ? …
There should be no problems in this context.
 

mamema

Benutzer
Mitglied seit
23. Oktober 2009
Beiträge
103
Punkte für Reaktionen
0
Punkte
16
ich nutze das Tool regelmässig, bin aber unglücklich über die Schwächen im Tag und Regex Bereich. Nun bin ich auf folgendes gestossen:
https://github.com/tfeldmann/organize
Gibts auch als Docker Image
Ich bastel mir nun da etwas zurecht. Evtl. eine Anregung für den einen oder anderen....
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.737
Punkte für Reaktionen
45
Punkte
134
Vl. kannst du uns allen kurz erörtern, was das von dir verlinkte Paket "besser" kann als die bisherige Lösung via syncOCR?
Nicht, dass alle es noch für sich selbst testen müssten ;)

Würdest du außerdem auch deine Bastel-Ergebnisse hier reinstellen?
Ich denke, gemist (der Entwickler des Pakets syncOCR) würde sich über weitere Unterstützungen bzgl. Regex - wie er hier schon angemerkt hat, dass er in diesem Gebiet Anregungen gut gebrauchen könnte - freuen.
 

geimist

Benutzer
Mitglied seit
04. Januar 2012
Beiträge
2.742
Punkte für Reaktionen
7
Punkte
84
… gemist … würde sich über weitere Unterstützungen bzgl. Regex - wie er hier schon angemerkt hat, dass er in diesem Gebiet Anregungen gut gebrauchen könnte - freuen.
Vor allem Dingen praktische Unterstützung für die GUI :eek:
 

mamema

Benutzer
Mitglied seit
23. Oktober 2009
Beiträge
103
Punkte für Reaktionen
0
Punkte
16
Vl. kannst du uns allen kurz erörtern, was das von dir verlinkte Paket "besser" kann als die bisherige Lösung via syncOCR?
Nicht, dass alle es noch für sich selbst testen müssten ;)
.
Gerne!
Wie ja oben bereits geimist schrieb, braucht er Unterstützung in der GUI und er "hängt* seit längerem an einer Umsetzung von sog. Regular Expressions. Das verlinkte Paket ist nun eine Open Source Lösung, welche Dateien nach diversen Kriterien ablegen kann.

z.B.: Wenn File ein PDF und Name ist x, das Dateidatum y, der Fileinhalt z, dann mach xyz damit.
SynOCR bietet ansatzweise ähnliches, aber eben nicht so mächtig, weil die Regular Expressions eben da (noch) fehlen. Die sind in dem verlinkten Paket dabei.

Ich spiele jetzt damit rum, um die Tags in dieses Tool "auszulagern", weil es mächtiger ist als SynOCR.

Ich kenn mich jetzt mit Open Source Regulatorien nicht so aus, aber, theoretisch wäre es möglich, da SynOCR und diese Lösung linuxbasiert sind, diese programmatisch zusammen zu hängen.

Das mach ich jetzt "laienhaft" selbst, könnte aber auch geimist machen
 

rabu

Benutzer
Mitglied seit
26. September 2013
Beiträge
270
Punkte für Reaktionen
0
Punkte
22
https://github.com/tfeldmann/organize
Gibts auch als Docker Image
Ich bastel mir nun da etwas zurecht. Evtl. eine Anregung für den einen oder anderen....
Hi mamema, ich bin schon sehr lange Hazel Nutzer für osX. War aber immer der Meinung, das es auf der Diskstation besser laufen würde als auf einem PC.
Jetzt freue ich mich das es eine Möglichkeit auf der DS gibt. Ich will das unbedingt, da werde ich mich reinarbeiten müßen.
Ich habe mir auch schon direkt das Docker Image installiert, da hört es dann aber leider auch schon auf. Das Image startet nicht bzw. beendet sich unerwartet mit einer Fehlermeldung.
Kannst du mir da vielleicht ein wenig weiterhelfen? Wie starte ich das Image? Wohin muss die config Datei?
 

guidovg

Benutzer
Mitglied seit
26. November 2011
Beiträge
33
Punkte für Reaktionen
0
Punkte
6
Genau darauf habe ich gewartet, super! Ich denke - wenn ich es richtig verstanden habe, dass sich beide Pakete sehr gut kombinieren lassen. Sobald die Dokumente von synOCR bearbeitet und in einem Ordner abgelegt worden sind, muss man doch im nächsten Schritt nur noch Organize dazu bringen (per Script) das Verschieben zu übernehmen.

Ich lasse z.B. synOCR per Aufgabenmanager durch DSM alle 30 Min starten und einen Ordner checken. Ich würde jetzt Organize einfach im selben Rhythmus nur um z.B. 20 Min. versetzt den OUTPUT Ordner von synOCR bearbeiten lassen.

Hier stellt sich für mich die Frage,
1.) wie weit ist der verfügbare Docker von Organize? @mamema, weclhen Docker hast Du von wo genommen?
2.) kann man auf die von synOCR vergebenen Tags zugreifen?

Das wäre dann der NEXT BIG STEP für mein papierloses Büro zuhause. :cool:
 

mamema

Benutzer
Mitglied seit
23. Oktober 2009
Beiträge
103
Punkte für Reaktionen
0
Punkte
16
Also ich erklär mal hier kurz wie man am besten vorgeht. Ist in der docker repository nicht so klar ersichtlich

Das docker image das ich nutze ist: dskaggs/docker-organize:latest

Das Image funktioniert und bricht nicht ab. Das ist ein Feature, kein Bug. :;--)
Man startet das Image - das Image tut sofort seine Arbeit - Das Image beendet sich selbst.

Was etwas unschön ist: Man sieht gemäss der Installationsanleitung in der Docker Registry des Users dskaggs nicht, was das Image eigentlich tut, oder ob man eine Fehlkonfiguration hat.

Ich habe mir dann so geholfen, dass ich die Config und die Logs auf der Synology ablegen lasse. Das Log zeigt dann was Sache ist.
Hier meine Importierbare Information (als Datei.json speichern)

{
"cap_add" : null,
"cap_drop" : null,
"cmd" : "",
"cpu_priority" : 50,
"devices" : null,
"enable_publish_all_ports" : false,
"enable_restart_policy" : false,
"enabled" : true,
"entrypoint_default" : "/entrypoint.sh",
"env_variables" : [
{
"key" : "PATH",
"value" : "/usr/local/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
},
{
"key" : "LANG",
"value" : "C.UTF-8"
},
{
"key" : "GPG_KEY",
"value" : "E3FF2839C048B25C084DEBE9B26995E310250568"
},
{
"key" : "PYTHON_VERSION",
"value" : "3.8.2"
},
{
"key" : "PYTHON_PIP_VERSION",
"value" : "20.0.2"
},
{
"key" : "PYTHON_GET_PIP_URL",
"value" : "https://github.com/pypa/get-pip/raw/d59197a3c169cef378a22428a3fa99d33e080a5d/get-pip.py"
},
{
"key" : "PYTHON_GET_PIP_SHA256",
"value" : "421ac1d44c0cf9730a088e337867d974b91bdce4ea2636099275071878cc189e"
}
],
"exporting" : false,
"id" : "b001ed5e1b00976bc6608147c3e29196bd940cbf4e4692f6a14c70d4777c26f8",
"image" : "dskaggs/docker-organize:latest",
"is_ddsm" : false,
"is_package" : false,
"links" : [],
"memory_limit" : 0,
"name" : "organize",
"network" : [
{
"driver" : "bridge",
"name" : "bridge"
}
],
"network_mode" : "bridge",
"port_bindings" : [],
"privileged" : false,
"shortcut" : {
"enable_shortcut" : false
},
"use_host_network" : false,
"volume_bindings" : [
{
"host_volume_file" : "/Scan/_test",
"mount_point" : "/destination",
"type" : "rw"
},
{
"host_volume_file" : "/docker/organize/log/organize",
"mount_point" : "/var/log/organize/",
"type" : "rw"
},
{
"host_volume_file" : "/Scan/_sorted",
"mount_point" : "/source",
"type" : "rw"
},
{
"host_volume_file" : "/docker/organize/config",
"mount_point" : "/root/.config/organize/",
"type" : "rw"
}
]
}