synOCR synOCR - GUI für OCRmyPDF

tuxbox78 · 09. Feb 2022

Ja

tut es. Vielen Dank. Reines Umbenennen ist schon mal viel besser in Bezug auf Ressourcen als Konvertieren. Hätte das einfach als Skript mit in den Task vom Aufgabenplaner für das Start Skript vornedran gesetzt.
Damit komme ich auf jeden Fall schon mal viel weiter. Vielen Dank nochmal

geimist · 09. Feb 2022

Z.B. so:

Bash:

# 1. *.jpg Dateien nach pdf umbenennen:
for file in /volume1/input/*.jpg; do mv "${file}" "${file%%.jpg}.pdf"; done
# 2. synOCR aufrufen:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Wichtig:

bereits vorhandene, gleichnamige Dokumente würden ohne Nachfrage überschrieben (dokument.jpg überschreibt dokument.pdf, wenn dieses schon vorhanden ist)
Pfad anpassen
bei einem Pfad mit Leerzeichen, muss dieser in Anführungszeichen gesetzt werden, aber nicht das Sternchen

TheNightman · 13. Feb 2022

Hallo, gibt es eigentlich schon Neuigkeiten zur Datumssuche von nicht numerischen Datumsangaben im Dokument?

Was meine ich damit?
z.B. bei Amazon Rechnungen steht das Rechnungsdatum immer mit dem Monatsnamen als Text (z.B. 30 Januar 2021)

Problem ist, dass die Rechnungsdaten derzeit nicht als solche erkannt werden und somit die automatische Umbenennung von z.B. Amazon Rechnungen nicht mit dem Rechnungsdatum funktioniert. Da ich ca. 70% Rechnungen von Amazon habe, bedeutet dies derzeit für mich echt viel händische Nacharbeit.

Mir ist bewußt, dass es dafür keine einfache Lösung gibt, vor allem wenn man verschiedene Abkürzungen und auch Landessprachen berücksichtigen will. Mir würde es erstmal in deutsch für die Amazon-Schreibweise reichen ;-) .

Falls ich irgendwie helfen kann, lass es mich wissen.

Danke

geimist · 13. Feb 2022

Etwas Neues erfährt man hier am ehesten dazu

Ich kann mir vorstellen, dass dir die deutsche Schreibweise ausreichen würde - das ergeht wahrscheinlich den meisten so. Deshalb überlege ich schon, ob ich das wenigstens für deutsche Monate per RegEx einbaue. Derzeit habe ich aber kaum Ressourcen zum Weiterentwickeln. Aber das wird wohl das nächste, was ich angehen werde.

Rotbart · 15. Feb 2022

Hallo
ich hab mich jetzt auchmal daran gemacht etwas Ordnung in mein Papierberg zu bringen und muss sagen, Stephan dein Programm ist top.
Ich arbeite mit einer Regeldatei und lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.
Bei mir wird aber immer nur "/volume1/../../§yocr4" erstellt.Das Datum wird aber aus den Dateien korrekt ausgelesen, die werden auch mit Datum umbenannt.Was muss ich machen damit ein Ordner mit dem jeweiligen Datum erstellt wird ?

geimist · 15. Feb 2022

Rotbart schrieb:
lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.

Ja, sollte …
Dieses Feature kam recht knapp vor dem letzten Release mit rein. Vielleicht habe ich da noch etwas übersehen. Ich guck mir das mal an.

Rotbart · 15. Feb 2022

Ok, danke schonmal

Favi · 16. Feb 2022

Hallo,

ich versuche schon seit einiger Zeit, auch meine Kontoauszüge über SynOCR automatisch benennen zu lassen. Leider geht das bei einer Bank nicht, die ihre Auszüge als geschützte PDFs ausgibt. Damit hatte ich mich schon abgefunden - logisch, dass geschützte PDFs sich nicht auslesen lassen.

Allerdings habe ich nun für andere Aufgaben ein Programm in Betrieb, dass bei einem zufälligen Versuch ganz selbstverständlich eine ungeschützte OCR-Version eines solchen Dokuments erzeugt hat. Offenbar geht diese Software anders an die Sache als OCRmyPDF. Die Sicherheitseinstellungen des betroffenen Originaldokuments lassen Drucken und Kopieren von Text auch zu, nur andere Funktionen sind gesperrt. Für mich ist damit logisch, dass der Inhalt des Dokuments eigentlich schon ausgelesen werden kann (möglicherweise arbeitet meine Desktop-Software hier mit einem PDF-Drucker unter der Haube).

Grundsätzlich kommt man also an den Inhalt dieser PDFs. Vielleicht ja auch zum Taggen durch synOCR? Gibt es irgendeine Möglichkeit in synOCR, sich bei solchen Dokumenten nur auf das Auslesen des (les- und kopierbar vorhandenen) Texts zu konzentrieren? Also eine Funktion, die synOCR dazu bringt, sich bei geschützten Dokumenten nur auf das Taggen zu konzentrieren? Den OCRmyPDF-Schalter "-s" für PDF-Seiten mit schon vorhandenem Text habe ich schon gesetzt, das ändert allerdings nichts für meinen Fall.

Viele Grüße
Favi

geimist · 16. Feb 2022

Das ist grundsätzlich erstmal ein Problem von ocrmypdf. Ich müsste mal gucken, ob ich das irgendwie abfangen kann. Hättest du ein Log für mich und - wenn möglich - auch ein unverfängliches Dokument mit dem Problem? Vielleicht findest du ja Seiten, wo keine persönlichen Informationen enthalten sind, sondern lediglich Bankinformationen. Link für den Upload findest du in meiner Signatur.

geimist · 16. Feb 2022

Rotbart schrieb:
… lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.

Welche Version nutzt du?

Rotbart · 16. Feb 2022

1.1.902

geimist · 16. Feb 2022

Damit wird das nix. Diese Funktion gibt es erst seit der Version 1.2.0, welche aber auf cphub noch nicht freigegeben wurde.
Manuellen Downloadlink findest du in meiner Signatur.

Rotbart · 16. Feb 2022

aha, ok danke

mamema · 18. Feb 2022

kleiner Hinweis, habe nicht die ganzen 121 Seiten verfolgt. Evtl. schon bekannt. Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, überflüssige, veraltete Docker Volumes entstehen.
Via Synology GUI gibt es dazu KEINE Löschmöglichkeit.
Via dem Verwaltungs Container "Portainer" ist das aber möglich.
Dort auf Volumes gehen und auf "unused" filtern. Dann alle löschen.....

Vielleicht hilft es dem einen oder anderen.
Dieses "unused volume" thema gibt es übrigens bei allen Containern die erstellt, gelöscht, erstellt werden.....

Gthorsten · 18. Feb 2022

Wie ist dir das denn aufgefallen? Bei mir war bisher noch nichts....

mamema · 18. Feb 2022

oh, dann müsste ich tiefer in erklärende Bastelkiste greifen. Hilft hier nicht wirklich. Kurz, mein Volume mit Docker ist nur 20 GB (nichts falsch, nicht bewerten, nehmt es hin), und hat normalerweise 90% frei. Nun war es 90% voll. Alles veraltete volumes von ocrmypdf.
Anbei ein Beispiel von einem anderen Server mit Docker und Portainer

geimist · 18. Feb 2022

mamema schrieb:
Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, überflüssige, veraltete Docker Volumes entstehen.

Sicher, dass dies mit den temporären Containern zusammenhängt?
Ich vermute, dass es mit dem automatischen Imageupdate zusammenhängt. Dafür hab ich in der Version 1.2.0 eigentlich auch eine Bereinigung eingebaut.

Was ich da tue, findest du HIER.

Stationary · 18. Feb 2022

Kann man das zumindest ohne Portainer zu nutzen irgendwo sehen?

geimist · 18. Feb 2022

Als root auf der Shell docker images absetzen.
Hier findest du dann ggf. Images mit dem Tag <none>

mamema · 18. Feb 2022

nö, automatische updates mache ICH nicht (kein watchtower), es sei den DU machst was

Ja es waren bei mir 16 GB ocrmypdf volumes ..... habs gelöscht, sonst könnt ich noch Screenshot liefern.
Ah ja, sehe das Du in den Settings ein "aktuell halten" anbietest. Ja......