synOCR synOCR - GUI für OCRmyPDF

tuxbox78

Benutzer
Mitglied seit
06. Mai 2017
Beiträge
8
Punkte für Reaktionen
2
Punkte
3
Ja 👍🏼 tut es. Vielen Dank. Reines Umbenennen ist schon mal viel besser in Bezug auf Ressourcen als Konvertieren. Hätte das einfach als Skript mit in den Task vom Aufgabenplaner für das Start Skript vornedran gesetzt.
Damit komme ich auf jeden Fall schon mal viel weiter. Vielen Dank nochmal
 
Zuletzt bearbeitet von einem Moderator:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Z.B. so:
Bash:
# 1. *.jpg Dateien nach pdf umbenennen:
for file in /volume1/input/*.jpg; do mv "${file}" "${file%%.jpg}.pdf"; done
# 2. synOCR aufrufen:
/usr/syno/synoman/webman/3rdparty/synOCR/synOCR-start.sh

Wichtig:
  • bereits vorhandene, gleichnamige Dokumente würden ohne Nachfrage überschrieben (dokument.jpg überschreibt dokument.pdf, wenn dieses schon vorhanden ist)
  • Pfad anpassen
  • bei einem Pfad mit Leerzeichen, muss dieser in Anführungszeichen gesetzt werden, aber nicht das Sternchen
 
Zuletzt bearbeitet:

TheNightman

Benutzer
Mitglied seit
16. Feb 2021
Beiträge
3
Punkte für Reaktionen
1
Punkte
59
Hallo, gibt es eigentlich schon Neuigkeiten zur Datumssuche von nicht numerischen Datumsangaben im Dokument?

Was meine ich damit?
z.B. bei Amazon Rechnungen steht das Rechnungsdatum immer mit dem Monatsnamen als Text (z.B. 30 Januar 2021)

Problem ist, dass die Rechnungsdaten derzeit nicht als solche erkannt werden und somit die automatische Umbenennung von z.B. Amazon Rechnungen nicht mit dem Rechnungsdatum funktioniert. Da ich ca. 70% Rechnungen von Amazon habe, bedeutet dies derzeit für mich echt viel händische Nacharbeit.

Mir ist bewußt, dass es dafür keine einfache Lösung gibt, vor allem wenn man verschiedene Abkürzungen und auch Landessprachen berücksichtigen will. Mir würde es erstmal in deutsch für die Amazon-Schreibweise reichen ;-) .

Falls ich irgendwie helfen kann, lass es mich wissen.

Danke
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Etwas Neues erfährt man hier am ehesten dazu :)
Ich kann mir vorstellen, dass dir die deutsche Schreibweise ausreichen würde - das ergeht wahrscheinlich den meisten so. Deshalb überlege ich schon, ob ich das wenigstens für deutsche Monate per RegEx einbaue. Derzeit habe ich aber kaum Ressourcen zum Weiterentwickeln. Aber das wird wohl das nächste, was ich angehen werde.
 

Rotbart

Benutzer
Contributor
Sehr erfahren
Mitglied seit
04. Jul 2021
Beiträge
1.472
Punkte für Reaktionen
454
Punkte
109
Hallo
ich hab mich jetzt auchmal daran gemacht etwas Ordnung in mein Papierberg zu bringen und muss sagen, Stephan dein Programm ist top.
Ich arbeite mit einer Regeldatei und lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.
Bei mir wird aber immer nur "/volume1/../../§yocr4" erstellt.Das Datum wird aber aus den Dateien korrekt ausgelesen, die werden auch mit Datum umbenannt.Was muss ich machen damit ein Ordner mit dem jeweiligen Datum erstellt wird ?
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
lt. dem Wiki sollte "targetfolder: /volume1/../../§yocr4" das Verzeichnis "/volume1/../../2021" erstellt werden.
Ja, sollte …
Dieses Feature kam recht knapp vor dem letzten Release mit rein. Vielleicht habe ich da noch etwas übersehen. Ich guck mir das mal an.
 

Favi

Benutzer
Mitglied seit
19. Okt 2015
Beiträge
59
Punkte für Reaktionen
0
Punkte
6
Hallo,

ich versuche schon seit einiger Zeit, auch meine Kontoauszüge über SynOCR automatisch benennen zu lassen. Leider geht das bei einer Bank nicht, die ihre Auszüge als geschützte PDFs ausgibt. Damit hatte ich mich schon abgefunden - logisch, dass geschützte PDFs sich nicht auslesen lassen.

Allerdings habe ich nun für andere Aufgaben ein Programm in Betrieb, dass bei einem zufälligen Versuch ganz selbstverständlich eine ungeschützte OCR-Version eines solchen Dokuments erzeugt hat. Offenbar geht diese Software anders an die Sache als OCRmyPDF. Die Sicherheitseinstellungen des betroffenen Originaldokuments lassen Drucken und Kopieren von Text auch zu, nur andere Funktionen sind gesperrt. Für mich ist damit logisch, dass der Inhalt des Dokuments eigentlich schon ausgelesen werden kann (möglicherweise arbeitet meine Desktop-Software hier mit einem PDF-Drucker unter der Haube).

Grundsätzlich kommt man also an den Inhalt dieser PDFs. Vielleicht ja auch zum Taggen durch synOCR? Gibt es irgendeine Möglichkeit in synOCR, sich bei solchen Dokumenten nur auf das Auslesen des (les- und kopierbar vorhandenen) Texts zu konzentrieren? Also eine Funktion, die synOCR dazu bringt, sich bei geschützten Dokumenten nur auf das Taggen zu konzentrieren? Den OCRmyPDF-Schalter "-s" für PDF-Seiten mit schon vorhandenem Text habe ich schon gesetzt, das ändert allerdings nichts für meinen Fall.

Viele Grüße
Favi
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Das ist grundsätzlich erstmal ein Problem von ocrmypdf. Ich müsste mal gucken, ob ich das irgendwie abfangen kann. Hättest du ein Log für mich und - wenn möglich - auch ein unverfängliches Dokument mit dem Problem? Vielleicht findest du ja Seiten, wo keine persönlichen Informationen enthalten sind, sondern lediglich Bankinformationen. Link für den Upload findest du in meiner Signatur.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
  • Like
Reaktionen: 206HDI

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Damit wird das nix. Diese Funktion gibt es erst seit der Version 1.2.0, welche aber auf cphub noch nicht freigegeben wurde.
Manuellen Downloadlink findest du in meiner Signatur.
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
kleiner Hinweis, habe nicht die ganzen 121 Seiten verfolgt. Evtl. schon bekannt. Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, überflüssige, veraltete Docker Volumes entstehen.
Via Synology GUI gibt es dazu KEINE Löschmöglichkeit.
Via dem Verwaltungs Container "Portainer" ist das aber möglich.
Dort auf Volumes gehen und auf "unused" filtern. Dann alle löschen.....

Vielleicht hilft es dem einen oder anderen.
Dieses "unused volume" thema gibt es übrigens bei allen Containern die erstellt, gelöscht, erstellt werden.....
 

Gthorsten

Benutzer
Mitglied seit
22. Mai 2021
Beiträge
145
Punkte für Reaktionen
41
Punkte
28
Wie ist dir das denn aufgefallen? Bei mir war bisher noch nichts....
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
oh, dann müsste ich tiefer in erklärende Bastelkiste greifen. Hilft hier nicht wirklich. Kurz, mein Volume mit Docker ist nur 20 GB (nichts falsch, nicht bewerten, nehmt es hin), und hat normalerweise 90% frei. Nun war es 90% voll. Alles veraltete volumes von ocrmypdf.
Anbei ein Beispiel von einem anderen Server mit Docker und Portainer
 

Anhänge

  • Bildschirmfoto 2022-02-18 um 10.42.00.png
    Bildschirmfoto 2022-02-18 um 10.42.00.png
    106,2 KB · Aufrufe: 12

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.401
Punkte für Reaktionen
1.213
Punkte
234
Mir ist etwas das volume vollgelaufen, welches Docker enthält.
Das kam daher, dass dert Docker Container erstellt,gelöscht,erstellt,gelöscht wird usw. Ist bei Stephan so by design.
Der Nachteil ist, das dadurch ungenutze, überflüssige, veraltete Docker Volumes entstehen.
Sicher, dass dies mit den temporären Containern zusammenhängt?
Ich vermute, dass es mit dem automatischen Imageupdate zusammenhängt. Dafür hab ich in der Version 1.2.0 eigentlich auch eine Bereinigung eingebaut.

Was ich da tue, findest du HIER.
 

Stationary

Benutzer
Sehr erfahren
Mitglied seit
13. Feb 2017
Beiträge
3.637
Punkte für Reaktionen
1.056
Punkte
194
Kann man das zumindest ohne Portainer zu nutzen irgendwo sehen?
 

mamema

Benutzer
Mitglied seit
23. Okt 2009
Beiträge
667
Punkte für Reaktionen
132
Punkte
63
nö, automatische updates mache ICH nicht (kein watchtower), es sei den DU machst was :) Ja es waren bei mir 16 GB ocrmypdf volumes ..... habs gelöscht, sonst könnt ich noch Screenshot liefern.
Ah ja, sehe das Du in den Settings ein "aktuell halten" anbietest. Ja......
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat 

 
 
  AdBlocker gefunden!

Du bist nicht hier, um Support für Adblocker zu erhalten. Dein Adblocker funktioniert bereits ;-)

Klar machen Adblocker einen guten Job, aber sie blockieren auch nützliche Funktionen.

Das Forum wird mit hohem technischen, zeitlichen und finanziellen Aufwand kostenfrei zur Verfügung gestellt. Wir zeigen keine offensive Werbung und bemühen uns um eine dezente Integration.

Bitte unterstütze dieses Forum, in dem du deinen Adblocker für diese Seite deaktivierst.

Du kannst uns auch über unseren Kaffeautomat einen Kaffe ausgeben oder ein PUR Abo abschließen und das Forum so werbefrei nutzen.

Vielen Dank für Deine Unterstützung!