synOCR synOCR - GUI für OCRmyPDF

micky1067

Benutzer
Mitglied seit
10. Nov 2016
Beiträge
49
Punkte für Reaktionen
0
Punkte
6
Ich habe eine Frage betreffend Nextcloud und synocr.
In ein einfaches Verzeichnis auf der Diskstation ist ohne Probleme zu speichern.
Ich möchte jedoch das ganze in ein Verzeichnis eines Benutzers in Nextcloud einlesen.
Das Verzeichnis ist jedoch durch besodnere Rechte von Nextcloud belegt, so dass man wohl nicht schreiben kann.
Möglich wäre vielleicht eine Webdav Verbindung. Ist das möglich ? Mit Angabe Cloud URL mit Anmeldenamen und Passwort und Auswahl des Verzeichnisses.

Warum ich das Frage. Files die man nicht über das Hochladen in Nextcloud gebracht hat, werden von der Volltextsuche ignoriert.

Danke..
Viele Grüße
micky1067
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.389
Punkte für Reaktionen
1.206
Punkte
234
synOCR läuft ja mit dem User root. Von daher wundert es mich, wenn da nicht in dein Wunschverzeichnis geschrieben werden kann. Aber es kann natürlich sein, dass die Dateiänderung in Nextcloud nicht getriggert wird und daher das Dokument nicht indiziert wird.

Wenn dir WebDAV helfen sollte, könntest du natürlich in einem separaten synOCR-Verzeichnis arbeiten und mit einem eigenen Skript die fertigen Files via WebDAV nach Nextcloud verschieben.
 

micky1067

Benutzer
Mitglied seit
10. Nov 2016
Beiträge
49
Punkte für Reaktionen
0
Punkte
6
Hallo @geimist,

ja verstehe schon das es mit root läuft. Er schreibt auch die Datei gemäß Log mit root:root. Nextcloud benötigt aber 33:33 (www-data:www-data).
Deshalb wird die Datei nicht angezeigt. Kann man da was machen, vielleicht in der GUI eine Auswahl zu treffen mit welcher uid / gid geschrieben werden soll ?
Wäre genial. Dann würde das nämlich funktionieren.

Das mit dem script wäre natürlich auch eine Idee. Einfach was in Output steht mit den richtigen rechten in die Cloud verschieben.
Danke für deine Hilfe... Tolles Programm. !!!!!

Grüße
micky1067
 

Rüben-Rudi

Benutzer
Mitglied seit
05. Okt 2018
Beiträge
293
Punkte für Reaktionen
13
Punkte
18
Guten Tag,

ich bin NAS "Neuling", habe die DS718+ seit nem knappen Jahr und sehr wenig (gar kein) Wissen von php, Unix, Skripten etc.

Gibt es ein Manual in dem ich nachlesen kann was und wie ich einrichten muß?

Ich würde gerne durchsuchbare PDFs für unsere FiBu erstellen .....
Ziel ist, die Rechnungen etc in ein Verzeichnis abzulegen, der MFP (Kyocera FS-C2126MFP+) kann Verzeichnisse ansprechen, dort ablegen und dann automatisiert der FiBu zu übergeben.
Es gibt eine Lösung vom Hersteller mit einem Fujitsu Scanner, meine Frau möchte aber keinen reinen Durchzugsscanner und noch nen Gerät auf dem Schreibtisch will sie auch nicht ...

Dank Euch

Bernd
 

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
99
Punkte
134
Das Tool hier ist eh perfekt dafür geeignet für dein Vorhaben. Ich scanne mit dem Smartphone alles ab und leg das in einem Verzeichnis je nach Profile ab, der Rest erledigt das hier erwähnte Tool!

Anleitungen, Downloadlink & Co findest du hier auf der ersten Seite, denke ich.
 

Rüben-Rudi

Benutzer
Mitglied seit
05. Okt 2018
Beiträge
293
Punkte für Reaktionen
13
Punkte
18
Danke für die schnelle Antwort ...

Wo muß ich die "Paktequelle" eintragen?
Wie bekomme ich die heruntergeladene *.spk Datei installiert?

Sorry für die dummen Fragen, mir fehlen die absoluten Grundlagen ....

Der Docker ocrmypdf läuft, stoppt aber nach kurzer Zeit.... da fehlt dann wahrscheinlich synOCR als "Steuerung"?

Dank euch

Bernd
 

reiki

Benutzer
Mitglied seit
16. Mai 2012
Beiträge
352
Punkte für Reaktionen
5
Punkte
18
Ich glaube, ich stand vor dem selben Problem/Denkfehler, als ich vor längerer Zeit das Tool installierte und nutzen wollte.

In der Tat ist synOCR die "Oberfläche". Der Docker startet und stoppt "automatisch", wenn du alles eingerichtet hast und (mind.) eine (z.B. gescannte) pdf-Datei im Input_Ordner vorliegt und du dann SynOCR "startest". Nach einigen Sekunden bis Minuten ist dann die durchsuchbare pdf-Datei im Output-Ordner zu finden. Liegen im Input-Ordner mehrere Dateien, werden diese mit einmaligem Start alle nacheinander bearbeitet.

Ich bin mit dem Tool sehr zufrieden und nutze es gelegentlich.

Im Paket-Zentrum kannst du manuell die "spk-Datei" installieren, wenn du sie "händisch" downgeloaded hast. Alternativ kannst du im Paketzentrum unter Einstellungen auch Paketquellen hinzufügen. Ich weiß gar nicht mehr wie ich das damals gemacht habe.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.389
Punkte für Reaktionen
1.206
Punkte
234
… ich bin NAS "Neuling", habe die DS718+ seit nem knappen Jahr und sehr wenig (gar kein) Wissen von php, Unix, Skripten etc.…
Brauchst du nicht - dafür ist ja synOCR da

Wo muß ich die "Paketquelle" eintragen?
Wie bekomme ich die heruntergeladene *.spk Datei installiert?
Ich würde dir den Weg mit der Paketquelle im Paketzentrum empfehlen. Natürlich geht auch die manuelle Installation, aber so bekommst du keine automatischen Updates.
spk.png

Der Docker ocrmypdf läuft, stoppt aber nach kurzer Zeit …
Darum musst du dich nicht kümmern. Wichtig ist lediglich, dass das Paket "Docker" installiert ist. Den Rest macht synOCR.
Und wie schon erwähnt: der Container OCRmyPDF läuft immer nur während des aktiven Verarbeiten von PDFs.

Viel Erfolg :)
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.389
Punkte für Reaktionen
1.206
Punkte
234
… Er schreibt auch die Datei gemäß Log mit root:root. Nextcloud benötigt aber 33:33 (www-data:www-data). …

Wenn du willst, dann guck dir mal die Zeile 324-326 (synOCR v0.15.2) in der Datei /usr/syno/synoman/webman/3rdparty/synOCR/synOCR.sh an. Du kannst mal zum Test die erst beiden Zeilen (chmod … / chown …) aktiveren und die 3. mit einer Raute deaktivieren.
Ich hatte da schonmal herumprobiert. Ich weiß nicht mehr genau den Grund, warum ich mich damals für cp --attributes-only -p … entschieden hatte. Es kommt halt auch immer darauf an, ob die Standardlinuxrechte verwendet werden, oder ACL.

Ich würde mich über eine Rückmeldung freuen :)
 

Sebastian99

Benutzer
Mitglied seit
15. Jan 2017
Beiträge
21
Punkte für Reaktionen
0
Punkte
1
Ich habe synOCR gerade mit Begeisterung installiert und getestet, funktionierte auf Anhieb. Hatte erst die Befürchtung ich muss vorher die Container manuell konfigurieren aber das macht synOCR ja glücklicherweise ganz von selber, sofern Docker installiert ist. :) Großes Kino! :cool:

Vorher habe ich OCR mit Acrobat am Computer gemacht. Ich habe mal die Ergebnisse stichprobenartig verglichen und festgestellt, dass synOCR mit den OCR Optionen "-srd -l deu" optisch deutlich bessere Ergebnisse liefert, aber die Dateien auch ein gutes Stück größer werden. Mir reicht die Qualität die Acrobat geliefert hat, daher die Frage ob jemand vielleicht schon mal OCR Optionen ausgetüftelt hat, mit denen die Ergebnisse qualitativ und von der Dateigröße her etwa im Bereich von Acrobat "Scan verbessern" mit folgenden Einstellungen liegen? Siehe Screenshot.

Edit: Gerade mal ein bisschen mit dem Argument --optimize experimentiert, aber ohne merklichen Effekt auf die Ausgabe. Oder gehört das nicht bei synOCR in "OCR Optionen"? Habe es dort mit "--optimize 2 -srd -l deu" und "-srd -l deu --optimize 2" probiert.
 

Anhänge

  • acrobat.PNG
    acrobat.PNG
    17,4 KB · Aufrufe: 68
Zuletzt bearbeitet:

TeXniXo

Benutzer
Mitglied seit
07. Mai 2012
Beiträge
4.948
Punkte für Reaktionen
99
Punkte
134
Wenn du hier auf ca. Seite 5 oder so gehst, findest du vom User @peterhoffmann hier einige "Testreihen" zu den verfügbaren Optionen. Aber wo genau weiß ich nicht mehr - evtl. alle Pages auf einer Seite bringen u nach User "peterhoffmann" suchen lassen.
 

Sebastian99

Benutzer
Mitglied seit
15. Jan 2017
Beiträge
21
Punkte für Reaktionen
0
Punkte
1
Hat bei mir bei einem ~20 MB großen Scan mit 32 Seiten leider keinen merklichen Effekt egal mit welcher Stufe ich optimiere, oder mache ich da was falsch?

[...]Oder gehört das nicht bei synOCR in "OCR Optionen"? Habe es dort mit "--optimize 2 -srd -l deu" und "-srd -l deu --optimize 2" probiert.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.389
Punkte für Reaktionen
1.206
Punkte
234
Also Adobe ist da schon ungeschlagen (meine Beobachtung). Ich bin da aber auch nicht der PDF-/OCR-Poweruser.

Du kannst auch gern mal in der Dokumentation von OCRmyPDF stöbern - vielleicht kannst du ja auch noch einen guten Tipp geben … :eek:

Edit:
Wie ich gerade gesehen habe, kann man speziefisch mit --jbig2-lossy den jbig2-Encoder aktivieren (in Verbindung mit --optimize).
Ein gescanntes b/w-Dokument (332kB) war mit jbig2 (131kB) und ohne (151kB). Ob --optimize 2 oder 3 machte keinen Unterschied.
Rich (BBCode):
--jbig2-lossy --optimize 2
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.389
Punkte für Reaktionen
1.206
Punkte
234

Hoshi1

Benutzer
Mitglied seit
22. Mrz 2009
Beiträge
46
Punkte für Reaktionen
0
Punkte
12
Kämpfe auch gerade mit der Einrichtung, und ebenfalls eher mit Docker bzw. jbarlow83/ocrmypdf:latest
"Docker-Container: jbarlow83-ocrmypdf1 wurde unerwartet gestoppt."
Protokoll --> ocrmypdf: error: the following arguments are required: input_pdf_or_image, output_pdf

Synology DSM 6.1.23739
Docker über Paket-Zentrum auf SSD=Volume1
Gemeinsamer Ordner "docker" ebenfalls auf Volume1
(Hier schon die ersten Fragen: Zugriffsrechte müssen für den Ordner Docker welche sein? Administrator? Und für die in SynOCR hinterlegten Quellverzeichnis, Zielverzeichnis, Backup-Verzeichnis, LOG-Dateien? Welche Berechtigungen für den Zugriff auf beispielsweise /volume2/homes/USER/ScanOCR/_INPUT ?)

Weitere aktive Container: Portainer, Watchtower

EDIT
SynOCR dann ebenfalls über Paket-Zentrum auf SSD=Volume1
Status / Statistik --> Offene Aufgaben:
Dateien zu bearbeiten: 1
Gesamt seit 2019-09-07 PDF/Pages: 0/0


Dank schonmal

Ich habe heute alles nötige installiert und synOCR konfiguriert Docker bricht ein paar Sekunde nach dem Start ab und ich bekommen nun auch folgenden Fehler:
ocrmypdf: error: the following arguments are required: input_pdf_or_image, output_pdf

Was hat das zu bedeuten?

Ich habe alle nötigen Ordner angelegt:
Quell: /volume2/Archiv/Scan/papierlosesBuero/Input usw. (Ja, volume2 ist korrekt :D)

Müssen im Docker irgendwelche Ports freigegeben werden?
Was ist denn mit "input_pdf_or_image, output_pdf" überhaupt gemeint? Ich kann in synOCR nichts dazu einstellen.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.389
Punkte für Reaktionen
1.206
Punkte
234
Das einzige, was synOCR bei der Installation / Einrichtung nicht macht, ist die Installation des Synology Pakets "Docker". Alles andere ist in synOCR einzutragen. Du brauchst dich nicht um Docker zu kümmern - der Container wird nur temporär bei der Verarbeitung von PDFs erstellt und braucht nicht permanent zu laufen.
 

Hoshi1

Benutzer
Mitglied seit
22. Mrz 2009
Beiträge
46
Punkte für Reaktionen
0
Punkte
12
Oh perfekt, danke @geimist,
das habe ich nicht verstanden. Testweise 2 Dokumente überarbeiten lassen und es klappt perfekt.
Das geht sogar besser als es mein Drucker/Scanner mit OCR selbst kann. :D
 

micky1067

Benutzer
Mitglied seit
10. Nov 2016
Beiträge
49
Punkte für Reaktionen
0
Punkte
6
Hallo @geimist,

so.. möchte meine Lösung präsentieren.
Kopie vom Ausgangsverzeichnis in Nextcloud !
Vielleicht auch nützlich für andere die Nextcloud und SynOCR verwenden.

Ich habe ein Script erstellt und führe das alle 10 Minuten über den Aufgabenplaner aus.
Im script sind folgende Befehle:

Rich (BBCode):
#!/bin/bash
cd /volume1/DMS-Scanner/Ausgang/
chown -R 33:33 .
find /volume1/DMS-Scanner/Ausgang/ -name '*' -type f -exec curl -u user:passwort -T {} https://nc-xxxxx.ddnss.de/remote.php/webdav/DMS-Eingangsdokumente/ \;
rm *

Ist nicht schwer zu verstehen. Erst in das Verzeichnis gehen in dem die Dateien von SynOCR liegen.
Den Benutzer für alle Dateien ändern auf 33:33 damit das kopieren in die Cloud funtioniert.
Dann durch den Befehl das Verzeichnis finden und alle Dateien auswählen und an die Cloud senden.
Hier den Benutzernamen und das Passowrt der Cloud verwenden.
Zu guter letzt die Dateien aus dem SynoCR Ausgangsverzeichnis löschen.

Danke nochmals für den Tip.

Viele Grüße
micky1067
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.389
Punkte für Reaktionen
1.206
Punkte
234
Schön, dass du eine Lösung gefunden hast :)
Falls du Lust und Muse hast, würde mich schon interessieren, ob mein Lösungsvorschlag auch geholfen hätte. Das könnte ja das Problem generell beheben.

P.S.: vielleicht kannst du dein Skript als Codeblock posten. Das macht es für andere User beim Kopieren einfacher (der Pfad wird z.B. nicht korrekt kopiert)
 

micky1067

Benutzer
Mitglied seit
10. Nov 2016
Beiträge
49
Punkte für Reaktionen
0
Punkte
6
Hallo Stephan,

wenn ich zeit habe werde ich das mal in Angriff nehmen. Den Code in einen Codeblock gesetzt habe ich.. ! :)

Gruß
Michael
 
Zuletzt bearbeitet von einem Moderator:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat