pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

Blain · 31. Mai 2011

Servus zusammen,

ich möchte mir einen Scanner zulegen, der über das Netzwerk die eingescannte Datei auf die Synology ablegt. Dann bräuchte ich eine Applikation für die Synology, welche jede neu eingegangene Datei checkt und per OCR eine Texterkennung drüberlaufen lässt. Gibts sowas ? Falls nicht: Des wäre doch mal ein cooles Projekt. Vielleicht kann man ja irgendwie irgendwas anpassen was es bereits für Linux gibt ?!!?

jahlives · 31. Mai 2011

kennst du ipkg? guck mal ob es das ipkg Paket tesseract-ocr gibt. Ich meine das im Zusammenhang mit pyload hier im Forum mal gelesen zu haben

_TokTok_ · 01. Juni 2011

Sowas wär echt fein. tesseract kann nur mit tiff´s umgehen. Also müsste man aus dem pdf (was mit sicherheit mal ein tiff war) wieder ein tiff machen, das ocr´en und dann daraus ein pdf machen. Hier wird sowas beschrieben:http://elmargol.wordpress.com/2011/...df-file-and-ocr-using-tesseract-on-archlinux/
Keine Ahnung ob alle Abhängigkeiten auf der DS installiert sind oder per ipkg installiert werden können. Ein Versuch wär´s mal wert!

itari · 01. Juni 2011

Das mit dem OCRen wird so erbämlich langsam sein, dass man daran keinen Spaß haben wird. Ich hatte mal eine Lösung auf meine Acer-WHS (Atom) installiert und wieder verworfen.

Itari

Blain · 11. Juni 2011

Also ich habs grad mit dieser Anleitung versucht, bin aber mittendrin dann steckengeblieben:

http://www.synology-forum.de/showthread.html?16698-tesseract-ocr-missing

Mal schauen wie es weitergeht.

Eine wichtige Frage: Cool wäre es, wenn die OCR erkennung das PDF als solches bearbeitet und praktisch den Text als Layer über das Bild drüberlegt. So dass man eine pdf-Datei hat, in welcher man den Text markieren, cmd-c oder mit Spotlight durchsuchen kann (also kein ein paralleles Text-Dokument zum Grafik-pdf). Wisst ihr was ich mein. Aber sowas scheints in der Linux Szene nicht so zu geben. Auf windows können das unter anderem Adobe oder der ABBYY FineReader....

wagawaga · 17. Feb. 2013

WatchOCR

Dieses Thema treibt mich seit einiger Zeit auch um. Scannen über LAN-Scanner direkt in einen Folder auf der Syno, dann automatisch OCR als Text-searchable PDF-Image und verschieben in einen anderen Folder.

Mit meinen bisherigen Tesseract-Experimenten bin ich nicht weiter gekommen.

Nun habe ich folgende Software-Lösung gefunden, die nach der Spezifikation exakt das tut, was ich mir wünsche. Es handelt sich um die Software WatchOCR, die unter Ubuntu läuft. Also doch sicherlich irgendwie auch auf der Syno. Man kann das Ganze als .deb herunterladen. Nur, wie bekomme ich das auf der Syno installiert? Hat das schon mal jemand ausprobiert?

wagawaga · 18. Feb. 2013

Bin inzwischen etwas schlauer. WatchOCR ist als Projekt leider eingestellt worden und wird nicht mehr weiterentwickelt.

Im Test mit einem runtergeladenen Knoppix Live System tat es genau das, was ich mir wünschte. Einen Folder überwachen. Frische PDFs abholen, OCRen und wieder als PDF in einem anderen Ordner abspeichern. Eigentlich perfekt, wenn da nicht der Verbrauch des Notebooks wäre....

jahlives · 18. Feb. 2013

wegen dem deb File könntest du auf einer DS allenfalls ein Debian Chroot probieren. Dazu haben wir was im Wiki. Müsste klappen wenn das deb File keine Kernelsachen voraussetzt.

mp_999 · 14. März 2013

Gibt es schon neue Erkenntnisse zum Thema WatchOCR auf der DS installieren? Habe mal versucht mich mit dem Thema Debian zu beschäftigen, aber glaube nicht das ich eine solche Image erstellen kann. Installieren auf der DS würde ich mir aber zutrauen! Kann vielleicht jemand eine solche Datei erstellen, welche ich dann in der DS installieren kann?

Grüße

Tscherno · 21. März 2013

Ich habe es mir seit einigerzeit so gelöst:
- Scan2FTP in eine Freigabe
- Auf der Syno läuft ein Perl-Script das den Ordner überwacht und bei neuen Dateien sinnvoll umbenennt, in die Dropbox hochlädt und das Original in ein Archiv schiebt
- Auf meinem PC (natürlich nur wenn er grade an ist) läuft Abby Hot Folder der den Dropbox-Eingangsordner überwacht
- OCR und dann verschieben in einen "Unsortiert" Ordner

Scanergebnis mit Abby ist 1a.

saturus · 27. Dez. 2013

Hallo Tscherno, was für einen Scanner benutzt du für Scan2FTP? Ich habe einen Canon MX870. Dieser hat zwar LAN/WLAN, möchte aber unbedingt ein Windows-PC als Ziel oder alternativ eingesetzte Speicherkarten. Beides finde ich nicht so gut.

blinddark · 16. Sep. 2015

Eventuell gibt es ja auch eine OCR-Lösung über Docker?

sichler · 07. März 2016

Ich suche genau das was ihr hier auch sucht. Ich hab jetzt Docker mal installiert und mit https://hub.docker.com/r/jbarlow83/ocrmypdf/ auch was gefunden. Ich kriegs aber irgendwie nicht zum laufen. Kann mir jemand weiterhelfen?

Gruss MArtin

1sthandy · 09. März 2016

Hi, ich mach das jetzt schon etwas länger für Seeddms

installiert ist imagemagick

selber kompilieren mußte ich tesseract

so sieht mein Script aus:

Rich (BBCode):

#!/opt/bin/bash
# volltext.sh
for f in /volume1/public/00_Original/*.pdf; do /opt/bin/convert -density 240 "$f" cat output "${f%.*}.tif" &>/dev/null; mv "$f" /volume1/public/00_Original/abgeschlossen/; done;
for f in /volume1/public/00_Original/*.jpg; do /opt/bin/tesseract -l deu "$f" "$f.export" pdf; mv /volume1/public/00_Original/*.export.pdf /volume1/public/01_PDF/; mv "$f" /volume1/public/00_Original/abgeschlossen/; done;
for f in /volume1/public/00_Original/*.tif; do /opt/bin/tesseract -l deu "$f" "$f.export" pdf; mv /volume1/public/00_Original/*.export.pdf /volume1/public/01_PDF/; mv cat output "${f%.*}.tif" &>/dev/null /volume1/public/00_Original/abgeschlossen/; done;

ich erzeuge aus einer pdf wieder eine tiff und lasse dann tesseract drüberlaufen. Danach erstelle ich wieder eine PDF nur durchsuchbar oder ich scanne gleich als tiff ein.
Das Script entweder per Hand starten oder als cron einrichten.

Vielleicht nützt es als denkanstoß

sichler · 04. Okt. 2016

Hallo zusammen

ich wärm mal diesen Thread wieder auf. Ich hab noch immer keine Lösung und von Linux verstehe ich leider gar nichts. Hat jemand schon was einfaches zum laufen gebracht. Oder kann mir jemand mit einer Schritt für Schritt anleitung weiterhelfen?

Gruss MArtin

sichler · 19. März 2017

sichler schrieb:
Hallo zusammen

ich wärm mal diesen Thread wieder auf. Ich hab noch immer keine Lösung und von Linux verstehe ich leider gar nichts. Hat jemand schon was einfaches zum laufen gebracht. Oder kann mir jemand mit einer Schritt für Schritt anleitung weiterhelfen?

Gruss MArtin

Das Thema ist für mich immer noch aktuell. Kann mir mittlerweile jemand weiterhelfen wär ja insbesondere mit Universal Search ne coole sache.

Gruss MArtin

stweiss · 09. Juni 2017

Ich war auch auf der Suche und habe mir letztendlich selber etwas zusammengebaut, was seit einer Weile ganz gut den Dienst auf meiner DS415+ verrichtet.
Das ganze habe ich FileBasedMiniDMS getauft und ist hier zu finden: https://github.com/stweiss/FileBasedMiniDMS

Kurz zusammengefasst kann das Script:
- OCR über pdf's laufen lassen
- Anhand von erweiterbaren Regeln in der config.php die PDF's hoffentlich halbwegs sinnvoll umbenennen (inkl. hashtags)
- Und anhand der Hashtags eine Ordnerstruktur erstellen und die PDF's per hardlink dort einsortieren

Die Schritte kann man auch einzeln deaktivieren, falls man möchte.
Mehr Details gibt es auf der Github-Seite.

Bitte um Rückmeldung, falls das jemand tatsächlich nutz

Andy+ · 09. Juni 2017

Das sieht ganz schlüssig aus. Und wie ist da der Scanner angebunden?

adahmen · 09. Juni 2017

Ich bin echt begeistert !!!!!

Ich bin schon seit langer Zeit auf der Suche nach einer einfachen OCR-Lösung ... und hier ist sie.
Auch ich habe eine 415+ ... und auch ich scanne meine Unterlagen seit langer Zeit. In Summe sind es inzwischen schon über 7.000 Dokumente.

Als Scanner nutze ich einen Brother MFC-9340CDW, der auch Duplex scannen kann. Die Dokumente werden direkt per FTP auf die Synology abgelegt.
Am genannten Docker-Image hatte ich mich auch schon versucht ... aber irgendwie hat es nie wirklich gut funktioniert.
Nun habe ich diese Lösung mal mit 10 Dokumenten ausprobiert und --> es geht einwandfrei.

Primär werde ich den OCR-Teil nutzen ... das taggen werde ich mir mal ansehen ... aber meine eigene Ordner-Struktur werde ich behalten und somit den dritten Teil nicht nutzen.

Noch eine Frage: Im Readme steht "For Automatic rename: make sure that pdftotext is available.". Was ist genau damit gemeint? Ich habe nur das Docker-Image installiert sowie die Dateien aus dem GIT ... und soweit sieht alles okay aus.

Aber bei großen Dokumenten ist die 415 schon kräftig am Arbeiten

stweiss · 09. Juni 2017

Andy+ schrieb:
Das sieht ganz schlüssig aus. Und wie ist da der Scanner angebunden?

Input für das Skript sind pdf Dateien. In meinem Fall erzeugt der Scanner direkt PDF's und legt sie per SMB/CIFS direkt auf die Diskstation in den $inboxfolder. Bei mir heißen die Dateien dann Scan.pdf, Scan0001.pdf, Scan0002.pdf, ...

Das Skript läuft dann stündlich drüber.

Dabei werden im ersten Schritt ($doOCR == true) alle Dateien, die mit Scan (siehe $matchWithoutOCR) beginnen, geOCR'd. Dabei erhält das neue PDF den Namen OCR_Scan.pdf (Es kommt also der $OCRPrefix vorne dran)

Wenn $doRenameAfterOCR = true ist, wird im Anschluss versucht für alle Dateien, die mit "OCR_" ($OCRPrefix) beginnen, einen besseren Dateinamen zu finden. Hierbei wird die erste Seite des Scans mithilfe von pdftotext eingelesen und darin nach verschiedenen Dingen gesucht:

Es wird nach einem Datum gesucht. Wird keines gefunden, wird das aktuelle Datum verwendet.
Es wird gesucht, ob ein Eintrag in $renamerules passt. Der erste passende Treffer wird als Name genommen. (Bsp: "Sparkasse&Depot"=>"Sparkasse Aktiendepot", wenn also die Wörter Sparkasse und Depot gefunden werden, wird der Name "Sparkasse Aktiendepot" verwendet.)
Es wird gesucht, ob Einträge in $tagrules passen. Jeder Eintrag, der hier "matched" erzeugt ein hashtag, das angehängt wird. (Bsp: "#stefan" => "Stefan*Weiss,Weiss*Stefan", wenn also mein Name in egal welcher Reihenfolge in einer Zeile gefunden wird.)

Die Datei OCR_Scan.pdf wird dann also umbenannt nach sowas: 2017-06-09 Sparkasse Aktiendepot #stefan.pdf

Alles bisherige läuft im $inboxfolder ab. Man kann dann also selber schauen, ob der Name passt und ggf. nochmal umbenennen. An dieser Stelle empfehle ich, das PDF in einen anderen Ordner zu verschieben. Wenn man jetzt noch das Tagging ($doTagging = true) verwenden will, muss man selber die fertigen Dateien ins $archivefolder verschieben. Für alle Dateien darin erzeugt das Script hashtag-Ordner unterhalb von $tagsfolder und legt dort "Verknüpfungen" (in Form von hardlinks) zu den Dateien im $archivefolder an.

adahmen schrieb:
Noch eine Frage: Im Readme steht "For Automatic rename: make sure that pdftotext is available.". Was ist genau damit gemeint?

Damit ist der Schritt $doRenameAfterOCR gemeint (siehe oben).

pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat