pdf-Scan to Folder (auf die Synology) und dann Texterkennung mit OCR durch Synology

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Status
Für weitere Antworten geschlossen.

Blain

Benutzer
Registriert
06. Jan. 2011
Beiträge
80
Reaktionspunkte
14
Punkte
8
Servus zusammen,

ich möchte mir einen Scanner zulegen, der über das Netzwerk die eingescannte Datei auf die Synology ablegt. Dann bräuchte ich eine Applikation für die Synology, welche jede neu eingegangene Datei checkt und per OCR eine Texterkennung drüberlaufen lässt. Gibts sowas ? Falls nicht: Des wäre doch mal ein cooles Projekt. Vielleicht kann man ja irgendwie irgendwas anpassen was es bereits für Linux gibt ?!!?
 
kennst du ipkg? guck mal ob es das ipkg Paket tesseract-ocr gibt. Ich meine das im Zusammenhang mit pyload hier im Forum mal gelesen zu haben
 
Sowas wär echt fein. tesseract kann nur mit tiff´s umgehen. Also müsste man aus dem pdf (was mit sicherheit mal ein tiff war) wieder ein tiff machen, das ocr´en und dann daraus ein pdf machen. Hier wird sowas beschrieben:http://elmargol.wordpress.com/2011/...df-file-and-ocr-using-tesseract-on-archlinux/
Keine Ahnung ob alle Abhängigkeiten auf der DS installiert sind oder per ipkg installiert werden können. Ein Versuch wär´s mal wert!
 
Das mit dem OCRen wird so erbämlich langsam sein, dass man daran keinen Spaß haben wird. Ich hatte mal eine Lösung auf meine Acer-WHS (Atom) installiert und wieder verworfen.

Itari
 
Also ich habs grad mit dieser Anleitung versucht, bin aber mittendrin dann steckengeblieben:

http://www.synology-forum.de/showthread.html?16698-tesseract-ocr-missing

Mal schauen wie es weitergeht.

Eine wichtige Frage: Cool wäre es, wenn die OCR erkennung das PDF als solches bearbeitet und praktisch den Text als Layer über das Bild drüberlegt. So dass man eine pdf-Datei hat, in welcher man den Text markieren, cmd-c oder mit Spotlight durchsuchen kann (also kein ein paralleles Text-Dokument zum Grafik-pdf). Wisst ihr was ich mein. Aber sowas scheints in der Linux Szene nicht so zu geben. Auf windows können das unter anderem Adobe oder der ABBYY FineReader....
 
WatchOCR

Dieses Thema treibt mich seit einiger Zeit auch um. Scannen über LAN-Scanner direkt in einen Folder auf der Syno, dann automatisch OCR als Text-searchable PDF-Image und verschieben in einen anderen Folder.

Mit meinen bisherigen Tesseract-Experimenten bin ich nicht weiter gekommen.

Nun habe ich folgende Software-Lösung gefunden, die nach der Spezifikation exakt das tut, was ich mir wünsche. Es handelt sich um die Software WatchOCR, die unter Ubuntu läuft. Also doch sicherlich irgendwie auch auf der Syno. Man kann das Ganze als .deb herunterladen. Nur, wie bekomme ich das auf der Syno installiert? Hat das schon mal jemand ausprobiert?
 
Bin inzwischen etwas schlauer. WatchOCR ist als Projekt leider eingestellt worden und wird nicht mehr weiterentwickelt.

Im Test mit einem runtergeladenen Knoppix Live System tat es genau das, was ich mir wünschte. Einen Folder überwachen. Frische PDFs abholen, OCRen und wieder als PDF in einem anderen Ordner abspeichern. Eigentlich perfekt, wenn da nicht der Verbrauch des Notebooks wäre....
 
wegen dem deb File könntest du auf einer DS allenfalls ein Debian Chroot probieren. Dazu haben wir was im Wiki. Müsste klappen wenn das deb File keine Kernelsachen voraussetzt.
 
Gibt es schon neue Erkenntnisse zum Thema WatchOCR auf der DS installieren? Habe mal versucht mich mit dem Thema Debian zu beschäftigen, aber glaube nicht das ich eine solche Image erstellen kann. Installieren auf der DS würde ich mir aber zutrauen! Kann vielleicht jemand eine solche Datei erstellen, welche ich dann in der DS installieren kann?

Grüße
 
Ich habe es mir seit einigerzeit so gelöst:
- Scan2FTP in eine Freigabe
- Auf der Syno läuft ein Perl-Script das den Ordner überwacht und bei neuen Dateien sinnvoll umbenennt, in die Dropbox hochlädt und das Original in ein Archiv schiebt
- Auf meinem PC (natürlich nur wenn er grade an ist) läuft Abby Hot Folder der den Dropbox-Eingangsordner überwacht
- OCR und dann verschieben in einen "Unsortiert" Ordner

Scanergebnis mit Abby ist 1a.
 
Hallo Tscherno, was für einen Scanner benutzt du für Scan2FTP? Ich habe einen Canon MX870. Dieser hat zwar LAN/WLAN, möchte aber unbedingt ein Windows-PC als Ziel oder alternativ eingesetzte Speicherkarten. Beides finde ich nicht so gut.
 
Eventuell gibt es ja auch eine OCR-Lösung über Docker?
 
Hi, ich mach das jetzt schon etwas länger für Seeddms

installiert ist imagemagick

selber kompilieren mußte ich tesseract

so sieht mein Script aus:

Rich (BBCode):
#!/opt/bin/bash
# volltext.sh
for f in /volume1/public/00_Original/*.pdf; do /opt/bin/convert -density 240 "$f" cat output "${f%.*}.tif" &>/dev/null; mv "$f" /volume1/public/00_Original/abgeschlossen/; done;
for f in /volume1/public/00_Original/*.jpg; do /opt/bin/tesseract -l deu "$f" "$f.export" pdf; mv /volume1/public/00_Original/*.export.pdf /volume1/public/01_PDF/; mv "$f" /volume1/public/00_Original/abgeschlossen/; done;
for f in /volume1/public/00_Original/*.tif; do /opt/bin/tesseract -l deu "$f" "$f.export" pdf; mv /volume1/public/00_Original/*.export.pdf /volume1/public/01_PDF/; mv cat output "${f%.*}.tif" &>/dev/null /volume1/public/00_Original/abgeschlossen/; done;

ich erzeuge aus einer pdf wieder eine tiff und lasse dann tesseract drüberlaufen. Danach erstelle ich wieder eine PDF nur durchsuchbar oder ich scanne gleich als tiff ein.
Das Script entweder per Hand starten oder als cron einrichten.

Vielleicht nützt es als denkanstoß :cool:
 
Hallo zusammen

ich wärm mal diesen Thread wieder auf. Ich hab noch immer keine Lösung und von Linux verstehe ich leider gar nichts. Hat jemand schon was einfaches zum laufen gebracht. Oder kann mir jemand mit einer Schritt für Schritt anleitung weiterhelfen?

Gruss MArtin
 
Hallo zusammen

ich wärm mal diesen Thread wieder auf. Ich hab noch immer keine Lösung und von Linux verstehe ich leider gar nichts. Hat jemand schon was einfaches zum laufen gebracht. Oder kann mir jemand mit einer Schritt für Schritt anleitung weiterhelfen?

Gruss MArtin

Das Thema ist für mich immer noch aktuell. Kann mir mittlerweile jemand weiterhelfen wär ja insbesondere mit Universal Search ne coole sache.

Gruss MArtin
 
Ich war auch auf der Suche und habe mir letztendlich selber etwas zusammengebaut, was seit einer Weile ganz gut den Dienst auf meiner DS415+ verrichtet.
Das ganze habe ich FileBasedMiniDMS getauft und ist hier zu finden: https://github.com/stweiss/FileBasedMiniDMS

Kurz zusammengefasst kann das Script:
- OCR über pdf's laufen lassen
- Anhand von erweiterbaren Regeln in der config.php die PDF's hoffentlich halbwegs sinnvoll umbenennen (inkl. hashtags)
- Und anhand der Hashtags eine Ordnerstruktur erstellen und die PDF's per hardlink dort einsortieren

Die Schritte kann man auch einzeln deaktivieren, falls man möchte.
Mehr Details gibt es auf der Github-Seite.

Bitte um Rückmeldung, falls das jemand tatsächlich nutz ;)
 
Das sieht ganz schlüssig aus. Und wie ist da der Scanner angebunden?
 
Ich bin echt begeistert !!!!!

Ich bin schon seit langer Zeit auf der Suche nach einer einfachen OCR-Lösung ... und hier ist sie.
Auch ich habe eine 415+ ... und auch ich scanne meine Unterlagen seit langer Zeit. In Summe sind es inzwischen schon über 7.000 Dokumente.

Als Scanner nutze ich einen Brother MFC-9340CDW, der auch Duplex scannen kann. Die Dokumente werden direkt per FTP auf die Synology abgelegt.
Am genannten Docker-Image hatte ich mich auch schon versucht ... aber irgendwie hat es nie wirklich gut funktioniert.
Nun habe ich diese Lösung mal mit 10 Dokumenten ausprobiert und --> es geht einwandfrei.

Primär werde ich den OCR-Teil nutzen ... das taggen werde ich mir mal ansehen ... aber meine eigene Ordner-Struktur werde ich behalten und somit den dritten Teil nicht nutzen.

Noch eine Frage: Im Readme steht "For Automatic rename: make sure that pdftotext is available.". Was ist genau damit gemeint? Ich habe nur das Docker-Image installiert sowie die Dateien aus dem GIT ... und soweit sieht alles okay aus.

Aber bei großen Dokumenten ist die 415 schon kräftig am Arbeiten :-)
 
Das sieht ganz schlüssig aus. Und wie ist da der Scanner angebunden?
Input für das Skript sind pdf Dateien. In meinem Fall erzeugt der Scanner direkt PDF's und legt sie per SMB/CIFS direkt auf die Diskstation in den $inboxfolder. Bei mir heißen die Dateien dann Scan.pdf, Scan0001.pdf, Scan0002.pdf, ...

Das Skript läuft dann stündlich drüber.

Dabei werden im ersten Schritt ($doOCR == true) alle Dateien, die mit Scan (siehe $matchWithoutOCR) beginnen, geOCR'd. Dabei erhält das neue PDF den Namen OCR_Scan.pdf (Es kommt also der $OCRPrefix vorne dran)

Wenn $doRenameAfterOCR = true ist, wird im Anschluss versucht für alle Dateien, die mit "OCR_" ($OCRPrefix) beginnen, einen besseren Dateinamen zu finden. Hierbei wird die erste Seite des Scans mithilfe von pdftotext eingelesen und darin nach verschiedenen Dingen gesucht:
  1. Es wird nach einem Datum gesucht. Wird keines gefunden, wird das aktuelle Datum verwendet.
  2. Es wird gesucht, ob ein Eintrag in $renamerules passt. Der erste passende Treffer wird als Name genommen. (Bsp: "Sparkasse&Depot"=>"Sparkasse Aktiendepot", wenn also die Wörter Sparkasse und Depot gefunden werden, wird der Name "Sparkasse Aktiendepot" verwendet.)
  3. Es wird gesucht, ob Einträge in $tagrules passen. Jeder Eintrag, der hier "matched" erzeugt ein hashtag, das angehängt wird. (Bsp: "#stefan" => "Stefan*Weiss,Weiss*Stefan", wenn also mein Name in egal welcher Reihenfolge in einer Zeile gefunden wird.)
Die Datei OCR_Scan.pdf wird dann also umbenannt nach sowas: 2017-06-09 Sparkasse Aktiendepot #stefan.pdf

Alles bisherige läuft im $inboxfolder ab. Man kann dann also selber schauen, ob der Name passt und ggf. nochmal umbenennen. An dieser Stelle empfehle ich, das PDF in einen anderen Ordner zu verschieben. Wenn man jetzt noch das Tagging ($doTagging = true) verwenden will, muss man selber die fertigen Dateien ins $archivefolder verschieben. Für alle Dateien darin erzeugt das Script hashtag-Ordner unterhalb von $tagsfolder und legt dort "Verknüpfungen" (in Form von hardlinks) zu den Dateien im $archivefolder an.


Noch eine Frage: Im Readme steht "For Automatic rename: make sure that pdftotext is available.". Was ist genau damit gemeint?

Damit ist der Schritt $doRenameAfterOCR gemeint (siehe oben).
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat