Dokumentenscanner - Die Qual der Wahl...

c0smo · 23. Jan. 2023

Das Ding is ja putzig. Gerade die ersten Gehversuche unternommen. Bin echt begeistert bis jetzt. Sauschnell und echt unkompliziert in der Einrichtung - bisher ohne OCR. Richte gerade meine Favoriten ein.

Ist es normal, dass für eine richtige Ausrichtung die Blätter auf dem Kopf gescannt werden müssen?
Wie handhabt ihr das mit den Dateinamen? Lasst ihr den autom. erstellen mit der OCR Software? Falls ja, funktioniert das gut? Welche Kriterien werden da rangezogen?

plang.pl · 23. Jan. 2023

Ich muss auch kopfüber scannen. Wenn man sich daran gewöhnt hat, ist es aber egal. Mir ist es am Anfang paar Mal versehentlich passiert, dass ich die Blätter "richtig" herum einschob. Jetzt aber nicht mehr

geimist · 23. Jan. 2023

c0smo schrieb:
Ist es normal, dass für eine richtige Ausrichtung die Blätter auf dem Kopf gescannt werden müssen?

Naja, du fängst ja auch eine Seite oben an zu lesen - sprich, was der Scanner zuerst lesen soll, kommt halt zuerst rein. In dem Fall scheint das halt 'verkehrt herum' zu sein. Daran gewöhnst du dich schnell

Ich benutze ein Präfix und eine fortlaufende Nummer. (SCAN_01234.pdf). synOCR sucht dann ein Datum und Tags und stellt anhand dessen den neuen Namen zusammen.

Stationary · 23. Jan. 2023

geimist schrieb:
synOCR sucht dann ein Datum und Tags und stellt anhand dessen den neuen Namen zusammen.

Dabei mußt Du aber etwas aufpassen…ich weiß nicht, ob es synOCR war oder nicht. Ich habe vergangenen November einen Versicherungsbescheid eingescannt, Startdatum der Versicherung zum 1.1.2023. Das Datum wurde wohl erkannt, die Datei hatte dann nicht nur einen passenden Namen, sondern auch gleich ein Erstelldatum in der Zukunft. Ist mir aufgefallen, als ecoDMS es nicht einlesen wollte. Das zieht eine Grenze beim aktuellen Datum und akzeptiert keine in der Zukunft liegenden Dateierstelldaten.
Was meinst Du @geimist, kann das Problem der vordatierten Datei von synOCR stammen?

geimist · 23. Jan. 2023

Stationary schrieb:
Was meinst Du @geimist, kann das Problem der vordatierten Datei von synOCR stammen?

Ja, standardmäßig wird das Dokumentdatum auf das OCR-Datum gesetzt. Das kann man in der GUI aber auch anders konfigurieren (Stichwort: Dateidatum korrigieren).

c0smo · 24. Jan. 2023

Wie sieht denn bei euch der Workflow aus bezüglich der Einordnung in bestimmte Ordner? Nehmt ihr das bereits im Scanner und den Favoriten vor oder macht ihr das später in synOCR?
Ich tue mir gerade schwer, die passenden Regeln zu definieren in synOCR. Denke fast, dass es für mich einfacher und schneller geht, wenn ich alle gescannten Dokumente in einen Eingangsordner packe, dort synOCR drüberlaufen lasse, meinetwegen auch mit Umbenennen und danach von Hand in die Ordner sortiere.

EDvonSchleck · 24. Jan. 2023

Paperless ist zwar nicht synOCR basiert aber auf die gleiche Engine. Paperless sortiert die Datei nach Konsumenten, Datum und Tags automatisch in die entsprechenden Ordner. Wie die Struktur aussehen soll, ist frei definierbar und funktioniert zuverlässig ohne Probleme. Auch können gleich Anhänge aus E-Mails archiviert werden.

geimist · 24. Jan. 2023

c0smo schrieb:
Ich tue mir gerade schwer, die passenden Regeln zu definieren in synOCR.

Letztendlich muss man halt Regeln auf die eine oder andere Art definierten.
Wir herzigen die dabei gerne, aber vielleicht besser in einen separaten oder den synOCR Thread, um das Thema hier nicht zu sehr durcheinanderzubringen.

Vielleicht hilft dir auch das Wiki: https://git.geimist.eu/geimist/synOCR/wiki/03_YAML_de

c0smo · 24. Jan. 2023

Auf alle Fälle, den Eintrag habe ich mir noch nicht durchgelesen. Ich starte jetzt erstmal mit der Digitalisierung, der Rest wird sich dann bestimmt irgendwann ergeben.

geimist · 24. Jan. 2023

c0smo schrieb:
Ich starte jetzt erstmal mit der Digitalisierung, der Rest wird sich dann bestimmt irgendwann ergeben.

Dann würde ich dir aber empfehlen, synOCR noch nicht laufen zu lassen. Die Texterkennung, das taggen / umbenennen und einsortieren passiert ja dann in einem Rutsch.

w00dcu11er · 24. Jan. 2023

Ich benutze den Workload via synOCR / Paperless.
Nun hab ich sowohl dem Scanner als auch der iOS-App (Quick Scan) einen fixen Präfix zugewiesen
Da beide Geräte auch "Arbeitsprozesse" bzw. eigene Einstellungen vorzuweisen haben:
Scanner Knopf 1 (auf Touchscreen) = Präfix SCNO_ (geht direkt in Inputordner für syncOCR) und Knopf SCNP_ (geht direkt in Inputordner für Paperless). 3. Knopf ist einfaches Scannen mit dem Präfix SCNX_ (meist nur einmalig oder was zum Herzeigen oder Verschicken etc. - landet direkt auf dem Desktop -> via Synology Drive synchronisiert).

SCNO -> lass syncOCR die Regeln via YAML-Datei abarbeiten (umbenennen, einsortieren in Ordner etc.)
SCNP -> lass Paperless die Regeln via Tags und Corr. abarbeiten
SCNX -> unbearbeitet auf dem Desktop aller meiner Geräte.

Wann syncOCR? Da sind mehr aufzubewahrende und personenbezogene Dokumente wie Rechnungen, Anbote, Verträge, Belege etc. --> die sortiere ich dann Jahr für Jahr aus, die ältesten fliegen raus bzw. gelöscht, sofern erledigt (Steuerausgleich, Finanzamtprüfung etc.).
Hier der größte Vorteil: Klare Klassifizierungen und regelmäßige Eingänge (kann man auf 1. Blick erkennen, ob da was fehlt oder nicht - da alles strukturiert und nummeriert ist).

Wann Paperless? Hier kommen mehr allgemeine Themen, da ich im tertiären Bereich und in der Erwachsenenbildung tätig bin, rein wie Master-, Diplomarbeiten (sind derzeit ca. 1.200 drinnen), (wissenschaftliche) Artikeln, Recherchen in PDF-Formaten, Ergebnissen, Studien etc. sowie auch einige im privaten Bereich wie Erinnerungen (Einladungen, Urkunden, verziertes persönl. Schreiben etc.). Die lösche ich so gut wie nie bzw. archiviere ich alles gerne.
Hier der größte Vorteil: Taggings (ist hier fast unmöglich, eine Datei einer fixen Kategorie zuzuordnen).

EDvonSchleck · 24. Jan. 2023

w00dcu11er schrieb:
Wann syncOCR? Da sind mehr aufzubewahrende und personenbezogene Dokumente wie Rechnungen, Anbote, Verträge, Belege etc. --> die sortiere ich dann Jahr für Jahr aus, die ältesten fliegen raus bzw. gelöscht, sofern erledigt (Steuerausgleich, Finanzamtprüfung etc.).
Hier der größte Vorteil: Klare Klassifizierungen und regelmäßige Eingänge (kann man auf 1. Blick erkennen, ob da was fehlt oder nicht - da alles strukturiert und nummeriert ist).

Das kann doch Paperless alle mitmachen. Die Sortierung, Speicherung in den Ordnern und Datum legst du doch selbst fest. Für mich ist das doppelt. Mir wäre es zu viel Arbeit, Zweigleisig zu fahren. Dazu kommt, dass man nicht das Dokument direkt finden muss, sondern nur die interne Suche benutzt und dann das Dokument herunterlädt. Aufgrund der Datenbank ist Paperless für sehr viele Files und eine schnelle Suche ausgelegt.

Ich will auf kein Fall die Arbeit von @geimist diskreditieren ist, aber für mich ist synOCR nur eine halbe Digitalisierung.

geimist · 24. Jan. 2023

synOCR ist halt keine vollumfängliche Dokumentenverwaltung, sondern steht bewusst nur am Anfang der Digitalisierung.
Auch, wenn man mit Paperless sich so eine Ordnerstruktur aufbauen kann, so verzichtet synOCR halt auf den DMS-Part.
Ich für meinen Teil will so eine Software nur 1x am Anfang nutzen und anschließend arbeite ich ausschließlich im Dateisystem.

Ich weiß nicht, wie viele Ordner man in Paperless mounten kann, aber in synOCR kann man halt ganz wild per Regeln seine Dokumente überall einsortieren lassen – vielleicht gerade für homes und mehreren Useren ein gewisser Vorteil.

EDvonSchleck · 24. Jan. 2023

Es reicht ein Mount-Ordner aus. Dieser kann z. B. Dokumente, Archiv oder was auch immer heißen.
Die Hierarchie ergibt sich anhand deiner Einstellungen und Bedürfnisse und erstell automatisch die entsprechenden Unterordner und Strukturen. Selbst die Ordner können in der Bezeichnung individuell angepasst werden, in dem man einfach die Variablen bearbeitet. Eine nachträgliche Änderung ist natürlich auch möglich, mit dem retagger und renamer uv,m.

@geimist, mir ist bewusst, dass du es nicht anders haben willst und nur eine einfache Oberfläche für den Docker bereitstellst. Das ist auch vollkommen ok für User, die immer noch mit dem Ordnerdenken nicht abgeschlossen haben.

Was ist aber nicht verstehe, sind User die erst synOCR und danach Paperless als Weiterverarbeitung auswählen. Beide Systeme beruhe auf dieselbe Engine. Auch speichert Paperless die Originale und neu erstellten Files getrennt voneinander ab. Ein manuelles Aufrufen nach der eingestellten Struktur ist jederzeit möglich.

Stationary · 24. Jan. 2023

Tesseract gibt aber nicht notwendigerweise mit jeder dahinterstehenden Software die identischen Ergebnisse. Tesseract mittels synOCR gibt oft bessere Ergebnisse als Tesseract mittels ecoDMS. Paperless habe nie ausprobiert, würde aber nicht a priori auschließen, daß es da nicht auch zu unterschiedlichen Ergebnissen kommt. Das OCR von der eigentlichen Verwaltung zu trennen, kann durchaus einen Sinn haben.

Monacum · 24. Jan. 2023

Tesseract in OCRmyPDF (und das verwenden sowohl synOCR als auch Paperless) erzeugt bei mir die gleichen Ergebnisse bei gleichen Grundeinstellungen.

Struppix · 02. März 2023

Hallo Leute,

weiß gerade nicht ob es der richtige Thread ist, aber denke hier ist es gut aufgehoben.
Da ich im www nichts wirklich brauchbares zu dem Thema gefunden, poste ich es mal hier.

Es geht um Scan to Print oder auch Scannen zum Drucker.

Seit kurzem nutze ich auch den Brother Scanner ADS-1700W und Drucker HL-L2375DW. Auch hier werden ja interessante Lösungen diskutiert, direkt auf den Drucker zu scannen. Und auch ich habe auf meiner eh schon vorhandenen Linux VM Cups und Samba für das Drucken laufen.
Aber ich habe mich gefragt wofür. Der Drucker ist Airprint fähig, also verträgt RAW Daten. Es müsste doch eine einfachere Möglichkeit geben ....

Und die gibt es. Einfach im Drucker unter admin / Netzwerk den FTP-Server im Drucker aktivieren.

Meine Firmware ist diese. Nur für den Fall das diese Option bei Euch nicht angeboten wird.
Am Scanner nun auf die IP des Druckers scannen. Das Zielverzeichnis bleibt leer und Benutzer und Passwort sind egal, da dies beim FTP-Server des Druckers nicht benötigt wird.

Aber Achtung: Genau da liegt dann ein Problem, wenn Eure FTP-Ports extern freigegeben und genutzt werden. Somit bitte beachten und entsprechend gegensteuern.

Da ich das aber nicht habe und auch nicht beachten brauche, ist das für mich die eleganteste Variante direkt vom Scanner auf den Drucker zu scannen.

Viel Spaß beim Drucken
Karsten

Stationary · 04. März 2023

Interessant. Genau die gleiche Konstellation habe ich auch. Nur funktioniert das bei mir nicht. Gehst Du über Port 9100?

Struppix · 04. März 2023

Hallo,
nein ich nutze den Standard Port 21.
Dann lass uns mal schauen was wir noch testen können, bzw. was ich vlt. schon früher umgestellt habe.

Zuerst mal habe ich alle Protokolle im Scanner aktiviert.

Bitte stelle im Scanner Profil mal auf passiven Modus. Dann wird der Daten Port gleich mit ausgehandelt, im Normalfall Port 20. Das sollte schon reichen.

Wenn nicht, hast Du vlt. eine Linux Büchse am Start? Deine VM? Mach da bitte mal ein:

Code:

nmap <Drucker IP>

Auf der syn geht das von Haus aus so nicht. Ich glaube da braucht man ein zusätzliches Paket oder.

Karsten

Stationary · 05. März 2023

Ich kann es jetzt nicht mal mehr testen. Ich verstehe die Fehlermeldung nicht:

Im Profil läßt sich das weder an- noch abschalten (so eine Einstellung ist da gar nicht vorhanden) und im Gerät ist das auf "off" gesetzt (und der "on"-Button ist sogar ausgegraut. Das ist dem Handbuch nach ohnehin nur relevant, wenn man einen Autoscan-Shortcut benutzt - und den habe ich nicht.

(seit gestern habe ich allerdings im Drucker ein Firmware-Update gemacht, jetzt Main 1.72, Sub05 1.04).

Dokumentenscanner - Die Qual der Wahl...

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Gesperrt

Benutzer

Benutzer

Benutzer

Benutzer

Gesperrt

Benutzer

Gesperrt

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat