Dokumentenscanner - Die Qual der Wahl...

c0smo

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
08. Mai 2015
Beiträge
6.669
Punkte für Reaktionen
1.205
Punkte
254
Das Ding is ja putzig. Gerade die ersten Gehversuche unternommen. Bin echt begeistert bis jetzt. Sauschnell und echt unkompliziert in der Einrichtung - bisher ohne OCR. Richte gerade meine Favoriten ein.

Ist es normal, dass für eine richtige Ausrichtung die Blätter auf dem Kopf gescannt werden müssen?
Wie handhabt ihr das mit den Dateinamen? Lasst ihr den autom. erstellen mit der OCR Software? Falls ja, funktioniert das gut? Welche Kriterien werden da rangezogen?
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
28. Okt 2020
Beiträge
14.180
Punkte für Reaktionen
4.915
Punkte
519
Ich muss auch kopfüber scannen. Wenn man sich daran gewöhnt hat, ist es aber egal. Mir ist es am Anfang paar Mal versehentlich passiert, dass ich die Blätter "richtig" herum einschob. Jetzt aber nicht mehr
 
  • Like
Reaktionen: c0smo

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Ist es normal, dass für eine richtige Ausrichtung die Blätter auf dem Kopf gescannt werden müssen?
Naja, du fängst ja auch eine Seite oben an zu lesen - sprich, was der Scanner zuerst lesen soll, kommt halt zuerst rein. In dem Fall scheint das halt 'verkehrt herum' zu sein. Daran gewöhnst du dich schnell :)

Ich benutze ein Präfix und eine fortlaufende Nummer. (SCAN_01234.pdf). synOCR sucht dann ein Datum und Tags und stellt anhand dessen den neuen Namen zusammen.
 
  • Like
Reaktionen: c0smo

Stationary

Benutzer
Sehr erfahren
Mitglied seit
13. Feb 2017
Beiträge
3.605
Punkte für Reaktionen
1.036
Punkte
194
synOCR sucht dann ein Datum und Tags und stellt anhand dessen den neuen Namen zusammen.
Dabei mußt Du aber etwas aufpassen…ich weiß nicht, ob es synOCR war oder nicht. Ich habe vergangenen November einen Versicherungsbescheid eingescannt, Startdatum der Versicherung zum 1.1.2023. Das Datum wurde wohl erkannt, die Datei hatte dann nicht nur einen passenden Namen, sondern auch gleich ein Erstelldatum in der Zukunft. Ist mir aufgefallen, als ecoDMS es nicht einlesen wollte. Das zieht eine Grenze beim aktuellen Datum und akzeptiert keine in der Zukunft liegenden Dateierstelldaten.
Was meinst Du @geimist, kann das Problem der vordatierten Datei von synOCR stammen?
 
Zuletzt bearbeitet:

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Was meinst Du @geimist, kann das Problem der vordatierten Datei von synOCR stammen?
Ja, standardmäßig wird das Dokumentdatum auf das OCR-Datum gesetzt. Das kann man in der GUI aber auch anders konfigurieren (Stichwort: Dateidatum korrigieren).
 
  • Like
Reaktionen: Stationary

c0smo

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
08. Mai 2015
Beiträge
6.669
Punkte für Reaktionen
1.205
Punkte
254
Wie sieht denn bei euch der Workflow aus bezüglich der Einordnung in bestimmte Ordner? Nehmt ihr das bereits im Scanner und den Favoriten vor oder macht ihr das später in synOCR?
Ich tue mir gerade schwer, die passenden Regeln zu definieren in synOCR. Denke fast, dass es für mich einfacher und schneller geht, wenn ich alle gescannten Dokumente in einen Eingangsordner packe, dort synOCR drüberlaufen lasse, meinetwegen auch mit Umbenennen und danach von Hand in die Ordner sortiere.
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Paperless ist zwar nicht synOCR basiert aber auf die gleiche Engine. Paperless sortiert die Datei nach Konsumenten, Datum und Tags automatisch in die entsprechenden Ordner. Wie die Struktur aussehen soll, ist frei definierbar und funktioniert zuverlässig ohne Probleme. Auch können gleich Anhänge aus E-Mails archiviert werden.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234

c0smo

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
08. Mai 2015
Beiträge
6.669
Punkte für Reaktionen
1.205
Punkte
254
Auf alle Fälle, den Eintrag habe ich mir noch nicht durchgelesen. Ich starte jetzt erstmal mit der Digitalisierung, der Rest wird sich dann bestimmt irgendwann ergeben.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
Ich starte jetzt erstmal mit der Digitalisierung, der Rest wird sich dann bestimmt irgendwann ergeben.
Dann würde ich dir aber empfehlen, synOCR noch nicht laufen zu lassen. Die Texterkennung, das taggen / umbenennen und einsortieren passiert ja dann in einem Rutsch.
 

w00dcu11er

Benutzer
Mitglied seit
16. Sep 2022
Beiträge
754
Punkte für Reaktionen
235
Punkte
69
Ich benutze den Workload via synOCR / Paperless.
Nun hab ich sowohl dem Scanner als auch der iOS-App (Quick Scan) einen fixen Präfix zugewiesen
Da beide Geräte auch "Arbeitsprozesse" bzw. eigene Einstellungen vorzuweisen haben:
Scanner Knopf 1 (auf Touchscreen) = Präfix SCNO_ (geht direkt in Inputordner für syncOCR) und Knopf SCNP_ (geht direkt in Inputordner für Paperless). 3. Knopf ist einfaches Scannen mit dem Präfix SCNX_ (meist nur einmalig oder was zum Herzeigen oder Verschicken etc. - landet direkt auf dem Desktop -> via Synology Drive synchronisiert).

SCNO -> lass syncOCR die Regeln via YAML-Datei abarbeiten (umbenennen, einsortieren in Ordner etc.)
SCNP -> lass Paperless die Regeln via Tags und Corr. abarbeiten
SCNX -> unbearbeitet auf dem Desktop aller meiner Geräte.

Wann syncOCR? Da sind mehr aufzubewahrende und personenbezogene Dokumente wie Rechnungen, Anbote, Verträge, Belege etc. --> die sortiere ich dann Jahr für Jahr aus, die ältesten fliegen raus bzw. gelöscht, sofern erledigt (Steuerausgleich, Finanzamtprüfung etc.).
Hier der größte Vorteil: Klare Klassifizierungen und regelmäßige Eingänge (kann man auf 1. Blick erkennen, ob da was fehlt oder nicht - da alles strukturiert und nummeriert ist).

Wann Paperless? Hier kommen mehr allgemeine Themen, da ich im tertiären Bereich und in der Erwachsenenbildung tätig bin, rein wie Master-, Diplomarbeiten (sind derzeit ca. 1.200 drinnen), (wissenschaftliche) Artikeln, Recherchen in PDF-Formaten, Ergebnissen, Studien etc. sowie auch einige im privaten Bereich wie Erinnerungen (Einladungen, Urkunden, verziertes persönl. Schreiben etc.). Die lösche ich so gut wie nie bzw. archiviere ich alles gerne.
Hier der größte Vorteil: Taggings (ist hier fast unmöglich, eine Datei einer fixen Kategorie zuzuordnen).
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Wann syncOCR? Da sind mehr aufzubewahrende und personenbezogene Dokumente wie Rechnungen, Anbote, Verträge, Belege etc. --> die sortiere ich dann Jahr für Jahr aus, die ältesten fliegen raus bzw. gelöscht, sofern erledigt (Steuerausgleich, Finanzamtprüfung etc.).
Hier der größte Vorteil: Klare Klassifizierungen und regelmäßige Eingänge (kann man auf 1. Blick erkennen, ob da was fehlt oder nicht - da alles strukturiert und nummeriert ist).
Das kann doch Paperless alle mitmachen. Die Sortierung, Speicherung in den Ordnern und Datum legst du doch selbst fest. Für mich ist das doppelt. Mir wäre es zu viel Arbeit, Zweigleisig zu fahren. Dazu kommt, dass man nicht das Dokument direkt finden muss, sondern nur die interne Suche benutzt und dann das Dokument herunterlädt. Aufgrund der Datenbank ist Paperless für sehr viele Files und eine schnelle Suche ausgelegt.

Ich will auf kein Fall die Arbeit von @geimist diskreditieren ist, aber für mich ist synOCR nur eine halbe Digitalisierung.
 

geimist

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
04. Jan 2012
Beiträge
5.388
Punkte für Reaktionen
1.206
Punkte
234
synOCR ist halt keine vollumfängliche Dokumentenverwaltung, sondern steht bewusst nur am Anfang der Digitalisierung.
Auch, wenn man mit Paperless sich so eine Ordnerstruktur aufbauen kann, so verzichtet synOCR halt auf den DMS-Part.
Ich für meinen Teil will so eine Software nur 1x am Anfang nutzen und anschließend arbeite ich ausschließlich im Dateisystem.

Ich weiß nicht, wie viele Ordner man in Paperless mounten kann, aber in synOCR kann man halt ganz wild per Regeln seine Dokumente überall einsortieren lassen – vielleicht gerade für homes und mehreren Useren ein gewisser Vorteil.
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Es reicht ein Mount-Ordner aus. Dieser kann z. B. Dokumente, Archiv oder was auch immer heißen.
Die Hierarchie ergibt sich anhand deiner Einstellungen und Bedürfnisse und erstell automatisch die entsprechenden Unterordner und Strukturen. Selbst die Ordner können in der Bezeichnung individuell angepasst werden, in dem man einfach die Variablen bearbeitet. Eine nachträgliche Änderung ist natürlich auch möglich, mit dem retagger und renamer uv,m.

@geimist, mir ist bewusst, dass du es nicht anders haben willst und nur eine einfache Oberfläche für den Docker bereitstellst. Das ist auch vollkommen ok für User, die immer noch mit dem Ordnerdenken nicht abgeschlossen haben.

Was ist aber nicht verstehe, sind User die erst synOCR und danach Paperless als Weiterverarbeitung auswählen. Beide Systeme beruhe auf dieselbe Engine. Auch speichert Paperless die Originale und neu erstellten Files getrennt voneinander ab. Ein manuelles Aufrufen nach der eingestellten Struktur ist jederzeit möglich.
 

Stationary

Benutzer
Sehr erfahren
Mitglied seit
13. Feb 2017
Beiträge
3.605
Punkte für Reaktionen
1.036
Punkte
194
Tesseract gibt aber nicht notwendigerweise mit jeder dahinterstehenden Software die identischen Ergebnisse. Tesseract mittels synOCR gibt oft bessere Ergebnisse als Tesseract mittels ecoDMS. Paperless habe nie ausprobiert, würde aber nicht a priori auschließen, daß es da nicht auch zu unterschiedlichen Ergebnissen kommt. Das OCR von der eigentlichen Verwaltung zu trennen, kann durchaus einen Sinn haben.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.046
Punkte für Reaktionen
900
Punkte
204
Tesseract in OCRmyPDF (und das verwenden sowohl synOCR als auch Paperless) erzeugt bei mir die gleichen Ergebnisse bei gleichen Grundeinstellungen.
 

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
856
Punkte für Reaktionen
160
Punkte
63
Hallo Leute,

weiß gerade nicht ob es der richtige Thread ist, aber denke hier ist es gut aufgehoben.
Da ich im www nichts wirklich brauchbares zu dem Thema gefunden, poste ich es mal hier.

Es geht um Scan to Print oder auch Scannen zum Drucker.

Seit kurzem nutze ich auch den Brother Scanner ADS-1700W und Drucker HL-L2375DW. Auch hier werden ja interessante Lösungen diskutiert, direkt auf den Drucker zu scannen. Und auch ich habe auf meiner eh schon vorhandenen Linux VM Cups und Samba für das Drucken laufen.
Aber ich habe mich gefragt wofür. Der Drucker ist Airprint fähig, also verträgt RAW Daten. Es müsste doch eine einfachere Möglichkeit geben ....

Und die gibt es. Einfach im Drucker unter admin / Netzwerk den FTP-Server im Drucker aktivieren.
008.png009.png
Meine Firmware ist diese. Nur für den Fall das diese Option bei Euch nicht angeboten wird.
Am Scanner nun auf die IP des Druckers scannen. Das Zielverzeichnis bleibt leer und Benutzer und Passwort sind egal, da dies beim FTP-Server des Druckers nicht benötigt wird.
007.png
Aber Achtung: Genau da liegt dann ein Problem, wenn Eure FTP-Ports extern freigegeben und genutzt werden. Somit bitte beachten und entsprechend gegensteuern.

Da ich das aber nicht habe und auch nicht beachten brauche, ist das für mich die eleganteste Variante direkt vom Scanner auf den Drucker zu scannen.

Viel Spaß beim Drucken
Karsten
 

Stationary

Benutzer
Sehr erfahren
Mitglied seit
13. Feb 2017
Beiträge
3.605
Punkte für Reaktionen
1.036
Punkte
194
Interessant. Genau die gleiche Konstellation habe ich auch. Nur funktioniert das bei mir nicht. Gehst Du über Port 9100?
 
Zuletzt bearbeitet:

Struppix

Benutzer
Mitglied seit
10. Apr 2009
Beiträge
856
Punkte für Reaktionen
160
Punkte
63
Hallo,
nein ich nutze den Standard Port 21.
Dann lass uns mal schauen was wir noch testen können, bzw. was ich vlt. schon früher umgestellt habe.

Zuerst mal habe ich alle Protokolle im Scanner aktiviert.
010.png
Bitte stelle im Scanner Profil mal auf passiven Modus. Dann wird der Daten Port gleich mit ausgehandelt, im Normalfall Port 20. Das sollte schon reichen.

Wenn nicht, hast Du vlt. eine Linux Büchse am Start? Deine VM? Mach da bitte mal ein:
Code:
nmap <Drucker IP>
Auf der syn geht das von Haus aus so nicht. Ich glaube da braucht man ein zusätzliches Paket oder.

Karsten
 
Zuletzt bearbeitet von einem Moderator:

Stationary

Benutzer
Sehr erfahren
Mitglied seit
13. Feb 2017
Beiträge
3.605
Punkte für Reaktionen
1.036
Punkte
194
Ich kann es jetzt nicht mal mehr testen. Ich verstehe die Fehlermeldung nicht:
Screenshot 2023-03-05 at 13.21.00.png
Im Profil läßt sich das weder an- noch abschalten (so eine Einstellung ist da gar nicht vorhanden) und im Gerät ist das auf "off" gesetzt (und der "on"-Button ist sogar ausgegraut. Das ist dem Handbuch nach ohnehin nur relevant, wenn man einen Autoscan-Shortcut benutzt - und den habe ich nicht.

(seit gestern habe ich allerdings im Drucker ein Firmware-Update gemacht, jetzt Main 1.72, Sub05 1.04).
Screenshot 2023-03-05 at 13.36.28.png
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat