synOCR synOCR - GUI für OCRmyPDF

Pengo · 20. Jul 2020

Kurze Info von mir. Tatsächlich wie vermutet durch den Umzug der Syno und anschließende Wiederherstellung ist ein alter Ordner von synOCR im Verzeichnis /volume1/@appstore/ geblieben. Habe den Ordner gelöscht, neu installiert und es funktioniert alles bestens.

Danke von mir für deine Hilfe und das Programm.

Nicky_1818 · 21. Jul 2020

Hallo Gemeinde

ist es irgendwie realisierbar, dass eine bestehende Dateien- und Ordnerstruktur abgearbeitet wird? Ich würde sehr gern in einem Rutsch sämtliche Dokumente durch den Scanner schicken wollen. Da jedoch die Ordnerstruktur ziemlich umfangreich ist und je Unterordner nur 5-10 Dokumente beinhaltet, dauert es eeeeewig die Dateien hin und her zu verschieben, bzw. für jeden Ordner die Konfiguration des Scanners anzupassen

Gruß Dominique

TeXniXo · 21. Jul 2020

Der Wunsch wurde hier mehrmals deponiert mit dem Ergebnis, dass es (noch?) nicht vorgesehen ist.

geimist · 21. Jul 2020

Mir ist bewusst, dass es viele Funktionswünsche gibt, die noch nicht realisiert worden sind. Bitte bedenkt, dass ich kein Profi bin - entsprechend viel Zeit benötige ich auch, um neue Funktionen zu implementieren. Zeit und Kraft sind nun einmal begrenzt.

Bitte habt Nachsicht mit mir, wenn es nur nach und nach neue Features gibt (die zu dem mutmaßlich von den meisten gewünscht werden). Der angesprochene Usecase ist sicherlich aufwändig, aber ist in der Regel eine einmalige Angelegenheit, während ich mich mit synOCR auf den kontinuierlichen Workflow konzentriere. Das soll aber nicht heißen, dass das Feature nicht mal kommt.
Aktuell sind noch ein paar Bugfixes für die aktuelle Version notwendig.

Vielen Dank für euer Verständnis

ulli_um · 21. Jul 2020

Hi Dominique und Texnixo,
Warum geht ihr nicht in euren Ordner auf oberster Ebene gebt in der suchmaske * ein, dann werden alle files gelistet. Dann könnt ihr alle auf einmal kopieren und in den synocr ordner reinkopieren.
Die wieder einsortierung macht dann die neue super tag Funktion

Viele Grüße,
Ulli

geimist · 21. Jul 2020

Wenn aber die bisherige Struktur erhalten bleiben soll, kann ich es schon verstehen.

Meine Idee für ein Skript:

suche Ordner mit PDFs, vergebe dem Pfad eine ID nach wiederzuerkennenden Muster und füge diese den PDFs voran
alle Pfade und entsprechende IDs kommen in eine Textdatei
verschiebe die umbenannten PDFs in den Inputorder und lasse diese von synOCR verarbeiten (keine Umbenennung / keine Einsortierung)
fertige PDFs werden im Output-Ordner wieder anhand der ID in die ursprünglichen Pfade kopiert und zurück benannt

Das sollte mit wenigen Zeilen Code als stand alone Skript zu machen sein.

mamema · 21. Jul 2020

geimist schrieb:
dass ich kein Profi bin

definitiv anderer Meinung!
die Differenzierung ist nicht Profi zu Laie sondern bezahlt zu unentgeldlich.

geimist · 21. Jul 2020

… na gut, dann bin ich halt ein unbezahlter Laie

mamema · 21. Jul 2020

unser unbezahler Profi der sich zum Laien macht.....
Kommt mir eine Idee bzw. Frage auf, weil Du ja selbst sagst "Du bist allein."
Warum das Projekt nicht auf github internationalisieren?
Die Synology Community ist ja weltweit.......
Vielleicht bekommst Du dort dann Programmierunterstützung?!

TeXniXo · 21. Jul 2020

Die Idee von @mamema finde ich vom Ansatz her wirklich gut und lässt sich sozusagen beliebig "erweitern" (in welcher Richtung ist halt eine Frage).

Nach wie vor sehe ich in synOCR enorme Potentiale, weitere Features hier implementieren zu lassen. Aber ja, wie wir wissen, sind die Rahmenbedingungen relativ eng. Unter diesen Umständen so ein Tool rauszubringen ist schon alleine unglaublich! Danke an dieser Stelle!

geimist · 21. Jul 2020

mamema schrieb:
Warum das Projekt nicht auf github internationalisieren?

Ich hatte mich halt für ein selbst gehostetes gitea entschieden.
Die Hürde zur Mitarbeit ist die Anfrage für ein Userkonto, damit man Schreibrechte bekommt.

mördock · 21. Jul 2020

Hallo,

Ich habe auch das Problem mit dem (1) hinter der fertigen Datei. Allerdings tritt bei mit das Phänomen nicht bei jeder Datei auf. Die Ausgangsdatei liegt nur einmal vor, es gibt keine Datei mit identischem Namen im Zielordner.
Hängt das ebenfalls mit dem fehlenden Umbenennungssyntax zusammen und wird demnächst gefixt?
#Mördock#

geimist · 21. Jul 2020

mördock schrieb:
Hängt das ebenfalls mit dem fehlenden Umbenennungssyntax zusammen und wird demnächst gefixt?

Das ist meine Schlussfolgerung.
Du kannst gerne mal den aktuellen Build testen: https://geimist.eu/synOCR/

Über eine Rückmeldung wäre ich dir dankbar

mamema · 21. Jul 2020

geimist schrieb:
Die Hürde zur Mitarbeit ist die Anfrage für ein Userkonto, damit man Schreibrechte bekommt.

Ich denke eher man findet Dich (uns) so nicht/weniger. Github ist halt der Standardort.....

DeeKay1 · 21. Jul 2020

Die Google-Suche nach "synocr Github" hat als ersten Treffer das Repo.
Aber ja, ich hatte auch ursprünglich auf Github gesucht. Dennoch ist es, meiner Meinung nach, die Entscheidung desjenigen, der bereits sehr viel Arbeit reingesteckt hat, wo er sein Projekt hosten möchte.
Ich persönlich bin froh über das was geimist bereits geleistet hat und derzeit auch noch tut. Meta-Infos, wie "wo ist das gehostet?", interessieren mich persönlich da relativ wenig sofern der Inhalt einfach nice ist.

mamema · 21. Jul 2020

DeeKay1 schrieb:
Die Google-Suche nach "synocr Github" hat als ersten Treffer das Repo.

Nunja, mir ging bzw. geht es darum die Community zu erweitern um die Hilfe für Stephan zu verbessern. Niemand der das Tool nicht kennt sucht nach "synocr". Ich hab mal nach "ocr synology nas" gesucht. Erste Treffer aus DE Platz 3, der nichts zu synocr enthält, weil im englischsprachigen Raum das Tool wohl unbekannt ist. THIS!

DeeKay1 · 21. Jul 2020

mamema schrieb:
Nunja, mir ging bzw. geht es darum die Community zu erweitern um die Hilfe für Stephan zu verbessern.

Ja, das hast du natürlich recht. Ich bin bei Community-Projekten immer ein bisschen empfindlich wenn Leute versuchen dem Hauptakteur vorzuschreiben was und wie er es tun soll. Sorry dafür.
Um die Community zu vergrößer und mitstreiter zu finden ist GitHub natürlich eine super Sache. Mal eben ein Fork, 2-3 Sachen geändert und zurück mit einem PR geht da ziemlich schnell und die meisten Devs haben da eh einen Account.

Tommes · 21. Jul 2020

Auch wenn ich diese App nicht nutze und ich hier nur sporadisch mitlese, möchte ich an dieser Stelle doch gerne kurz in die Diskussion einsteigen, denn...

geimist schrieb:
Bitte bedenkt, dass ich kein Profi bin - entsprechend viel Zeit benötige ich auch, um neue Funktionen zu implementieren. Zeit und Kraft sind nun einmal begrenzt.

.... dieser Satz könnte nämlich von mir sein. Wir - und ich sage jetzt bewusst „WIR“ - mögen zwar keine Profis sein, aber wir haben den Ehrgeiz und den Anspruch an uns selbst, es trotz alledem selber hinzubekommen, auch wenn es mal länger dauert oder man am Ende zu der Erkenntnis kommt, das es doch nicht so funktioniert, wie man es gerne hätte. Ich für meinen Teil nehme zwar gerne Hilfe an, lasse mir Codeoptimierungen zeigen oder mich auch eines besseren belehren. Aber am Ende ist und bleibt es Code den ich verstehen muss, ich muss wissen wie das Programm arbeitet und wo, was und zu welcher Zeit etwas passiert. Und genau hier würde ich mich mit Github schwer tun.

DeeKay1 schrieb:
Dennoch ist es, meiner Meinung nach, die Entscheidung desjenigen, der bereits sehr viel Arbeit reingesteckt hat, wo er sein Projekt hosten möchte.

... und da bin ich vollkommen deiner Meinung. Letzten Endes muss es Geimist selbst entscheiden. Ich sehe hier nur die Gefahr, das er diesen Schritt vielleicht tun würde um euren Anforderungen gerecht zu werden... was jetzt überhaupt nicht bös gemeint ist. Denn auf der einen Seite erhält man so vielleicht bald den Mehrwert, den sich alle hier erhoffen, auf der anderen Seite würde ich die Gefahr sehen, das Geimist über kurz oder lang den Code nicht mehr verstehen würde (Wobei ich jetzt nicht deine Kompetenz in Frage stellen wollte). Von daher tendiere ich eher dazu, lieber auf die ein oder andere Funktion zu verzichten, dafür aber auf lange Sicht noch einen tollen Support von ihm zu erhalten.

DeeKay1 schrieb:
Ich bin bei Community-Projekten immer ein bisschen empfindlich wenn Leute versuchen dem Hauptakteur vorzuschreiben was und wie er es tun soll.

Das passiert leider häufiger als du denkst und manchmal bekommt man als Developer das Gefühl, das man von seinen Prinzipien derart abweichen muss nur um es genau so zu machen, wie andere es gerne hätten. Sicherlich soll man sich und seine Programmierkünste weiter entwickeln, Ideen und Vorschläge annehmen und umsetzten, aber man muss auch realistisch bleiben...

Wir - und ich sag schon wieder „WIR“ - tun das hier nicht des Geldes wegen oder weil wir berühmt werden wollen... wir machen das, weil wir Bock drauf haben. (Bitte korrigie mich, wenn du das anders siehst, geimist)

Tommes

geimist · 22. Jul 2020

Tommes schrieb:
Wir … mögen zwar keine Profis sein, aber wir haben den Ehrgeiz und den Anspruch an uns selbst, es trotz alledem selber hinzubekommen …

Bedingt gebe ich dir recht. Die Funktion steht bei mir über dem Ehrgeiz. Aber da komme ich schon zum nächsten Punkt:

Tommes schrieb:
Ich für meinen Teil nehme zwar gerne Hilfe an, lasse mir Codeoptimierungen zeigen oder mich auch eines besseren belehren. Aber am Ende ist und bleibt es Code den ich verstehen muss, ich muss wissen wie das Programm arbeitet und wo, was und zu welcher Zeit etwas passiert. Und genau hier würde ich mich mit Github schwer tun.

Du sprichst mir aus der Seele. Da bekommt man dann ein PR und muss erst einmal lange forschen, was dadurch denn eigentlich passiert. Im schlechtesten Fall hat sich der PR-Autor darüber keine Gedanken gemacht …

Aber ich möchte noch einmal betonen, dass das ja keine Zusammenarbeit ausschließt.
Ich klammere auch nicht an dem Projekt. Wenn es jemand mit mehr Fähigkeiten und Elan schneller voranbringen möchte, lasse ich auch darüber mit mir reden und freue mich über die Ergebnisse ?

PS: @Tommes , da du schon mal da bist: wie wär's, du alter Webprofi

geimist · 22. Jul 2020

Nicky_1818 schrieb:
ist es irgendwie realisierbar, dass eine bestehende Dateien- und Ordnerstruktur abgearbeitet wird? Ich würde sehr gern in einem Rutsch sämtliche Dokumente durch den Scanner schicken wollen. Da jedoch die Ordnerstruktur ziemlich umfangreich ist und je Unterordner nur 5-10 Dokumente beinhaltet, dauert es eeeeewig die Dateien hin und her zu verschieben, bzw. für jeden Ordner die Konfiguration des Scanners anzupassen

Meine Skript-Idee für diesen Workflow habe ich mal in Code gegossen.

! ! ! BITTE ZUNÄCHST EIN BACKUP DEINES QUELLORDNERS ANLEGEN ! ! !

Dieses Skript (die 3 Ordnervariablen müssen angepasst werden)

durchsucht alle Verzeichnisse des angegebenen Ordners nach PDF-Dateien
verschiebt diese in den angegebenen synOCR-INPUT-Ordner
versieht diese mit einer ID
und erstellt eine Indexdatei

Nach dem ersten Aufruf lässt man synOCR seine Arbeit machen (ohne Umbenennungssyntax und Einsortierung in regeldefinierte Ordner, d.h. alle fertigen PDFs liegen im synOCR OUTPUT-Ordner)

Das Skript muss jetzt erneut aufgerufen werden
es erkennt die vorhandene Indexdatei
verschiebt die fertigen PDFs an ihren Urspungsort
entfernt die ID aus dem Dateinamen
und benennt die Indexdatei um

Bash:

#!/bin/bash
# /volume3/DEV/SPK_DEVELOPING/synOCR_BUILD/multidir_workflow.sh

SOURCEPARENTDIR="/volume1/…"
SYNOCR_INPUT="/volume1/…"
SYNOCR_OUTPUT="/volume1/…"

#-----------------------------------|
# ab hier nichts mehr ändern        |
#-----------------------------------|

preprocess() {
# verschiebe Quelldateien nach SYNOCR_INPUT:
    IFS=$'\012'
    for i in $(find "${SOURCEPARENTDIR}" -iname "*.pdf" -type f); do
        IFS=$OLDIFS
        FILEPATH=$(dirname "$i")
        FILENAME=$(basename "$i")
        ID="$(date +%s%N)_"
  
    # erstelle Indexeintrag:
        echo "${ID}§_§${FILEPATH}§_§${FILENAME}" >> "$INDEXFILE"
  
    # verschiebe Quelldatei:
        mv "$i" "${SYNOCR_INPUT}${ID}${FILENAME}"
    done
}

postprocess() {
# verarbeitete Dateien zurücksortieren:
    cat "$INDEXFILE" | while read data ; do
        FILEPATH=$(echo $data | awk -F'§_§' '{print $2}')
        FILENAME=$(echo $data | awk -F'§_§' '{print $3}')
        ID=$(echo $data | awk -F'§_§' '{print $1}')
      
        FILEHOME="${FILEPATH}/${FILENAME}"
        OCRFILE=$( find "${SYNOCR_OUTPUT}" -iname "${ID}*.pdf" )
        mv "$OCRFILE" "$FILEHOME"
    done
  
    mv "$INDEXFILE" "${INDEXFILE}_finish"
}

OLDIFS=$IFS

APPDIR=$(cd $(dirname $0);pwd)

if [ ! -d "$SOURCEPARENTDIR" ] || [ ! -d "$SYNOCR_INPUT" ] || [ ! -d "$SYNOCR_OUTPUT" ] ; then
    echo "Pfad ungültig!"
    exit
fi

SOURCEPARENTDIR="${SOURCEPARENTDIR%/}/"
SYNOCR_INPUT="${SYNOCR_INPUT%/}/"
SYNOCR_OUTPUT="${SYNOCR_OUTPUT%/}/"

INDEXFILE="$(cd $(dirname $0);pwd)/multidir_workflow_INDEX.txt"

if [ ! -f "$INDEXFILE" ] ; then
    touch "$INDEXFILE"
    echo "Index wird erstellt ? verschiebe Dateien in den Arbeitsordner"
    preprocess
else
    echo "Index bereits vorhanden ? sortiere verarbeitete Dateien zurück"
    postprocess
fi

synOCR synOCR - GUI für OCRmyPDF

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Kaffeautomat