Paperless-ngx Paperless-ngx liest importiert nur die erste Seite eines mehrseitigen PDFs

smiley2203

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
19
Punkte für Reaktionen
2
Punkte
3
Hallo zusammen,

ich lese nun schon seit geraumer Zeit still im Forum mit und habe auch schon den ein oder anderen nützlichen Hinweis gefunden, bei dem ich ohne Hilfe nicht weitergekommen wäre. Vielen Dank dafür!

Ich bin vor kurzem von einer alten DS215j auf eine DS923+ umgestiegen. Die Gründe hierfür waren das Alter der DS215j, die Performance und der zukünftig erweiterte Aufgabenbereich des NAS. Angefangen habe ich mit der DS215j als reines Backupsystem für Fotos und Dateien. In der letzten Zeit kam der Wunsch nach mehr auf. In erster Linie möchte ich Paperless zur Verwaltung wichtiger (und nicht ganz so wichtiger ;)) Unterlagen verwenden. Außerdem hatte ich für die DS215j bisher kein echtes Backup Konzept. Klar die Daten waren alle noch irgendwo anders verfügbar, aber eben doch recht plan- und strukturlos. Demnächst soll die DS215j die (automatisierten) Backups der DS923+ vorhalten und ansonsten in den wohl verdienten Ruhestand gehen. Die DS923+ hat inzwischen ihr Basis Setup erhalten - Firewall, DynDNS, automatische Zertifikaterneuerung, Synology Photos und Paperless sind eingerichtet - alles mit Hilfe der Beiträge hier im Forum (y)

Nun zu meinem Problem, bei dem ich trotz Recherche nicht wirklich weiterkomme. Ich habe Paperless-ngx im Container Manager aufgesetzt und es funktioniert prinzipiell auch. Die Softwareversionen sind DSM 7.2, Paperless-ngx latest, Postgre 15 und Redis 7.2.3. Ich habe einen freigegebenen Ordner docInput ausserhalb des docker Ordners erstellt. Dokumente die ich einscanne oder manuell in dem Ordner ablege werden grundsätzlich verarbeitet. Nun ist aber das Problem, das bei mehrseitigen PDFs immer nur die erste Seite von Paperless eingelesen wird. Anschließend verschiebt Paperless das Dokument nach media/documents/originals und beschwert sich im nächsten Moment, das das PDF nicht mehr verfügbar ist (siehe Anhang). Die achivierten PDFs sind dann auch alle kleiner als die Versionen im originals Ordner.

Bei meiner Recherche bin ich auf verschiedene Fragen gestoßen zum Kombinieren mehrerer Scans in einer Datei oder zum Aufsplitten eines Scans in mehrere Dateien. Zu meinem Problem habe ich leider nicht wirklich etwas passendes gefunden. Ich vermute es ist ein einzelner Parameter, aber ich sehe den Wald vor lauter Bäumen nicht.

Hat jemand von euch eine Idee?

Grüße
smiley2203
 

Anhänge

  • paperless_log.txt
    2,3 KB · Aufrufe: 5
Zuletzt bearbeitet:

smiley2203

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
19
Punkte für Reaktionen
2
Punkte
3
Dann antworte ich mir mal selbst. Bei weiteren Tests habe ich festgestellt, das das Problem nur auftritt wenn ein mehrseitiges Dokument direkt vom Scanner in den docInput Ordner geschrieben wird. Paperless scheint dann nicht abzuwarten ob das Dokument bereits fertig erstellt wurde, sondern liest einfach das unvollständige Dokument. Wenn ich ein mehrseitiges Dokument (gerne auch das gescannte) manuell in den docInput Ordner verschiebe funktioniert alles wunderbar.

Daraus ergibt sich dann die nächste Frage: Kann ich in Paperless einstellen, das Dateien erst nach Zeit X eingelesen werden sollen? Bzw. kann ich Paperless irgendwie sagen, das es nur "fertige" Dokumente scannen soll?

Meine Notlösung wäre das Scannen in einen anderen Ordner mit anschließender Übertragung in den docInput Ordner per Script. Das möchte ich aber vermeiden. Muss doch auch so gehen.

Grüße
smiley2203

PS: Wie kann ich nachträglich das Paperless-ngx Tag für dieses Thema setzen und den Schreibfehler im Titel korrigieren? Ich sehe nur die Möglichkeit meine Beiträge zu editieren.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.073
Punkte für Reaktionen
920
Punkte
204
Hallo smiley2203, ja, dafür gibt es eine Variable in der Konfiguration:


If consumer polling is enabled, sets the delay in seconds between each check (above) paperless will do while waiting for a file to remain unmodified.​
Defaults to 5.​

Um das Tag zu setzen und den Titel zu korrigieren, melde deinen Beitrag bei den Mods.
 
  • Like
Reaktionen: smiley2203

smiley2203

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
19
Punkte für Reaktionen
2
Punkte
3
Danke Monacum,

das war der entscheidende Hinweis. Zusätzlich zum PAPERLESS_CONSUMER_POLLING_DELAY habe ich entsprechend der Doku noch PAPERLESS_CONSUMER_POLLING gesetzt (ohne wird PAPERLESS_CONSUMER_POLLING_DELAY ja ignoriert). In der Console hatte ich vor dem Setzen der neuen Variablen noch diese Meldung gesehen:

paperless-webserver-1 | [2023-11-25 13:50:30,875] [INFO] [paperless.management.consumer] Using inotify to watch directory for changes: /usr/src/paperless/consume

Ich hatte irgendwo gelesen, dass das von Synology gar nicht unterstützt wird, aber evtl. gilt das nur für ältere DSM Versionen. Jedenfalls scheint genau dieses inotify das Problem gewesen zu sein. Da es standardmäßig auf 0.5s gesetzt ist, wurden meine Scans quasi sofort eingelesen, nachdem der Scanner die erste Seite erzeugt hatte. Erst das Setzen von PAPERLESS_CONSUMER_POLLING hat das iNotify deaktivert und durch das PAPERLESS_CONSUMER_POLLING_DELAY kann der Scanner seine Arbeit jetzt abschließen bevor Paperless loslegt.

Mit diesen Settings funktioniert nun alles:

PAPERLESS_CONSUMER_POLLING=5
PAPERLESS_CONSUMER_POLLING_DELAY=30
 
  • Like
Reaktionen: Tuxnet

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.073
Punkte für Reaktionen
920
Punkte
204
Habe gerade nochmal in meiner Konfig nachgeschaut, ich habe bei mir

PAPERLESS_CONSUMER_INOTIFY_DELAY=15​

gesetzt.
 

smiley2203

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
19
Punkte für Reaktionen
2
Punkte
3
Das ist natürlich noch eleganter. Damit sollte alles wieder über iNotify laufen, was ein kontinuierliches Polling überflüssig macht. Das teste ich nochmal.
 

smiley2203

Benutzer
Mitglied seit
11. Nov 2023
Beiträge
19
Punkte für Reaktionen
2
Punkte
3
Ich wollte nochmal Feedback zu den letzten Tests geben. Mit PAPERLESS_CONSUMER_INOTIFY_DELAY läuft es bei mir inzwischen zuverlässig. PAPERLESS_CONSUMER_POLLING mit PAPERLESS_CONSUMER_POLLING_DELAY geht auch, ich bleibe aber vorerst beim iNotify.
 

-prh

Benutzer
Mitglied seit
09. Jul 2013
Beiträge
32
Punkte für Reaktionen
0
Punkte
6
Ich wollte nochmal Feedback zu den letzten Tests geben. Mit PAPERLESS_CONSUMER_INOTIFY_DELAY läuft es bei mir inzwischen zuverlässig. PAPERLESS_CONSUMER_POLLING mit PAPERLESS_CONSUMER_POLLING_DELAY geht auch, ich bleibe aber vorerst beim iNotify.
Interessant für mich, da es bei meinem Scanner ähnliche Probleme gibt.
Zum Verständnis: Du hast PAPERLESS_CONSUMER_INOTIFY_DELAY in die docker-compose.yml gesetzt oder in docker-compose.env?

Peter
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat 

 
 
  AdBlocker gefunden!

Du bist nicht hier, um Support für Adblocker zu erhalten. Dein Adblocker funktioniert bereits ;-)

Klar machen Adblocker einen guten Job, aber sie blockieren auch nützliche Funktionen.

Das Forum wird mit hohem technischen, zeitlichen und finanziellen Aufwand kostenfrei zur Verfügung gestellt. Wir zeigen keine offensive Werbung und bemühen uns um eine dezente Integration.

Bitte unterstütze dieses Forum, in dem du deinen Adblocker für diese Seite deaktivierst.

Du kannst uns auch über unseren Kaffeautomat einen Kaffe ausgeben oder ein PUR Abo abschließen und das Forum so werbefrei nutzen.

Vielen Dank für Deine Unterstützung!