Hallo Forum,
Ich habe vorgestern paperless-ngx v2.19.6 auf meiner Synology mit Docker installiert. Hat alles prima funktioniert. 2 Test-PDFs manuell über das Web-UI hochgeladen …ok. Prima, Text gut erkannt.
Dann: ein paar Tags, Korrespondenten und Dokumententypen angelegt…. alle mit der Regel “enthält alle Wörter”.
Die 2 Dokumente, die bisher importiert waren, habe ich dann mit “Aktion - Erneut verarbeiten” nochmal verarbeiten lassen - und dann wurden auch die Tags, Korrespondenten und Dokumententypen angezeigt.
(Und ich meine, bei einem dritten Dokument hat er bei nachträglich angezeigtem Tag bei Anzeige des Dokuments sogar ein “Vorschlag: xxx” unter dem Tag-Feld angezeigt - ohne daß man nochmal neu verarbeiten muß)
So, alles gut so. Ich lege dann mehr Klassifikations-Stammdaten an (19 Tags, 19 Korrespondenten, 4 Dokumententypen) …. importiere noch 5 weitere Test-PDFs … alles prima. Alles zugewiesen.
Dann lösche dann die Testdokumente aus paperless (inkl. Papierkorb) … und lade manuell 600 PDFs übers UI hoch.
Während dem Hochladen ist mir schon aufgefallen: hm… da werden gar keine Tags, Korrespondenten, … zugewiesen… hm …. vielleicht macht er das erst am Ende, wenn die Queue alle Dokumente importiert / interpretiert hat?
Nein, hat er nicht gemacht. Keinerlei Zuweisungen nachdem alles importiert war.
Mal runter- und wieder hochgefahren … danach mal ein Dokument, bei dem in “Inhalt” ganze klar die 2 oder 3 Worte aus der Korrepsondenten-Definition vorhanden waren, mit “Aktion - Erneut verarbeiten” behandelt…. nichts. Keine Zuweisung.
In vielen anderen Dokumenten ist übrigens unter “Inhalt” klar erkennbar, daß die geforderten Worte erkannt wurden.
Und: bei diesem 600 PDF-Dateien waren auch die von den ersten Gehversuchen dabei - die er am Anfang ohne Probleme getagt hat!
Dann in Portainer auf die Konsole des PaperlessNGX-Containers … und als root ausgeführt:
document_retagger -c
Läuft ca. 1-2 Minuten …. und der Fortschrittsbalken zählt meine Dokumentenanzahl durch. Keine sonstigen Protokollausgaben. Danach: Nichts. Dokumente nach wie vor ohne Korrespondent. Das gleiche mit Option -T für “Tags” probiert … ebenfalls keine Zuweisungen.
Dann ein weiterer Test mit zusätzlicher Angabe der ‘–use-first” option…. keine Lösung des Problems.
Dann das hier:
document_retagger -c -f
”-f” ist die “Overwrite” Option.
Aha, jetzt tut sich was…. im Konsolenfenster sehe ich dieses Mal nicht nur einen Fortschrittsbalken, der meine 600 Dokumente zählt …. sondern ich bekomme alle meine 600 Dokumente aufgelistet mit mit der Meldung: ”Assigning correspondent None to ”
Ein vorher manuell im paperless-UI gesetzter Korrespondent war danach auch wieder gelöscht (im paperless log sehe ich “Updating index for document 467” - das ist genau dieses eine Dokument) - aber es wurden keine aus meinen Definitionen zugewiesen.
Es steht jetzt also fest:
Was anscheinend nicht geht: Den Text aus der Tag-/Korrespondent-Definition im “Inhalt” des Dokuments”finden” und das Tag setzen.
Beispiel für eine Korrespondenten-Definion : "Alle Wörter: landshut,84003”. Im erkannten Inhalt des Dokuments stehen sowohl “Landshut” als auch die PLZ 84003.
Ich bin ratlos…. hat jemand eine Idee, was ich falsch mache oder was “defekt” sein könnte?
Viele Grüße,
Michael
Nachtrag:
Im Log sieht man in den erfolgreichen Versuchen der ersten Tage solche Meldungen:
[2025-11-16 18:52:34,870] [DEBUG] [paperless.matching] Tag Commerzbank matched on document 2025-11-12 20251114_084210 because it contains this word: Commerzbank
Bei denn 600 Dokumenten keinerlei solche Meldungen...
Nachtrag 2:
Die Suche in den Dokumenten im paperless UI funktioniert - gebe ich da "landshut 84003" ein, findet er genau das eine Dokument ... der Volltext samt Index scheint also ok.
Nachtrag 3:
Hier noch das Log eines "Erneut verarbeiten" Vorgangs:
[2025-11-17 23:05:01,833] [INFO] [paperless.tasks] No automatic matching items, not training
[2025-11-17 23:24:30,993] [INFO] [paperless.tasks] No automatic matching items, not training
[2025-11-17 23:25:21,732] [DEBUG] [paperless.classifier] Document classification model does not exist (yet), not performing automatic matching.
[2025-11-17 23:25:21,814] [INFO] [_granian.asgi.io] ASGI transport error: SendError { .. }
[2025-11-17 23:25:21,815] [INFO] [_granian.asgi.io] ASGI transport error: SendError { .. }
[2025-11-17 23:25:30,906] [INFO] [paperless.parsing.tesseract] pdftotext exited 0
[2025-11-17 23:25:32,952] [DEBUG] [paperless.parsing.tesseract] Calling OCRmyPDF with args: {'input_file': PosixPath('/usr/src/paperless/media/documents/originals/2025/none/none/Hauptzollamt LH.pdf'), 'output_file': PosixPath('/tmp/paperless/paperless-_9s5xg3q/archive.pdf'), 'use_threads': True, 'jobs': 4, 'language': 'deu+eng', 'output_type': 'pdfa', 'progress_bar': False, 'color_conversion_strategy': 'RGB', 'skip_text': True, 'clean': True, 'deskew': True, 'rotate_pages': True, 'rotate_pages_threshold': 6.0, 'sidecar': PosixPath('/tmp/paperless/paperless-_9s5xg3q/sidecar.txt')}
[2025-11-17 23:25:39,249] [INFO] [ocrmypdf._pipelines.ocr] Start processing 2 pages concurrently
[2025-11-17 23:25:45,833] [INFO] [ocrmypdf._pipeline] page is facing ⇧, confidence 2.70 - no change
[2025-11-17 23:25:48,461] [INFO] [ocrmypdf._pipeline] page is facing ⇧, confidence 13.04 - rotation appears correct
[2025-11-17 23:26:30,183] [INFO] [ocrmypdf._pipelines.ocr] Postprocessing...
[2025-11-17 23:26:41,271] [INFO] [ocrmypdf._pipeline] Image optimization ratio: 1.50 savings: 33.5%
[2025-11-17 23:26:41,272] [INFO] [ocrmypdf._pipeline] Total file size ratio: 1.69 savings: 40.9%
[2025-11-17 23:26:41,342] [INFO] [ocrmypdf._pipelines._common] Output file is a PDF/A-2b (as expected)
[2025-11-17 23:26:43,419] [DEBUG] [paperless.parsing.tesseract] Using text from sidecar file
[2025-11-17 23:26:43,772] [DEBUG] [paperless.parsing] Execute: convert -density 300 -scale 500x5000> -alpha remove -strip -auto-orient -define pdf:use-cropbox=true /tmp/paperless/paperless-_9s5xg3q/archive.pdf[0] /tmp/paperless/paperless-_9s5xg3q/convert.webp
[2025-11-17 23:26:48,488] [INFO] [paperless.parsing] convert exited 0
[2025-11-17 23:26:49,901] [INFO] [paperless.tasks] Updating index for document 467 (9ba4e3a393c226685b5abb6b23f0abb5)
[2025-11-17 23:26:50,933] [DEBUG] [paperless.index] Index updated for document 467.
[2025-11-17 23:26:51,096] [DEBUG] [paperless.parsing.tesseract] Deleting directory /tmp/paperless/paperless-_9s5xg3q
Ich habe vorgestern paperless-ngx v2.19.6 auf meiner Synology mit Docker installiert. Hat alles prima funktioniert. 2 Test-PDFs manuell über das Web-UI hochgeladen …ok. Prima, Text gut erkannt.
Dann: ein paar Tags, Korrespondenten und Dokumententypen angelegt…. alle mit der Regel “enthält alle Wörter”.
Die 2 Dokumente, die bisher importiert waren, habe ich dann mit “Aktion - Erneut verarbeiten” nochmal verarbeiten lassen - und dann wurden auch die Tags, Korrespondenten und Dokumententypen angezeigt.
(Und ich meine, bei einem dritten Dokument hat er bei nachträglich angezeigtem Tag bei Anzeige des Dokuments sogar ein “Vorschlag: xxx” unter dem Tag-Feld angezeigt - ohne daß man nochmal neu verarbeiten muß)
So, alles gut so. Ich lege dann mehr Klassifikations-Stammdaten an (19 Tags, 19 Korrespondenten, 4 Dokumententypen) …. importiere noch 5 weitere Test-PDFs … alles prima. Alles zugewiesen.
Dann lösche dann die Testdokumente aus paperless (inkl. Papierkorb) … und lade manuell 600 PDFs übers UI hoch.
Während dem Hochladen ist mir schon aufgefallen: hm… da werden gar keine Tags, Korrespondenten, … zugewiesen… hm …. vielleicht macht er das erst am Ende, wenn die Queue alle Dokumente importiert / interpretiert hat?
Nein, hat er nicht gemacht. Keinerlei Zuweisungen nachdem alles importiert war.
Mal runter- und wieder hochgefahren … danach mal ein Dokument, bei dem in “Inhalt” ganze klar die 2 oder 3 Worte aus der Korrepsondenten-Definition vorhanden waren, mit “Aktion - Erneut verarbeiten” behandelt…. nichts. Keine Zuweisung.
In vielen anderen Dokumenten ist übrigens unter “Inhalt” klar erkennbar, daß die geforderten Worte erkannt wurden.
Und: bei diesem 600 PDF-Dateien waren auch die von den ersten Gehversuchen dabei - die er am Anfang ohne Probleme getagt hat!
Dann in Portainer auf die Konsole des PaperlessNGX-Containers … und als root ausgeführt:
document_retagger -c
Läuft ca. 1-2 Minuten …. und der Fortschrittsbalken zählt meine Dokumentenanzahl durch. Keine sonstigen Protokollausgaben. Danach: Nichts. Dokumente nach wie vor ohne Korrespondent. Das gleiche mit Option -T für “Tags” probiert … ebenfalls keine Zuweisungen.
Dann ein weiterer Test mit zusätzlicher Angabe der ‘–use-first” option…. keine Lösung des Problems.
Dann das hier:
document_retagger -c -f
”-f” ist die “Overwrite” Option.
Aha, jetzt tut sich was…. im Konsolenfenster sehe ich dieses Mal nicht nur einen Fortschrittsbalken, der meine 600 Dokumente zählt …. sondern ich bekomme alle meine 600 Dokumente aufgelistet mit mit der Meldung: ”Assigning correspondent None to ”
Ein vorher manuell im paperless-UI gesetzter Korrespondent war danach auch wieder gelöscht (im paperless log sehe ich “Updating index for document 467” - das ist genau dieses eine Dokument) - aber es wurden keine aus meinen Definitionen zugewiesen.
Es steht jetzt also fest:
- OCR erkennt den Text sauber
- In Inhalt stehen genau die Begriffe, die ich in der Tag-/Korrespondent-Definition mit Komma (ohne Leerstellen) eingegeben habe (inkl. gesetzter Option, Groß-/Kleinschreibung zu ignorieren)
- Das System kann durchaus Dokumente updaten - daran liegt es nicht.
Was anscheinend nicht geht: Den Text aus der Tag-/Korrespondent-Definition im “Inhalt” des Dokuments”finden” und das Tag setzen.
Beispiel für eine Korrespondenten-Definion : "Alle Wörter: landshut,84003”. Im erkannten Inhalt des Dokuments stehen sowohl “Landshut” als auch die PLZ 84003.
Ich bin ratlos…. hat jemand eine Idee, was ich falsch mache oder was “defekt” sein könnte?
Viele Grüße,
Michael
Nachtrag:
Im Log sieht man in den erfolgreichen Versuchen der ersten Tage solche Meldungen:
[2025-11-16 18:52:34,870] [DEBUG] [paperless.matching] Tag Commerzbank matched on document 2025-11-12 20251114_084210 because it contains this word: Commerzbank
Bei denn 600 Dokumenten keinerlei solche Meldungen...
Nachtrag 2:
Die Suche in den Dokumenten im paperless UI funktioniert - gebe ich da "landshut 84003" ein, findet er genau das eine Dokument ... der Volltext samt Index scheint also ok.
Nachtrag 3:
Hier noch das Log eines "Erneut verarbeiten" Vorgangs:
[2025-11-17 23:05:01,833] [INFO] [paperless.tasks] No automatic matching items, not training
[2025-11-17 23:24:30,993] [INFO] [paperless.tasks] No automatic matching items, not training
[2025-11-17 23:25:21,732] [DEBUG] [paperless.classifier] Document classification model does not exist (yet), not performing automatic matching.
[2025-11-17 23:25:21,814] [INFO] [_granian.asgi.io] ASGI transport error: SendError { .. }
[2025-11-17 23:25:21,815] [INFO] [_granian.asgi.io] ASGI transport error: SendError { .. }
[2025-11-17 23:25:30,906] [INFO] [paperless.parsing.tesseract] pdftotext exited 0
[2025-11-17 23:25:32,952] [DEBUG] [paperless.parsing.tesseract] Calling OCRmyPDF with args: {'input_file': PosixPath('/usr/src/paperless/media/documents/originals/2025/none/none/Hauptzollamt LH.pdf'), 'output_file': PosixPath('/tmp/paperless/paperless-_9s5xg3q/archive.pdf'), 'use_threads': True, 'jobs': 4, 'language': 'deu+eng', 'output_type': 'pdfa', 'progress_bar': False, 'color_conversion_strategy': 'RGB', 'skip_text': True, 'clean': True, 'deskew': True, 'rotate_pages': True, 'rotate_pages_threshold': 6.0, 'sidecar': PosixPath('/tmp/paperless/paperless-_9s5xg3q/sidecar.txt')}
[2025-11-17 23:25:39,249] [INFO] [ocrmypdf._pipelines.ocr] Start processing 2 pages concurrently
[2025-11-17 23:25:45,833] [INFO] [ocrmypdf._pipeline] page is facing ⇧, confidence 2.70 - no change
[2025-11-17 23:25:48,461] [INFO] [ocrmypdf._pipeline] page is facing ⇧, confidence 13.04 - rotation appears correct
[2025-11-17 23:26:30,183] [INFO] [ocrmypdf._pipelines.ocr] Postprocessing...
[2025-11-17 23:26:41,271] [INFO] [ocrmypdf._pipeline] Image optimization ratio: 1.50 savings: 33.5%
[2025-11-17 23:26:41,272] [INFO] [ocrmypdf._pipeline] Total file size ratio: 1.69 savings: 40.9%
[2025-11-17 23:26:41,342] [INFO] [ocrmypdf._pipelines._common] Output file is a PDF/A-2b (as expected)
[2025-11-17 23:26:43,419] [DEBUG] [paperless.parsing.tesseract] Using text from sidecar file
[2025-11-17 23:26:43,772] [DEBUG] [paperless.parsing] Execute: convert -density 300 -scale 500x5000> -alpha remove -strip -auto-orient -define pdf:use-cropbox=true /tmp/paperless/paperless-_9s5xg3q/archive.pdf[0] /tmp/paperless/paperless-_9s5xg3q/convert.webp
[2025-11-17 23:26:48,488] [INFO] [paperless.parsing] convert exited 0
[2025-11-17 23:26:49,901] [INFO] [paperless.tasks] Updating index for document 467 (9ba4e3a393c226685b5abb6b23f0abb5)
[2025-11-17 23:26:50,933] [DEBUG] [paperless.index] Index updated for document 467.
[2025-11-17 23:26:51,096] [DEBUG] [paperless.parsing.tesseract] Deleting directory /tmp/paperless/paperless-_9s5xg3q
Zuletzt bearbeitet:
