Paperless-ngx Paperless NGX - Import Office Dokumente

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Die Commands waren bei Gotenberg 7.4 etwas anders. Du hast anscheinend die aktuellen drin. Aktualisiere dein Gotenberg einmal auf latest. Die Version 7.6 funktioniert nicht. Mit der aktuellen Version ist das aber kein Problem mehr. Nachdem du Änderungen an Gotenberg getätigt hast, starte auch Paperless einmal neu!
 
  • Like
Reaktionen: starmagoo

starmagoo

Benutzer
Mitglied seit
07. Apr 2022
Beiträge
31
Punkte für Reaktionen
6
Punkte
8
Das war es! Eine andere Version hätte ich auch mal selber probieren können. Es lag in der Tat an der Gotenberg Version. Habe mich hier durch Version 7.4 verrückt machen lassen und nicht mal eine andere Probiert. Danke @EDvonSchleck !

Ein Extra Netzwerk wird wie schon von mir festgestellt, nicht benötigt. Man muss die Ports noch nich mal nach außen (aus dem Container raus) öffnen.

Anbei meine YAML-Config:

version: "3.4" services: broker: image: docker.io/library/redis:7 restart: unless-stopped volumes: - /volume3/docker/paperless/redisdata:/data webserver: image: ghcr.io/paperless-ngx/paperless-ngx:latest restart: unless-stopped depends_on: - broker ports: - 8777:8000 healthcheck: test: ["CMD", "curl", "-fs", "-S", "--max-time", "2", "http://localhost:8000"] interval: 30s timeout: 10s retries: 5 volumes: - /volume3/docker/paperless/data:/usr/src/paperless/data - /volume3/docker/paperless/media:/usr/src/paperless/media - /volume3/docker/paperless/export:/usr/src/paperless/export - /volume2/DMS/paperless-upload:/usr/src/paperless/consume environment: PAPERLESS_REDIS: redis://broker:6379 USERMAP_UID: 1026 USERMAP_GID: 100 PAPERLESS_FILENAME_FORMAT: '{created_year}/{correspondent}/{created}-{added}_{title}' PAPERLESS_TIKA_ENABLED: 1 PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000/forms/libreoffice/convert# PAPERLESS_TIKA_ENDPOINT: http://tika:9998 tika: image: ghcr.io/paperless-ngx/tika container_name: prod_aw_tika-01 restart: unless-stopped gotenberg: image: gotenberg/gotenberg command: - "gotenberg" - "--chromium-disable-routes=true" container_name: prod_aw_gotenberg-01 restart: unless-stopped
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.046
Punkte für Reaktionen
899
Punkte
204
Der einzige „Fehler“, den ich immer noch sehe, ist, dass du den Healthcheck noch auf Port 8777 ändern könntest.
 

starmagoo

Benutzer
Mitglied seit
07. Apr 2022
Beiträge
31
Punkte für Reaktionen
6
Punkte
8
Moin, wenn es ein Fehler wäre, würde der Healtcheck ja nicht funktionieren. Oder? ;)
Mit dem hier angegebenen Command wird nicht der Port auf dem Docker-Host geprüft (exposed), sondern der Port im Container.
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.046
Punkte für Reaktionen
899
Punkte
204
Bin mir mittlerweile unsicher. Ich bekomme aber mit einem Healthcheck auf die externe Portnummer auch keinen Fehler.
 

starmagoo

Benutzer
Mitglied seit
07. Apr 2022
Beiträge
31
Punkte für Reaktionen
6
Punkte
8
Ja, wenn die Ports identisch sind bzw. der Command auf die externe Seite zeigt, dann passt das bei dir sicher. Da du mich auch kurz Verunsichert hast, habe ich es nachgestellt und bekomme Fehler, wenn ich mit meinem Command den externen Port prüfe.

2023-02-03_09h48_40.png

Grüße
 

Monacum

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
03. Jan 2022
Beiträge
2.046
Punkte für Reaktionen
899
Punkte
204
Nee, tut er nicht, habe den wie du angepasst. Mir ist aber nie etwas aufgefallen, weil ich irgendwann weg bin von Marius‘ Anleitung und folglich auch keinen Blick mehr in Portainer geworfen habe. Ich werde das mal anpassen bei mir 😄
 
  • Like
Reaktionen: starmagoo

Adama

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
05. Mrz 2013
Beiträge
1.978
Punkte für Reaktionen
575
Punkte
134
Der Healthcheck läuft ja intern im Container. Das ist ja ein Healthcheck von / für Docker und nicht für Paperless, um es so auszudrücken.
 
  • Like
Reaktionen: Monacum und starmagoo

Thonav

Benutzer
Sehr erfahren
Mitglied seit
16. Feb 2014
Beiträge
7.878
Punkte für Reaktionen
1.503
Punkte
274
@starmagoo könntest Du oder jemand anderes die yaml Datei hier bereitstellen? Beim Kopieren erhalte ich beim Einfügen in Portainer immer Fehlermeldungen.
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Fertige *.yml findest du direkt auf Github. Die Versionen unterscheiden sich in der verwendeten Datenbank und mit oder ohne Office. Wenn du nur Paperless ausprobieren willst, reicht SQLite vollkommen aus. Was die Performance angeht, unterscheiden die Datenbanken sich nur minimal.

Die Volumen in db (Postegres) und webserver (Paperless) musst du natürlich auf deine Ordner anpassen. Also alles, was vor dem : steht. Auch würde ich Postgres auf 15 und Redis sowie Gotenberg auf latest setzen.
 
  • Like
Reaktionen: spooner und Thonav

starmagoo

Benutzer
Mitglied seit
07. Apr 2022
Beiträge
31
Punkte für Reaktionen
6
Punkte
8
Hallo @Thonav ,

gerne gebe ich dies als yaml-File weiter. Aber wie @EDvonSchleck schreibt, das ist hochindividuell. Die klappt nicht Copy-Paste!
Ich habe knapp 1000 Dokumente und fahre mit SQLite sehr gut.

Viel Erfolg, Grüße
 

Anhänge

  • paperlessngx-sqlite-tika-gotenberg-2023-02-03-starmagoo.zip
    955 Bytes · Aufrufe: 40
  • Like
Reaktionen: spooner

Thonav

Benutzer
Sehr erfahren
Mitglied seit
16. Feb 2014
Beiträge
7.878
Punkte für Reaktionen
1.503
Punkte
274
Super - Danke Dir!
 

hannibal29

Benutzer
Mitglied seit
12. Aug 2010
Beiträge
6
Punkte für Reaktionen
0
Punkte
1
Hallo zusammen,

ich hänge auch gerade an dem Thema und drehe mich im Kreis 🤯

Grundlegendes Setup:
- Paperless-ngx mit Postgres läuft super
- nun will ich Tika und Gotenberg dazu installieren
- alles über docker-compose
- Container sind damit in einem eigenen Birgde Netzwerk
- Keine Ports aus der Bridge nach außen, außer den 8000 für Paperless
- alle Container sind untereinander über Ping erreichbar

Folgendes habe ich versucht für die Gotenberg Konfiguration:

image: gotenberg/gotenberg:7.8.0
=> 503 Server Error: Service Unavailable for url: http://gotenberg:3000/forms/libreoffice/convert#/forms/libreoffice/convert
Log im Gotenberg Container
=>"convert to PDF: lock long-running LibreOffice listener: start long-running LibreOffice listener: execute LibreOffice listener: context done: context deadline exceeded"


image: gotenberg/gotenberg:7.4.3
=> 400 Client Error: Bad Request for url: http://gotenberg:3000/forms/libreoffice/convert#/forms/libreoffice/convert
bzw.
=> 400 Client Error: Bad Request for url: http://gotenberg:3000/forms/libreoffice/convert
Log im Gotenberg Container
=> "convert PDF: convert PDF to 'PDF/A-2b' with multi PDF engines: convert PDF to 'PDF/A-2b' with PDFcpu: method not available; convert PDF to 'PDF/A-2b' with PDFtk: method not available; convert PDF to 'PDF/A-2b' with QPDF: method not available; convert PDF to 'PDF/A-2b' with unoconv: PDF format not available"

Also ich bin mit meinem Latein am Ende... Ideas welcome

Hier noch die (an manchen Stellen etwas eingekürzte) docker-compose.yml
YAML:
version: "3.8"
services:

  broker:
    container_name: paperless_redis
    image: redis:7.0.8
    restart: "no"
    volumes:
      - ./redisdata:/data

  db:
    container_name: paperless_postgres
    image: postgres:14.6
    restart: "no"
    volumes:
      - ./pgdata:/var/lib/postgresql/data
    environment:
      POSTGRES_DB: paperless
      POSTGRES_USER: paperless
      POSTGRES_PASSWORD: ...

  paperless:
    container_name: paperless
    image: ghcr.io/paperless-ngx/paperless-ngx:1.12.2
    restart: "no"
    depends_on:
      - db
      - broker
      - gotenberg
      - tika
    ports:
      - 8000:8000
    volumes:
      - ./data:/usr/src/paperless/data
      - ./media:/usr/src/paperless/media
        ...
    env_file: docker-compose.env
    environment:
      PAPERLESS_REDIS: redis://broker:6379
      PAPERLESS_DBHOST: db
      PAPERLESS_DBPASS: ...
      PAPERLESS_TIKA_ENABLED: 1
      PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000/forms/libreoffice/convert#
      PAPERLESS_TIKA_ENDPOINT: http://tika:9998

  gotenberg:
    container_name: paperless_gotenberg
    image: gotenberg/gotenberg:7.8.0 # höhere Versionen machen Probleme
    restart: "no"
    command:
      - "gotenberg"
      - "--chromium-disable-routes=true"

  tika:
    container_name: paperless_tika
    image: apache/tika:2.7.0.0
    restart: "no"
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Richte dich nach der Anleitung von Paperless. Das betrifft die Gotenberg URL, Gotenberg commands und das Tika Image. Was du noch gekürzt hast, kann noch falsch sein. Gerade Gotenberg und Tika ist ja für Office notwendig.
 

t30

Benutzer
Mitglied seit
11. Feb 2021
Beiträge
42
Punkte für Reaktionen
6
Punkte
8
Hallo,
ich hatte paperless-ngx eigentlich jetzt Monate problemlos am Laufen. Ich komme auch noch auf die Oberfläche und kann alles sortieren, anschauen und ändern.
Nur wenn ich neue Dokumente hochlade, dann läuft es bis 20% und dann steht "verarbeite" dran und es passiert nichts mehr. Nach 10-20 Minuten oder so verschwindet der Balken mit dem Hochladen/Prozentanzeige, die Datei ist nicht hochgeladen worden. Auch in der Admin Console oder im Log erscheint genau nichts. Wenn ich die Dateien manuell ins Consume Verzeichnis lege, liest er sie laut Log zwar mal ein, aber es wird nicht weiter verarbeitet (adding xyz.pdf to the task queue)
Jemand eine Idee? Alles aufgesetzt über Portainer. Ansonsten spuckt das Protokoll nur 1-2x die Minute das aus:
[2023-02-10 15:21:26,937] [DEBUG] [paperless.classifier] Gathering data from database...
[2023-02-10 15:21:31,107] [DEBUG] [paperless.tasks] Training data unchanged.

Bei den Einstellungen sind die Dokumente dann zwar in der Warteschlange... Wird aber nichts abgearbeitet... Es sind 2 einseitige PDFs, eine fast identische davon hat er vor 2 Wochen oder so noch problemlos gelesen...
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Hast du ein Image von dem Stack upgedatet? Nutzt du Watchtower? DS neu gestartet? Paperless-Container zurückgesetzt/geleert?
Etwas muss sich ja aktuell geändert haben.
 

t30

Benutzer
Mitglied seit
11. Feb 2021
Beiträge
42
Punkte für Reaktionen
6
Punkte
8
Ja ich nutze Watchtower und wie ich sehe wurden 2 Images aus dem Stack gestern geupdatet bzw. dem Datum nach "created": Redis und DB.
Gestartet habe ich zumindest alle Docker Images neu mehrmals, hat aber nichts gebracht...
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Denn liegt es eventuell an der Datenbank (DB). Welche Version war vorher installiert? Nach welcher Installationsanleitung bist du gegangen? Wie ein Datenbankupdate gemacht wird, habe ich in den Paperlessngx Thread beschrieben. Wie lautet das Image von der Datenbank mit Tag?
 

t30

Benutzer
Mitglied seit
11. Feb 2021
Beiträge
42
Punkte für Reaktionen
6
Punkte
8
Keine Ahnung welche Version davor installiert war, Installation wie bei Marius Hosting.
Tatsächlich hab ich jetzt mal die Synology neu gestartet und im Admin Panel eine Menge Tasks gelöscht, die heute gestartet wurden mit Pending... Jetzt hat er die beiden Dokumente gefressen und auch entsprechend automatisch getaggt... Soweit würde ich da erstmal nichts weiter anfassen :D
Dennoch Danke. Falls es nicht mehr gehen sollte habe ich ja immer noch das Backup meiner ganzen Synology wie auch die Option, das nochmal anders zu installieren... Portainer habe ich nur wegen Paperless drauf, Tika und Gotenberg brauche ich eigentlich gar nicht, bläht auch nur unnötig auf...
 

EDvonSchleck

Gesperrt
Mitglied seit
06. Mrz 2018
Beiträge
4.703
Punkte für Reaktionen
1.114
Punkte
214
Du kannst alles mit Watchtower updaten, bis auf ein Upgrade bei der Datenbank. In der Anleitung von Marius ist diese aber nicht auf eine Version begrenzt! Das solltest du unbedingt andern! Welchen Tag hast du bei der Datenbank?latest? Wenn ja ändere diesen bitte auf:
postgres:15. Ansonsten wird das irgendwann schiefgehen.

Wenn du die Officefunktion nicht benötigst, kannst du auch den Stack ohne Tika und Gotenberg benutzen oder deinen Stack bearbeiten und neu deployen.

Dazu musst du nur folgendes entfernen:
Code:
      - gotenberg
      - tika
      PAPERLESS_TIKA_ENABLED: 1
      PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000/forms/libreoffice/convert#
      PAPERLESS_TIKA_ENDPOINT: http://tika:9998
 
  gotenberg:
    image: gotenberg/gotenberg
    restart: always
    container_name: PaperlessNGX-GOTENBERG
    ports:
      - 3000:3000
    command:
      - "gotenberg"
      - "--chromium-disable-routes=true"
 
  tika:
    image: ghcr.io/paperless-ngx/tika
    container_name: PaperlessNGX-TIKA
    ports:
      - 9998:9998
    restart: always
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat