Kommentare aus einer PDF-Datei extrahieren

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Status
Für weitere Antworten geschlossen.

itari

Benutzer
Registriert
15. Mai 2008
Beiträge
21.900
Reaktionspunkte
14
Punkte
0
Ich suche ein Tool, das z. B. auf einer ATOM-DiskStation läuft, um gezielt die Kommentare aus PDF-Dateien zu extrahieren (als normaler Text) mit den dazugehörigen Verweisen: Also Seitenzahl/Zeilenzahl oder so ähnlich. Kann auch gerne eine PHP-Lösung sein.

Itari
 
Freeware / Open Source oder auch Kostenpflichtig?

Wenn du 650 $ ausgeben willst könnte das eine Lösung sein: http://flexpaper.devaldi.com/annotations.htm
;-)

Gruß Wessix

Ich will die PDF-Kommentar-Texte auf der DiskStation weiterverarbeiten in einem PHP-Skript ... die Lösung von flexpaper scheint ein eigenes Anmerkungsystem zu sein (also nicht auf bereits in PDF enthaltenen Kommentare zu gehen). Dennoch danke für den Hinweis.

Itari
 
Oder vielleicht auch http://www.pdflabs.com/docs/pdftk-man-page/ wobei ich mich mit dieser Thematik auch noch nicht wirklich auseinandergesetzt habe :-)
sind denn die gesuchten Texte "Metadaten"? Falls ja kann man die scheinbar mit pdftk so herausholen: http://www.lagotzki.de/pdftk/index.html#metadata

Nein sind keine Metadaten, sondern stehen im Datenstrom (oder in einer separaten Datei). Ich komme auch recht einfach an die Kommentare per 'grep' und 'sed' dran:

Rich (BBCode):
grep 'Type/Annot/Subj(Notiz)' PDFtest.pdf | sed 's|^.*Contents(\(.*\))/Type/Annot.*$|\1\n|' | sed 's|\\r|\n|'

aber ich würde gerne die Informationen: wer der Autor ist, wann sie geschrieben wurden und wo sie in der Datei stehen, auch ausgeben ... und das ist mir so händisch zu viel Puzzlearbeit, deswegen such ich ein Tool, was das entweder in PHP oder auf der Kommandozeile kann (gerne ein Skript)

Itari
 
aber Author ist doch definitiv auch in den Metadaten vorhanden. Ich versuch das mal heute abend auf meiner DS zu kompillieren und jage dann man ein pdf durch.
 
Wenn ich das richtig verstehe, geht es itari um den Author der Kommentare...
 
Ah dann machen die Metadaten wirklich keinen Sinn. Ich versuchs trotzdem mal zu kompillieren.
@itari
ev könntest du mir ja ein Testpdf schicken, welches ich dann mal an das Kommando verfüttern könnte
 
Minitest-Beispiel - geht bei mir im FF7 nicht per Plug-in, also downloaden und händisch aufrufen.

Anhang anzeigen PDFtest.pdf

Itari
 
@itari
pdftk konnte nicht wirklich viel aus den Metadaten holen. Also wirklich nicht geeignet für dein Vorhaben.
Dann habe ich dein pdf noch dem pdftohtml zum Frass vorgeworfen. Leider auch nicht wirklich ein berauschendes Resultat :-) Die Texte sehen irgendwie doppet aus (syno.brain-force.ch/itari/test.html)
 
Das Tool kann ghostscript sein. Es liefert alles was man braucht. Mit ipkg ghostscript installieren und pdf2ps <pdf-datei> aufrufen. Das Ergebnis kann mittels grep auf "%%Pages" die Seitenzahl liefern, wobei i. d. R. das letzte Auftreten von Pages relevant ist.
 
Das Tool kann ghostscript sein. Es liefert alles was man braucht. Mit ipkg ghostscript installieren und pdf2ps <pdf-datei> aufrufen. Das Ergebnis kann mittels grep auf "%%Pages" die Seitenzahl liefern, wobei i. d. R. das letzte Auftreten von Pages relevant ist.

pdf2ps aus IPKG-ghostscript mag nicht laufen.

pdftops aus IPKG-xpdf funktioniert, liefert aber keine Annotations ...

Itari

Nachtrag: pdf2ps läuft nun doch, liefert aber auch keine Annotations
 
Zuletzt bearbeitet:
@itari
hast du nicht einen debian chroot? :-)
 
hey ich suche auch eine Art converter oder tool mit den ich text aus einer PDF kriege...
bis jetzt habe ich nur http://pdftoword.pro/ gefunden
aber das vermischt meinen text irgendwie :/

kann mir da jemand helfen? danke :)
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat