PDF-Download mit vorherigem Login auf Tageszeitung Seite

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Status
Für weitere Antworten geschlossen.

duffy6

Benutzer
Registriert
21. Juni 2009
Beiträge
68
Reaktionspunkte
0
Punkte
6
Hallo zusammen,

ich möchte den täglichen Download meiner Tageszeitung automatisieren.

Unter http://web.bnn.de muss man sich einloggen (Zu testzwecken: ID:demo PW:demo) und kann dann die tagesaktuelle Ausgabe herunterladen.

Wie könnte ich diesen Vorgang automatisieren, dass jeden Morgen um 6:00 Uhr die tagesaktzuelle Zeitung in einen Ordner auf dem NAS heruntereladen wird (Bsp: \\diskstation\downloads\epaper) ?

Könnt ihr mir da Hilfe geben?


Gruß
duffy6
 
Wie fit bist du denn im Umgang mit Konsole, Linux und scripten?
Ich kann dir hier leider keine fertige Lösung anbieten, aber mit dem Kommando 'wget' kannst du z.B. von Webseiten verlinkte Inhalte herunterladen. User und Passwort kann man über Optionen mitgeben. Zur Zeitsteuerung müßte man sich ein script basteln, daß über den cron gesteuert wird. Etwas schwierig wird vielleicht, die konkrete Datei die heruntergeladen werden soll automatisch zu identifizieren.
 
Hi!

Naja, mit Skripten hab ich`s nicht so drauf :-(
Auf der Konsole kann ich ein paar Standardbefehle...

Aber wie kann man denn mit wget Dateien runterladen, wenn man sich vorher einloggen muss?

Ich hab mir mal die Dateinamen der letzten beiden Tage angeschaut, da scheint es ein einfaches System zu geben (Datumcode):
http://web.bnn.de/edition//data/20121202/pages/121202_160_HP_001.pdf
http://web.bnn.de/edition//data/201...2120[COLOR="#FF0000"]2[/COLOR]_160_HP_001.pdf
http://web.bnn.de/edition//data/20121203/pages/121203_160_HP_001.pdf
http://web.bnn.de/edition//data/201...2120[COLOR="#FF0000"]3[/COLOR]_160_HP_001.pdf

Könnt ihr mir mal Starthilfe geben, wie ich sowas anfange?
Die zeitung erscheint übrigens Montag bis Samstag...

Danke und Gruß
duffy6
 
Die User und Passwort Option bei wget funktioniert nur bei HTTP Basic Authentication (da bekommt man normalerweise ein Pop-up im Browser) aber nicht bei der Seite http://web.bnn.de denn diese verwendet Form-Based Authentication. (die Login Daten werden per Formular übermittelt)

Du müsstest also die Login Requests (inkl. HTTP POST Daten, Cookies, Referer und wenns ganz wild wird JavaScript) mit wget nachbauen was zwar prinzipiell möglich, aber je nach Seite schon ein ziemlicher Aufwand werden kann.

Besser als wget oder curl wäre aber noch ein web scraper, kennt da evtl. jemand was fertiges für die DS?

EDIT: in einem Nachbarthread geht es um die selbe Problemstellung, da sind auch Links dabei wie so ein fertiges wget script aussehen könnte:

http://www.synology-forum.de/showth...ter-Download-von-Online-Telefonrechnungen-etc.
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat