Re: [Trolug] Export einer Website mit rekursiver Auflösung von Links?

Jonas Stein Sat, 06 Oct 2018 09:23:00 -0700

> kennt jemand eine Möglichkeit, eine komplette Website incl. aller REKURSIV 
> aufgelöster Links zu exportieren / importieren?
> - 'Seite speichern unter' im FX speichert nur die aktuelle Page als HTML, 
> ohne weitere Links aufzulösen.
> - Import dieses HTML in LibreOffice klappt prima, löst die Links aber auch 
> nicht auf.
> 
> Mir geht's aktuell um diese Seite: https://www.qsl.net/dk5ke/
> Am Bildschirm lese ich nicht gerne seitenlang; bei längeren Textpassagen 
> bevorzuge ich einen (quick & dirty) Ausdruck, den ich dann offline lesen kann 
> (ich gehöre der Generation an, die noch blättern muß).


Diese Seite bittet spider in einer robots.txt, die Seite nicht zu
spiegeln. Sowas kann sehr hohe Serverlast erzeugen.

Mit --wait=1 wartest Du 1 Sekunde, um den Server nicht zu belasten
--user-agent= muss etwas sein, was kein spider ist. Siehe robots.txt

Wahrscheinlich möchtest Du noch weitere Einschränkungen, damit er nicht
so weit wandert und zu viel herunterlädt. Aber hier schonmal ein Start:

wget -e robots=off --wait=1 -rH -Dqsl.net --mirror --convert-links
--adjust-extension --page-requisites --user-agent="Mein Lieblingsbrauser
;-)" https://www.qsl.net/dk5ke/

(alles in eine Zeile)

Mehr dazu in
man wget


Viel Erfolg,

-- 
Jonas Stein

signature.asc
Description: OpenPGP digital signature

_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de

Re: [Trolug] Export einer Website mit rekursiver Auflösung von Links?

Antwort per Email an