N'Abend, Am 2005-08-25 16:27:31, schrieb Torsten Flammiger:
> gib uns (mir) bitte ein Beispiel
Die URL ist zum beispiel:
http://www.nl.debian.org/consultants/
so, nun fetche ich diese Seite, und ich habe dann
http://www.nl.debian.org/consultants/index.html
nun spider ich die Seite nach requisiten und finde
../pics/debian_logo.png
Früher, zu zeiten von Netscape 2 oder 3 habe ich die Netscape_DDE
verwendet und der aufruf war so in etwa
command_dde("$BASEURL", "$REQUISITURL")
wobei
BASEURL = http://www.nl.debian.org/consultants/index.html
und
REQUISITURL = ../pics/debian_logo.png
Zurückgeliefert hbe ich dann
http://www.nl.debian.org/pics/debian_logo.png
bekommen. So ne Lib habe es in VisualBasic, Borland C++ und
auch ne C Bibliothek für DOS-Programmierung.
Ich habe das irgendwo in Debian bei den Devel-Paketen gesehen, nur
finde ich es nicht mehr und ich denke das es mit Perl oder Python
war. Hatte es mal von der Bash aus benutzt.
Naja, wie gesagt, ich benötige zu der BASE-URL alle REQUISITEN-URLs.
Mit einfachem spidern ist da nicht geholfen.
Ich hatte versucht das ganze mit
wget --force-html --base "$BASEURL" --input-file="$BASEURL" \
--force-directories --referer="$BASEURL" \
--user-agent="$UA" --page-requisites --prefix="$TMPDIR"
herunterzuladen, aber das hat zuviel traffic verursacht, da jedesmal
die "Seiten Requisiten" erneut heruntergeladen werden.
Nach dem 1:1 herunterladen, will ich die Dateien (Seiten Requisiten)
mit hilfe von md5sum umbenennen und in meine Datenbank-Tabelle
eintragen, also ungefähr so
$md5sum $STORAGE_PATH $DATE $ORIGIN_URL
wenn das erledigt ist, mache ich ein rewrite der HTML-Seite, so das
ich nur noch volle URLs habe die dann auf die md5-Dateien zeigen.
danach wird die HTML Seite ebenfals mit einem md5-hash abgespeichert
und in die Datenbanktabelle eingetragen.
> Torsten
Greetings
Michelle
--
Linux-User #280138 with the Linux Counter, http://counter.li.org/
Michelle Konzack Apt. 917 ICQ #328449886
50, rue de Soultz MSM LinuxMichi
0033/3/88452356 67100 Strasbourg/France IRC #Debian (irc.icq.com)
signature.pgp
Description: Digital signature

