On 12.07.2005, at 20:26, Holger Bast wrote:


Hallo!

Folgende ZWEI Probleme bereiten mir seit einiger Zeit Kopfzerbrechen. Das
lustige ist, sie scheinen erstmal nichts miteinander zu tun zu haben,
kommen aber, so meine Erfahrung bisher, immer nur zusammen vor.

---------------------------------------------------------------------- ----

(1) Unter bestimmten Domains, z.B. http://www.mpi-inf.mpg.de, kommen alle
HTML-Seiten ohne einige der Standard-Header zurück, insbesondere ohne

      * Last-Modified
      * ETag
      * Content-Length

Die Erklärung ist einfach: es handelt sich um _dynamisch generierte_ Seiten, also um Seiten die nicht so wie sie zum Client geschickt werden schon auf der Harddisk zur Verfügung stehen sondern aus versch. Quellen (DB, ...) und u.U. unter Einfluss des Users (Übergabe- Parameter in URL, ...) 'zusammengebastelt' werden.

Da bei dynamisch generierten Seiten die Infos die in den Headern stehen müssten nicht unbedingt sofort zur Verfügung stehen, fehlen eben häufig auch einfach die Header. Einerseits lassen sich teilweise wirklich keine sinnvollen Werte finden (welches Datum gibst Du in Last-Modified bei einer Seite an die in RealTime Daten aus einer DB anzeigt, z.B. Kontostand, Aktienwerte, ...), andererseits ist es häufig auch nur Unwissenheit bzw. Nachlässigkeit der Programmierer.

Daß sich bei Deinen Beispielen jeweils etwas an die URL anhängen lässt sich ebenfalls einfach erklären: wie gesagt handelt es sich um dyn. Seiten und diese akzeptieren eben i.d.R. sog. Übergabe-Parameter bzw. PathInfo-Angaben.

Achso, um auf Dein ursprüngliches Crawling-Problem zurückzukommen: damit musst Du wohl Leben. Dies verursacht auch in anderen Gebieten des Internets (Upstream-Proxies, ...) Probleme die vermeidbar wären, aber so ist es halt.

Cheers,
Erik

Attachment: smime.p7s
Description: S/MIME cryptographic signature

Antwort per Email an