On 12.07.2005, at 20:26, Holger Bast wrote:
Hallo!Folgende ZWEI Probleme bereiten mir seit einiger Zeit Kopfzerbrechen. Daslustige ist, sie scheinen erstmal nichts miteinander zu tun zu haben, kommen aber, so meine Erfahrung bisher, immer nur zusammen vor.---------------------------------------------------------------------- ----(1) Unter bestimmten Domains, z.B. http://www.mpi-inf.mpg.de, kommen alleHTML-Seiten ohne einige der Standard-Header zurück, insbesondere ohne * Last-Modified * ETag * Content-Length
Die Erklärung ist einfach: es handelt sich um _dynamisch generierte_ Seiten, also um Seiten die nicht so wie sie zum Client geschickt werden schon auf der Harddisk zur Verfügung stehen sondern aus versch. Quellen (DB, ...) und u.U. unter Einfluss des Users (Übergabe- Parameter in URL, ...) 'zusammengebastelt' werden.
Da bei dynamisch generierten Seiten die Infos die in den Headern stehen müssten nicht unbedingt sofort zur Verfügung stehen, fehlen eben häufig auch einfach die Header. Einerseits lassen sich teilweise wirklich keine sinnvollen Werte finden (welches Datum gibst Du in Last-Modified bei einer Seite an die in RealTime Daten aus einer DB anzeigt, z.B. Kontostand, Aktienwerte, ...), andererseits ist es häufig auch nur Unwissenheit bzw. Nachlässigkeit der Programmierer.
Daß sich bei Deinen Beispielen jeweils etwas an die URL anhängen lässt sich ebenfalls einfach erklären: wie gesagt handelt es sich um dyn. Seiten und diese akzeptieren eben i.d.R. sog. Übergabe-Parameter bzw. PathInfo-Angaben.
Achso, um auf Dein ursprüngliches Crawling-Problem zurückzukommen: damit musst Du wohl Leben. Dies verursacht auch in anderen Gebieten des Internets (Upstream-Proxies, ...) Probleme die vermeidbar wären, aber so ist es halt.
Cheers, Erik
smime.p7s
Description: S/MIME cryptographic signature
