Hallo! Folgende ZWEI Probleme bereiten mir seit einiger Zeit Kopfzerbrechen. Das lustige ist, sie scheinen erstmal nichts miteinander zu tun zu haben, kommen aber, so meine Erfahrung bisher, immer nur zusammen vor.
-------------------------------------------------------------------------- (1) Unter bestimmten Domains, z.B. http://www.mpi-inf.mpg.de, kommen alle HTML-Seiten ohne einige der Standard-Header zurück, insbesondere ohne * Last-Modified * ETag * Content-Length Dasselbe auch z.B. bei http://www.uni-karsruhe.de (ich checke die Info mit wget --spider -S http://...). Bei den allermeisten Domains dagegen werden diese Header geschickt. (2) Genau bei den o.g. Domains gibt es nun auch folgendes Phänomen. Hinter jede korrekte URL, lässt sich, nach einem Slash, beliebiger Text anhängen, also z.B. http://www.mpi-inf.mpg.de/about/index.html/und/noch/irgend/was/XYZ und man bekommt trotzdem noch die eigentliche Seite, in dem Fall http://www.mpi-inf.mpg.de/about/index.html -------------------------------------------------------------------------- Beide Punkte machen Probleme beim Crawlen: (1) weil ohne das Last-Modified jeder Re-Crawl wieder alles von neuem crawlt; (2) weil der Crawler so in eine nicht leicht zu bemerkende Endlosschleife kommen kann. Bin dankbar für jeden Hinweis, was das Problem sein könnte! Holger PS: In das httpd.conf file für die www.mpi-inf.mpg.de Domain habe ich Einsicht, aber keine Ahnung was da für (1)+(2) verantwortlich sein könnte. -------------------------------------------------------------------------- Apache HTTP Server Mailing List "users-de" unsubscribe-Anfragen an [EMAIL PROTECTED] sonstige Anfragen an [EMAIL PROTECTED] --------------------------------------------------------------------------
