Hi,
Am 16.02.2010, 03:41 Uhr, schrieb DaB. <[email protected]>:
> falls jemand da draußen einen Bot oder ein Tool betreibt, dass auf die
> Wikipedia (oder andere Wikimedia-Projekte) zugreift und KEINEN User-Agent
> mitsendet: Ändert das - denn seit ein paar Stunden akzeptieren die Server
> solche Requests nicht mehr.
> P.S: Ich hätte nicht gedacht, dass das überhaupt jemanden stören würde...
das betrifft vor allem diejenigen, die bestimmte einfache Download-Befehle
ihrer Programmiersprache nutzen. Wer z.B. in PHP Wikipedia-Inhalte bisher
mittels file_get_contents() (oder file()) geladen hat, wird damit keinen
Erfolg mehr haben. Mein Vorschlag:
function get_url_contents($url)
{
$crl = curl_init();
curl_setopt($crl, CURLOPT_URL, $url);
curl_setopt($crl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($crl, CURLOPT_CONNECTTIMEOUT, 5); // 5 seconds
curl_setopt($crl, CURLOPT_USERAGENT, "My User-Agent");
$ret = curl_exec($crl);
curl_close($crl);
return $ret;
}
Bei anderen Sprachen gibt es evtl. auch irgendwelche Befehle, die Inhalte
laden ohne einen User-Agent zu verwenden. Also bitte eure Tools prüfen ;).
Grüße,
Christian Thiele / APPER
PS: So ganz ist mir der Sinn dieser Änderung nicht ersichtlich. Wenn
mittels User-Agent bestimmte Crawler gesperrt werden sollen, dann nehmen
die halt 'nen üblichen Browser-Agent und schon wars das. *hust*
Zugangserschwerungsgesetz *hust*
_______________________________________________
WikiDE-l mailing list
[email protected]
https://lists.wikimedia.org/mailman/listinfo/wikide-l