Re: [Wikide-l] User-Agents

Christian Thiele Mon, 15 Feb 2010 18:50:28 -0800

Hi,

Am 16.02.2010, 03:41 Uhr, schrieb DaB. <[email protected]>:


> falls jemand da draußen einen Bot oder ein Tool betreibt, dass auf die
> Wikipedia (oder andere Wikimedia-Projekte) zugreift und KEINEN User-Agent
> mitsendet: Ändert das - denn seit ein paar Stunden akzeptieren die Server
> solche Requests nicht mehr.

> P.S: Ich hätte nicht gedacht, dass das überhaupt jemanden stören würde...

das betrifft vor allem diejenigen, die bestimmte einfache Download-Befehle  
ihrer Programmiersprache nutzen. Wer z.B. in PHP Wikipedia-Inhalte bisher  
mittels file_get_contents() (oder file()) geladen hat, wird damit keinen  
Erfolg mehr haben. Mein Vorschlag:

  function get_url_contents($url)
  {
   $crl = curl_init();
   curl_setopt($crl, CURLOPT_URL, $url);
   curl_setopt($crl, CURLOPT_RETURNTRANSFER, 1);
   curl_setopt($crl, CURLOPT_CONNECTTIMEOUT, 5); // 5 seconds
   curl_setopt($crl, CURLOPT_USERAGENT, "My User-Agent");
   $ret = curl_exec($crl);
   curl_close($crl);
   return $ret;
  }

Bei anderen Sprachen gibt es evtl. auch irgendwelche Befehle, die Inhalte  
laden ohne einen User-Agent zu verwenden. Also bitte eure Tools prüfen ;).

Grüße,
Christian Thiele / APPER

PS: So ganz ist mir der Sinn dieser Änderung nicht ersichtlich. Wenn  
mittels User-Agent bestimmte Crawler gesperrt werden sollen, dann nehmen  
die halt 'nen üblichen Browser-Agent und schon wars das. *hust*  
Zugangserschwerungsgesetz *hust*

_______________________________________________
WikiDE-l mailing list
[email protected]
https://lists.wikimedia.org/mailman/listinfo/wikide-l

Re: [Wikide-l] User-Agents

Antwort per Email an