Am 18.03.2011 09:24, schrieb Florian Janßen:
>
> Nach dem man die richigen Knoten aus dem XML geladen hat (das kann sogar
> ich ;) ) können Script-Junkies bestimmt ein paar schicke Regexen drauf
> loslassen (kann ich nicht). Aber das ist wahrscheinlich genau das was
> Karl mit „mehr Aufwand beim Strippen der Quelltexte“ meinte.
>
> Gruß Florian
>
>
Sorry, bin zur Zeit privat ziemlich offline.

Was ich meinte war, dass da die Texte *der Artikel* drin sind und man
das ganze redundante Wikipedia-Bedien-Gedöns und Kommentar/Historie
nicht wegschnipseln braucht.
Ausserdem kann man das bequem zu Hause und offline machen, ohne mit
Mechanize oder anderem Geschütz auf die Webseite selbst zu müssen.

Andereseits: mit einem generischen Webscraper könnte man nicht nur WP,
sondern auch andere Seiten abgrasen - je breiter und aktueller die
Quellen, desto mehr Aussagekraft hat der Korpus.
(das spiegel.de Archiv liefert sicher andere (ältere) Korpusse)


Servus, Peter

Antwort per Email an