Am 18.03.2011 09:24, schrieb Florian Janßen: > > Nach dem man die richigen Knoten aus dem XML geladen hat (das kann sogar > ich ;) ) können Script-Junkies bestimmt ein paar schicke Regexen drauf > loslassen (kann ich nicht). Aber das ist wahrscheinlich genau das was > Karl mit „mehr Aufwand beim Strippen der Quelltexte“ meinte. > > Gruß Florian > > Sorry, bin zur Zeit privat ziemlich offline.
Was ich meinte war, dass da die Texte *der Artikel* drin sind und man das ganze redundante Wikipedia-Bedien-Gedöns und Kommentar/Historie nicht wegschnipseln braucht. Ausserdem kann man das bequem zu Hause und offline machen, ohne mit Mechanize oder anderem Geschütz auf die Webseite selbst zu müssen. Andereseits: mit einem generischen Webscraper könnte man nicht nur WP, sondern auch andere Seiten abgrasen - je breiter und aktueller die Quellen, desto mehr Aussagekraft hat der Korpus. (das spiegel.de Archiv liefert sicher andere (ältere) Korpusse) Servus, Peter