Karl schrieb:
> In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und genauer 
> angesehen.
> Den so sauber geputzt zu bekommen, wie ich es für notwendig erachte, halte ich
> jetzt für noch schwieriger, als wonach es auf den ersten Blick ausschaut.
> (@Florian: Kannst Du mal die Skripte vorstellen - egal auf welchem Stand -, 
> mit
> denen Du das Putzen angegangen bist. Das könnte enorm weiter helfen
> (Brett_vorm_Kopf_hab).)
> Manche Markups kommen verschachtelt vor, manche sogar fehlerhaft, was für
> Reguläre Ausdrücke grundsätzlich schwierig ist.

Habt ihr schon mal in MediaWikis eigene regexe geguckt? Da müsste sich 
doch viel abkupfern lassen (auch wenn manches wohl in ein paar 
Extensions versteckt ist).

Gruß,
Martin

Antwort per Email an