Martin Roppelt schrieb am 18.04.2011 um 01:36 Uhr: > > Habt ihr schon mal in MediaWikis eigene regexe geguckt? Da müsste sich > doch viel abkupfern lassen.
Ja, das war der einfache Teil und machte auch kaum Probleme. Dann gibt es noch HTML – vorallem auf den Seiten, die keine echten Wikiarikel sind. Danach sieht der Text wie die Druckversion eines Artikels aus. Aber danach gibt es aber vieles was typisch für Wikipedia (nicht unbedingt für Wikimedia an sich) ist, aber nichts in einem normalen Text zu suchen hat. Und das macht die meiste Arbeit. Gruß Florian
signature.asc
Description: OpenPGP digital signature