Hallo Karl,
diese Antwort geht auch an die Liste.
neo-nntp schrieb am 27.03.2011 um 16:01 Uhr:
== wurde nach dem Putzen zu (es sollte werden),
Dann hätten sie auch gleich nur »==« schreiben können (was sie zum Teil
auch tun). Aber ist notiert und wird beim nächsten Durchlauf umgesetzt.
* wurde zu – (d. h. für Aufzählungen wurde ein Zeichen
eingefügt, das nicht im Original steht),
»*« ist ein Ersatzzeichen für eine Aufzählung. Das »–« wurde in der
aktuellen Version schon zu »•«
Internetadressen würde ich komplett wegputzen,
Weil sie in der Wikipedia recht häufig vorkommen, oder generell?
der gesamte Absatz == Weblinks == kann dann weg,
Mit dem Löschen von Absätzen tue ich mich etwas schwer, da der Text als
Array von Zeilen eingelesen wird und dann Zeilenweise behandelt wird.
alles was zwischen [[Kategorie: und dem nächsten ]] steht
(gefolgt von Zeilenumbruch), sollte weg.
Ist notiert.
Leider hat sich bei den Referenzen ein Fehler beim Putzen
eingeschlichen: Nicht alles, was zwischen ref und dem
nächstfolgenden /ref steht, wurde geputzt, was unbeabsichtigt
Textteile in den Text einfügt, die unten im Artikel erscheinen (aber
weg können).
Seh ich jetzt nicht. Das der Inhalt zwischen ref und /ref nicht
gelöscht wird, ist beabsichtigt. Das sind war oft Internetadressen, aber
nicht immer.
Von den Feinheiten mal abgesehen gefällt mir der geputzte Artikel
viel besser als der Leipziger Korpus. Die Zeilenumbrüche sind
korrekt, die Sätze sind vollständig - das ist eine echte Steigerung,
die eine gute Grundlage sein wird.
Danke.
Mit einem schnellen Hex-Editor (wenn ich mich richtig erinnere, war
UltraEdit unter Windows der einzige brauchbare), der Inhalte großer
Dateien gemäß Regular Expressions ersetzen kann, könnte ich
versuchen, die Ursprungsdatei für den Korpus bezüglich bestimmter
Feinheiten zu putzen, bevor er weiter geputzt wird.
Du kannst gerne weitere RegEx vorschlagen. Das Ersetzen findet aber
gleich beim Auslesen der xml statt und geht ausreichend zügig.
Ich werde meine Skripte nach dem Kommentieren zur Verfügung stellen.
Gruß Florian
signature.asc
Description: OpenPGP digital signature