Hallo Karl,

diese Antwort geht auch an die Liste.


neo-nntp schrieb am 27.03.2011 um 16:01 Uhr:
> "== " wurde nach dem Putzen zu " " (es sollte "" werden),

Dann hätten sie auch gleich nur »==« schreiben können (was sie zum Teil
auch tun). Aber ist notiert und wird beim nächsten Durchlauf umgesetzt.

> "* " wurde zu "–" (d. h. für Aufzählungen wurde ein Zeichen
> eingefügt, das nicht im Original steht),

 »*« ist ein Ersatzzeichen für eine Aufzählung. Das »–« wurde in der
aktuellen Version schon zu »•«


> Internetadressen würde ich komplett wegputzen,

Weil sie in der Wikipedia recht häufig vorkommen, oder generell?


> der gesamte Absatz "== Weblinks ==" kann dann weg,

Mit dem Löschen von Absätzen tue ich mich etwas schwer, da der Text als
Array von Zeilen eingelesen wird und dann Zeilenweise behandelt wird.


> alles was zwischen "[[Kategorie:" und dem nächsten "]]" steht
> (gefolgt von Zeilenumbruch), sollte weg.

Ist notiert.

> Leider hat sich bei den Referenzen ein Fehler beim Putzen
> eingeschlichen: Nicht alles, was zwischen "<ref " und dem
> nächstfolgenden "</ref>" steht, wurde geputzt, was unbeabsichtigt
> Textteile in den Text einfügt, die unten im Artikel erscheinen (aber
> weg können).

Seh ich jetzt nicht. Das der Inhalt zwischen <ref> und </ref> nicht
gelöscht wird, ist beabsichtigt. Das sind war oft Internetadressen, aber
nicht immer.

> Von den Feinheiten mal abgesehen gefällt mir der geputzte Artikel 
> viel besser als der Leipziger Korpus. Die Zeilenumbrüche sind
> korrekt, die Sätze sind vollständig - das ist eine echte Steigerung,
> die eine gute Grundlage sein wird.

Danke.


> Mit einem schnellen Hex-Editor (wenn ich mich richtig erinnere, war 
> UltraEdit unter Windows der einzige brauchbare), der Inhalte großer 
> Dateien gemäß Regular Expressions ersetzen kann, könnte ich
> versuchen, die Ursprungsdatei für den Korpus bezüglich bestimmter
> Feinheiten zu putzen, bevor er weiter geputzt wird.

Du kannst gerne weitere RegEx vorschlagen. Das Ersetzen findet aber
gleich beim Auslesen der xml statt und geht ausreichend zügig.

Ich werde meine Skripte nach dem Kommentieren zur Verfügung stellen.

Gruß Florian

Attachment: signature.asc
Description: OpenPGP digital signature

Antwort per Email an