Re: [Neo] Wiki-Korpus-Teststückchen (was: Re: Wikipedia-Korpus selbstgemacht)

2011-03-28 Diskussionsfäden Florian Janßen
Hallo Karl,

diese Antwort geht auch an die Liste.


neo-nntp schrieb am 27.03.2011 um 16:01 Uhr:
 ==  wurde nach dem Putzen zu   (es sollte  werden),

Dann hätten sie auch gleich nur »==« schreiben können (was sie zum Teil
auch tun). Aber ist notiert und wird beim nächsten Durchlauf umgesetzt.

 *  wurde zu – (d. h. für Aufzählungen wurde ein Zeichen
 eingefügt, das nicht im Original steht),

 »*« ist ein Ersatzzeichen für eine Aufzählung. Das »–« wurde in der
aktuellen Version schon zu »•«


 Internetadressen würde ich komplett wegputzen,

Weil sie in der Wikipedia recht häufig vorkommen, oder generell?


 der gesamte Absatz == Weblinks == kann dann weg,

Mit dem Löschen von Absätzen tue ich mich etwas schwer, da der Text als
Array von Zeilen eingelesen wird und dann Zeilenweise behandelt wird.


 alles was zwischen [[Kategorie: und dem nächsten ]] steht
 (gefolgt von Zeilenumbruch), sollte weg.

Ist notiert.

 Leider hat sich bei den Referenzen ein Fehler beim Putzen
 eingeschlichen: Nicht alles, was zwischen ref  und dem
 nächstfolgenden /ref steht, wurde geputzt, was unbeabsichtigt
 Textteile in den Text einfügt, die unten im Artikel erscheinen (aber
 weg können).

Seh ich jetzt nicht. Das der Inhalt zwischen ref und /ref nicht
gelöscht wird, ist beabsichtigt. Das sind war oft Internetadressen, aber
nicht immer.

 Von den Feinheiten mal abgesehen gefällt mir der geputzte Artikel 
 viel besser als der Leipziger Korpus. Die Zeilenumbrüche sind
 korrekt, die Sätze sind vollständig - das ist eine echte Steigerung,
 die eine gute Grundlage sein wird.

Danke.


 Mit einem schnellen Hex-Editor (wenn ich mich richtig erinnere, war 
 UltraEdit unter Windows der einzige brauchbare), der Inhalte großer 
 Dateien gemäß Regular Expressions ersetzen kann, könnte ich
 versuchen, die Ursprungsdatei für den Korpus bezüglich bestimmter
 Feinheiten zu putzen, bevor er weiter geputzt wird.

Du kannst gerne weitere RegEx vorschlagen. Das Ersetzen findet aber
gleich beim Auslesen der xml statt und geht ausreichend zügig.

Ich werde meine Skripte nach dem Kommentieren zur Verfügung stellen.

Gruß Florian



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wiki-Korpus-Teststückchen

2011-03-28 Diskussionsfäden Florian Janßen
Martin Roppelt schrieb am 28.03.2011 um 18:32 Uhr:
 Internetadressen würde ich komplett wegputzen,

 Weil sie in der Wikipedia recht häufig vorkommen, oder generell?
 
 Weblinks sind imho wieder ein Fall für Worst-Case-Prüfen, d.h. sie 
 brauchen beim generellen Optimieren nicht berücksichtigt werden, sollten 
 aber auch nicht unmöglich zu tippen sein. (Ich weiß nicht, ob das beim 
 Optimieren was ausmacht, vielleicht kann ein anderer was dazu sagen?)

Ok, kommen komplett weg, ich habe gerade gesehen, dass die Trigramme
»htt« (№407), »ttp«, »tp:«, »://«, bis »p:/« (№414) allesamt häufiger
sind als z.B. das Trigram »Der« (№421)

 alles was zwischen [[Kategorie: und dem nächsten ]] steht
 (gefolgt von Zeilenumbruch), sollte weg.

 Ist notiert.
 
 Jepp. Und Interwiki-Links auch.

Was ist das? Sowas wie #REDIRECT?

Gruß Florian



Re: [Neo] Wiki-Korpus-Teststückchen

2011-03-28 Diskussionsfäden Martin Roppelt
Florian Janßen schrieb:
 Martin Roppelt schrieb am 28.03.2011 um 18:32 Uhr:
  alles was zwischen [[Kategorie: und dem nächsten ]] steht
  (gefolgt von Zeilenumbruch), sollte weg.
 
  Ist notiert.
  
  Jepp. Und Interwiki-Links auch.
 
 Was ist das? Sowas wie #REDIRECT?

Links in der Form [[Sprachcode:Artikel]], z.B. [[en:Article]]. Wie ich 
aber bei nochmaliger Durchsicht feststelle, waren das, was ich 
beobachtet habe, keine Interwikilinks, sondern die Sortierschlüssel für 
die Kategorien (das was nach | steht).

Weiterleitungsseiten kannst du aber ruhig auch unter den Tisch fallen 
lassen. (Keine Ahnung was wir mit dem Weiterleitungslemma machen 
sollen.)