Re: [Neo] Wiki-Korpus-Teststückchen

2011-03-28 Diskussionsfäden Martin Roppelt
Florian Janßen schrieb:
> Martin Roppelt schrieb am 28.03.2011 um 18:32 Uhr:
> >>> alles was zwischen "[[Kategorie:" und dem nächsten "]]" steht
> >>> (gefolgt von Zeilenumbruch), sollte weg.
> >>
> >> Ist notiert.
> > 
> > Jepp. Und Interwiki-Links auch.
> 
> Was ist das? Sowas wie #REDIRECT?

Links in der Form [[:Artikel]], z.B. [[en:Article]]. Wie ich 
aber bei nochmaliger Durchsicht feststelle, waren das, was ich 
beobachtet habe, keine Interwikilinks, sondern die Sortierschlüssel für 
die Kategorien (das was nach | steht).

Weiterleitungsseiten kannst du aber ruhig auch unter den Tisch fallen 
lassen. (Keine Ahnung was wir mit dem Weiterleitungslemma machen 
sollen.)



Re: [Neo] Wiki-Korpus-Teststückchen

2011-03-28 Diskussionsfäden Florian Janßen
Martin Roppelt schrieb am 28.03.2011 um 18:32 Uhr:
>>> Internetadressen würde ich komplett wegputzen,
>>
>> Weil sie in der Wikipedia recht häufig vorkommen, oder generell?
> 
> Weblinks sind imho wieder ein Fall für Worst-Case-Prüfen, d.h. sie 
> brauchen beim generellen Optimieren nicht berücksichtigt werden, sollten 
> aber auch nicht unmöglich zu tippen sein. (Ich weiß nicht, ob das beim 
> Optimieren was ausmacht, vielleicht kann ein anderer was dazu sagen?)

Ok, kommen komplett weg, ich habe gerade gesehen, dass die Trigramme
»htt« (№407), »ttp«, »tp:«, »://«, bis »p:/« (№414) allesamt häufiger
sind als z.B. das Trigram »Der« (№421)

>>> alles was zwischen "[[Kategorie:" und dem nächsten "]]" steht
>>> (gefolgt von Zeilenumbruch), sollte weg.
>>
>> Ist notiert.
> 
> Jepp. Und Interwiki-Links auch.

Was ist das? Sowas wie #REDIRECT?

Gruß Florian



Re: [Neo] Wiki-Korpus-Teststückchen (was: Re: Wikipedia-Korpus selbstgemacht)

2011-03-28 Diskussionsfäden Martin Roppelt
Florian Janßen schrieb:
> neo-nntp schrieb am 27.03.2011 um 16:01 Uhr:
> > "== " wurde nach dem Putzen zu " " (es sollte "" werden),
> 
> Dann hätten sie auch gleich nur »==« schreiben können (was sie zum Teil
> auch tun). Aber ist notiert und wird beim nächsten Durchlauf umgesetzt.
> 
> > "* " wurde zu "–" (d. h. für Aufzählungen wurde ein Zeichen
> > eingefügt, das nicht im Original steht),
> 
>  »*« ist ein Ersatzzeichen für eine Aufzählung. Das »–« wurde in der
> aktuellen Version schon zu »•«

Sehr gut, ist mir auch schon aufgefallen.

> > Internetadressen würde ich komplett wegputzen,
> 
> Weil sie in der Wikipedia recht häufig vorkommen, oder generell?

Weblinks sind imho wieder ein Fall für Worst-Case-Prüfen, d.h. sie 
brauchen beim generellen Optimieren nicht berücksichtigt werden, sollten 
aber auch nicht unmöglich zu tippen sein. (Ich weiß nicht, ob das beim 
Optimieren was ausmacht, vielleicht kann ein anderer was dazu sagen?)

> > der gesamte Absatz "== Weblinks ==" kann dann weg,
> 
> Mit dem Löschen von Absätzen tue ich mich etwas schwer, da der Text als
> Array von Zeilen eingelesen wird und dann Zeilenweise behandelt wird.

Wird dann auch nicht nötig sein, da die Weblinks (samt Beschreibung?) 
und eventuelle Vorlagen, die dann zu Weblinks ausgewalzt werden, sowieso 
entfernt werden. Allerdings können häufige Überschriften vielleicht 
etwas niedriger (oder gar nicht) gewichtet werden (sie kommen sonst 
evtl. zu häufig vor). (Vielleicht einfach mal Überschriften zählen …)

> > alles was zwischen "[[Kategorie:" und dem nächsten "]]" steht
> > (gefolgt von Zeilenumbruch), sollte weg.
> 
> Ist notiert.

Jepp. Und Interwiki-Links auch.

Gruß,
Martin



Re: [Neo] Wiki-Korpus-Teststückchen (was: Re: Wikipedia-Korpus selbstgemacht)

2011-03-28 Diskussionsfäden Florian Janßen
Hallo Karl,

diese Antwort geht auch an die Liste.


neo-nntp schrieb am 27.03.2011 um 16:01 Uhr:
> "== " wurde nach dem Putzen zu " " (es sollte "" werden),

Dann hätten sie auch gleich nur »==« schreiben können (was sie zum Teil
auch tun). Aber ist notiert und wird beim nächsten Durchlauf umgesetzt.

> "* " wurde zu "–" (d. h. für Aufzählungen wurde ein Zeichen
> eingefügt, das nicht im Original steht),

 »*« ist ein Ersatzzeichen für eine Aufzählung. Das »–« wurde in der
aktuellen Version schon zu »•«


> Internetadressen würde ich komplett wegputzen,

Weil sie in der Wikipedia recht häufig vorkommen, oder generell?


> der gesamte Absatz "== Weblinks ==" kann dann weg,

Mit dem Löschen von Absätzen tue ich mich etwas schwer, da der Text als
Array von Zeilen eingelesen wird und dann Zeilenweise behandelt wird.


> alles was zwischen "[[Kategorie:" und dem nächsten "]]" steht
> (gefolgt von Zeilenumbruch), sollte weg.

Ist notiert.

> Leider hat sich bei den Referenzen ein Fehler beim Putzen
> eingeschlichen: Nicht alles, was zwischen " nächstfolgenden "" steht, wurde geputzt, was unbeabsichtigt
> Textteile in den Text einfügt, die unten im Artikel erscheinen (aber
> weg können).

Seh ich jetzt nicht. Das der Inhalt zwischen  und  nicht
gelöscht wird, ist beabsichtigt. Das sind war oft Internetadressen, aber
nicht immer.

> Von den Feinheiten mal abgesehen gefällt mir der geputzte Artikel 
> viel besser als der Leipziger Korpus. Die Zeilenumbrüche sind
> korrekt, die Sätze sind vollständig - das ist eine echte Steigerung,
> die eine gute Grundlage sein wird.

Danke.


> Mit einem schnellen Hex-Editor (wenn ich mich richtig erinnere, war 
> UltraEdit unter Windows der einzige brauchbare), der Inhalte großer 
> Dateien gemäß Regular Expressions ersetzen kann, könnte ich
> versuchen, die Ursprungsdatei für den Korpus bezüglich bestimmter
> Feinheiten zu putzen, bevor er weiter geputzt wird.

Du kannst gerne weitere RegEx vorschlagen. Das Ersetzen findet aber
gleich beim Auslesen der xml statt und geht ausreichend zügig.

Ich werde meine Skripte nach dem Kommentieren zur Verfügung stellen.

Gruß Florian



signature.asc
Description: OpenPGP digital signature