Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr:
> Florian Janßen schrieb:
>> Karl schrieb am 25.03.2011 um 11:07 Uhr:
>>> Florian Janßen writes:
>>>
>>> Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen?
>>
>> Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine 
>> Datei je Artikel und dir ein paar schicken.
> 
> Für mich bitte auch. Ich kenne mich als Hobby-Wikipedianer ein
> bisschen damit aus (vielleicht untertrieben, weiß ich nicht ;)) und
> würde mir das Ergebnis gerne ansehen.

Irgendwelche Lieblings-Artikel? Ansonsten fische ich ein Stück aus der
Mitte.

>> Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht
>> so häufig vorhanden, wie sie sein müssten, da recht oft die
>> Ersatzzeichen benutzt wurden.
> 
> Das würde ich mir gerne auch noch einmal genauer anschauen.

„“ werden recht häufig verwendet, aber z.B. geschützte Leerzeichen oder
echte Gedankenstriche findet man kaum.


>> Außerdem sind die Sonderzeichen für html und Wikitext 
>> unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe.
> 
> Das ist doch auch gut so, schließlich wollen wir ja auf allgemeinen Text 
> und nicht auf Wiki(pedia)-Bearbeiten optimieren. 

Ja, klar, aber die allgemeinen Schreibarbeiten schließen zu einem (sehr
kleinen) Teil auch das Bearbeiten von HTML und Wikitext mit ein. Aber
ich denke mittlerweile, dass der Anteil so minimal ist, dass es
sinnvoller sein kann, diese Sonderfälle zu vernachlässigen und nur auf
Worstcase-Fälle zu prüfen.

> Ich denke, ich kann da ein bisschen was beitragen. Vielleicht hast du 
> zum Vergleich noch Dateien, einmal mit mehr und einmal mit weniger 
> MediaWiki-Syntax?

Ich habe nur ganz und garnicht.

Damit wir zu rabiates Vorgehen ausschließen können.

Ich habe beispielsweise alle Tabellen rausgeschmissen ;)

>> Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in 
>> meinem Skript[…]
> 
> Running gag ;)

?
Ich habe nach dem Abarbeiten des eingelesenen Bi- und Trigrammes eben
weiterlesen lassen, was natürlich falsch ist. Ich hätte – und tue es
auch jetzt – die Startposition um 1 erhöhen müssen um die nächsten
Zeichen einzulesen.

Gruß Florian

Attachment: signature.asc
Description: OpenPGP digital signature

Antwort per Email an