Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

Karl Köckemann Mon, 03 May 2010 12:07:30 -0700

 Andreas Wettstein writes:

> > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
> > überarbeitet.
> 
> Über 300 MB Rohdaten, eine unglaubliche Arbeit.  Vielen Dank.


Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen
(geschätzte 7 Stunden) nicht zu Ende führen, da ich nach der längeren Pause
nicht mehr weiß, an welcher Stelle ich hätte weitermachen wollen. Es ging nur
noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in
'George W. Bush', was wahrscheinlich sowieso wenig relevant sein dürfte.

> > Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
> > gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.
> 
> Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus,
> oder hast du noch andere Quellen aufgetan?

Weitere Quellen zu verwenden, das wäre selbst mir zu viel Arbeit gewesen. ;)

Dieselbe Datei des Leipziger Korpus wurde zugrunde gelegt und überwiegend
manuell bereinigt. Dabei wurden (nach dem Entfernen der Zeilennummern) jeweils 5
Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste
deren bekannten Häufigkeit in etwa entspricht.

Zwecks Rechtschreibkorrektur wurden alle am Anfang des Rechtschreibdudens
stehenden veränderten Schreibungen im Korups überprüft und korrigiert, d. h.
alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor. Klar
konnte auch das überwiegend nur manuell geschehen.
Wegen der Dateigröße war keiner der unter Linux für solche Zwecke empfohlenen
Editoren brauchbar. Unter Windows gibt es einen Editor, der auch Reguläre
Ausdrücke bei riesigen Dateien sehr schnell und gut unterstützt. Welcher Editor
das ist, habe ich inzwischen wieder vergessen (System inzwischen komplett auf
Linux umgestellt, d. h. kein Windows mehr), jedoch ohne ihn wäre sinnvolles
Arbeiten in dem Umfang kaum möglich gewesen.

Das Ergebnis (n-Gramm-Dateien) habe ich mir bislang nicht näher angesehen,
jedoch wird das ß wegen der Neuen Rechtschreibung sicherlich weniger häufig
vorkommen (trotzdem es in Namen beibehalten wurde) und stattdessen das s
häufiger als bei allen Häufigkeitsangaben, die mir untergekommen sind.
Es könnte sein, dass wir hiermit die erste öffentlich zugängliche
Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen
Rechtschreibung basiert. :)

Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.

Mit netten Grüßen
Karl

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

Antwort per Email an