Andreas Wettstein writes: > > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus > > überarbeitet. > > Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank.
Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen (geschätzte 7 Stunden) nicht zu Ende führen, da ich nach der längeren Pause nicht mehr weiß, an welcher Stelle ich hätte weitermachen wollen. Es ging nur noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in 'George W. Bush', was wahrscheinlich sowieso wenig relevant sein dürfte. > > Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu > > gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus. > > Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus, > oder hast du noch andere Quellen aufgetan? Weitere Quellen zu verwenden, das wäre selbst mir zu viel Arbeit gewesen. ;) Dieselbe Datei des Leipziger Korpus wurde zugrunde gelegt und überwiegend manuell bereinigt. Dabei wurden (nach dem Entfernen der Zeilennummern) jeweils 5 Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste deren bekannten Häufigkeit in etwa entspricht. Zwecks Rechtschreibkorrektur wurden alle am Anfang des Rechtschreibdudens stehenden veränderten Schreibungen im Korups überprüft und korrigiert, d. h. alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor. Klar konnte auch das überwiegend nur manuell geschehen. Wegen der Dateigröße war keiner der unter Linux für solche Zwecke empfohlenen Editoren brauchbar. Unter Windows gibt es einen Editor, der auch Reguläre Ausdrücke bei riesigen Dateien sehr schnell und gut unterstützt. Welcher Editor das ist, habe ich inzwischen wieder vergessen (System inzwischen komplett auf Linux umgestellt, d. h. kein Windows mehr), jedoch ohne ihn wäre sinnvolles Arbeiten in dem Umfang kaum möglich gewesen. Das Ergebnis (n-Gramm-Dateien) habe ich mir bislang nicht näher angesehen, jedoch wird das ß wegen der Neuen Rechtschreibung sicherlich weniger häufig vorkommen (trotzdem es in Namen beibehalten wurde) und stattdessen das s häufiger als bei allen Häufigkeitsangaben, die mir untergekommen sind. Es könnte sein, dass wir hiermit die erste öffentlich zugängliche Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen Rechtschreibung basiert. :) Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung. Mit netten Grüßen Karl
