Moin an alle,

Die Wikipedia-Liste habe ich mir angesehen.
Es sind tatsächlich viele Namen, hochdeutsche Wörter, Abkürzungen usw. 
vorhanden.
Es sind auch viele plattdeutsche Wörter enthalten, die zwar identisch sein 
sollen, aber sehr verschieden geschrieben worden sind.

Außerdem gibt es viele Konjugationen und auch Zusammensetzungen, womit wir 
wieder bei den "compounds" wären.

Ich habe die Liste mal in EXCEL übernommen, weil man dort viel sortieren und 
bearbeiten kann.
Dann habe ich folgende Einträge gelöscht:
1. doppelte Einträge
    das waren meistens Unterschiede in Gross- und Kleinbuchstaben
2. Einträge, die in der jetzigen dic-Datei von Heiko schon enthalten sind
    Das sind die, die nach Heikos Aussage (s.u.) also als "nicht falsch 
gewertet" werden.
3. Einträge mit "ausländischen" Buchstaben (wie z.B. é, è, Ø, å)
    die gibt es m. E. allesamt nicht in plattdeutsch
4. Alle Einträge mit nur einem Buchstaben
5. Alle Einträge mit nur zwei Buchstaben
    das waren Wörter wie "an", "im" usw. und damit schon vorhanden
    oder es waren Abkürzungen.
    Alles in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge 
gelöscht.
6. Nach alphabetischer Sortierung alle Wörter, die sich zu dem davor stehenden 
Wort
    in angehängtem -n, -en  oder -s unterscheiden.
    Das ist also jeweils der Plural von dem davor stehen Wort.
    Auch in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge 
gelöscht.
7. Alle Einträge mit der Endung -ung(en).
    die gibt es m. E. auch nicht in plattdeutsch.
    Wieder in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge 
gelöscht.
8. Alle Einträge, bei denen am Wortanfang eines der von Heiko definierten 
Präfixe in der aff.Datei stehen.
    Diese Wörter werden ja in der späteren Anwendung automatisch zur Prüfung 
verwendet.
    Wieder in Stichproben geprüft, d.h. eventuell habe ich nützliche Einträge 
gelöscht.
Ich bin mit den Präfixen noch nicht ganz fertig, aber jetzt hat die Liste ca. 
30.000 Einträge (also schon 8.000 weniger)

Als nächstes wären folgende Schritte möglich:
a. Hochdeutsche und ausländische Ortsnamen markieren und löschen
    Eventuell für spätere Verwendung speichern.
b. Plattdeutsche Ortsnamen markieren und verwenden.
c. Abkürzungen markieren und löschen
    Eventuell für spätere Verwendung speichern.
d. Konjugierte Wörter markieren und löschen
e. Alle Einträge, die weniger als 10 mal vorkommen löschen
    Dann würden weitere ca. 16.000 Positionen erstmal entfallen
   und wir wären etwa bei den angestrebten 20.000 Wörtern
    Eventuell für spätere Verwendung speichern.
f. und dann natürlich die Affixe dazu erarbeiten !!!

Dies alles geht natürlich nur mit Hilfe der Hilfswilligen :-)

Was ist Eure Ansicht dazu?
Beste Grüße
Jörn



-- 
Liste abmelden mit E-Mail an: nds+unsubscr...@de.libreoffice.org
Probleme? 
http://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: http://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: http://listarchives.libreoffice.org/de/nds/
Alle E-Mails an diese Liste werden unlöschbar öffentlich archiviert

Antwort per Email an