Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Martin Roppelt
Karl Köckemann schrieb:
 Dennis Heidsiek writes:
  Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
   Heruntergeladen werden kann er mit dem Verweis:
   http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
  Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN 
  schieben.
 ja, damit bin ich einverstanden. SimpleUpload wird die Datei ohnehin 
 irgendwann
 löschen.

Wird die Datei bald ins SVN kopiert (100MB ist eigentlich ganz schön 
viel)? Kann ich sie anders bekommen? Bei simpleupload bekomme ich 
nämlich nur eine ein paar KB große Datei.

Und noch ne Frage: Sind in den n-Grammen auch Zeilenumbrüche/Enter 
dabei? Wie sind die gestaltet?

Gruß,
 Martin



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Martin Roppelt ſchrieb am 06.05.2010 17:28 Uhr:

Wird die Datei bald ins SVN kopiert



Kann ich machen! Bisher habe ich nur die n-Gramme hochgeladen:
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl


(100MB ist eigentlich ganz schön viel)?


Genau deshalb habe ich bislang gezögert … mein lokaler Checkout des 
Neo-SVN (mitsamt den ganzen .svn-Dateien) kommt insgesamt auf 77,8 MB, 
da schienen mir 100 MB (als .tar.bz2) bzw. MB (entpackt) doch etwas sehr 
groß zu sein … ich habe schlichtweg Angst, damit das SVN zu 
zerschiessen. Ganz zu schweigen davon, dass der lokale Checkout dann bis 
auf MB anschwellen würde.


Kennt sich da jemand etwas genauer mit SVN aus?


Kann ich sie anders bekommen?


Hm, vielleicht könnten wir Ben fragen, ob wir die Datei ausserhalb des 
SVNs über HTML zugänglich machen könnten? Hat jemand bessere Ideen?



Bei simpleupload bekomme ich nämlich nur eine ein paar KB große Datei.
   


Also die Datei konnte ich dort problemlos mit Chrome herunterladen.


Und noch ne Frage: Sind in den n-Grammen auch Zeilenumbrüche/Enter dabei? Wie 
sind die gestaltet?
   


Ich kopiere Dir einfach mal den Anfang der Datei ans Ende dieser Mail.

Karl Köckemann ſchrieb am 03.05.2010 20:40 Uhr:

  weil unbekannt ist, wie lange freenet.de meine Homepage noch nicht löscht 
(freenet.de hat den Dienst inzwischen eingestellt).
   


Das wusste ich gar nicht! Ich hatte nur mitbekommen, dass mit GeoCities 
ein anderer ›klassischer‹ Free-Home//page-Hoster seinen Dienst 
eingestellt hat … so langsam sterben die Dinosaurier aus ;).



Viele Grüße,
Dennis-ſ


Start
Stanczyk nannte es beunruhigend, dass die Bundesregierung in dieser 
Frage bislang nicht einmal informell Kontakt zur polnischen Regierung 
gesucht habe.
Die Preise für ein Einzelzimmer liegen hier zwischen 129 und 149 Euro. 
Leder: Vielleicht ringt Normann nur um Anerkennung. Hilfen und 
Fördermaßnahmen: Der Senat will ab 2002 die Wirtschafts- und 
Beschäftigungsförderprogramme straffen, die Arbeit der Sozialämter 
reformieren, die Heimunterbringung von Kindern und Jugendlichen neu 
ordnen und die Krankenhilfe eindämmen. Möglicherweise werden aus 
Benutzern Kunden, sobald sie für die Inanspruchnahme der Bibliothek 
bezahlen müssen. Das können die Fachleute beraten.
Der Auftakt zur Münchner Flutlichtsaison der Traber aber findet - keine 
Regel ohne Ausnahme - nicht am Dienstag, sondern am heutigen Donnerstag 
(18.30 Uhr) statt. Das Publikum genoss die Lesung sichtlich und vor dem 
Heimweg wappneten sich die meisten am Bücherstand mit Mehr Hirn. Zur 
Beteiligung an Babcock sagte Lederer, solange die Umstrukturierung 
dauere müsse Preussag mit im Boot bleiben. Rose sei Realist, einer, der 
erst denkt und dann handelt. Der fährt nach einer nicht ganz präzisen 
Telefonauskunft erst einmal zum Haupttor, um sich zu erkundigen. und als 
er an der um die Ecke gelegenen Feuerwehrzufahrt eintrifft, ist der 
Panzer weg.
Ich liege im Bett, im Krankenhaus, träume tief und dunkel. Mit den drei 
afrikanischen Mitgliedern Angola, Kamerun und Guinea bemühten sie sich 
um einen Kompromiss. Das Verteidigungsministerium in Washington 
bezeichnete den Absturz als Unfall und leitete eine Untersuchung ein. 
Dann wären die Freisprüche auf der Landgerichtsebene rechtskräftig. Nato 
und Russland sind seit Mai über den Nato- Russland-Rat enger als zuvor 
aneinander gebunden.
Das von Seoul finanzierte Projekt ist in der Anfangsphase. Auf dem Bus 
steht in kursiven Lettern: Die Wölfe kommen. Wasserski: Junge Leser 
konnten kostenlos am Neuländer See üben. So weit denke ich allerdings 
noch nicht, versicherte Ribbeck gestern, wichtig ist jetzt, die Fehler 
aus dem Spiel gegen Holland auszumerzen.
Und genauso wenig lässt sich anhand mathematischer Formeln berechnen, 
warum Streitkräfte gerade diese, jene und noch eine weitere Art von 
Waffen und in welcher Zahl zur Beherrschung und Abwehr schwer genau 
kalkulierbarer Risiken benötigt. Der Junge und ein Freund suchten in dem 
Wrack vermutlich nach dem Flugrekorder, für den ein Finderlohn von rund 
2 800 Euro ausgesetzt war. Ab April sollen zusätzlich 1,2 Millionen 
Briefe auf der Straße transportiert werden. Am anderen Ende des Tunnels, 
am Gleisdamm reiht er sich unter Obdachlosen ein. Bei den 
Landesmannschaftsmeisterschaften in Nordenham feierten die Turner des 
TSV Buchholz 08 zwei Siege.

und so weiter und so fort …



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Peter Fischer

Hallo!



(100MB ist eigentlich ganz schön viel)?


Genau deshalb habe ich bislang gezögert …

Vernünftig!
ich habe schlichtweg Angst, damit das SVN zu zerschiessen. Ganz zu 
schweigen davon, dass der lokale Checkout dann bis auf MB anschwellen 
würde.


Kennt sich da jemand etwas genauer mit SVN aus?


Bei uns in der alten Firma hat mal einer versehentlich DB-Dumps 
eingecheckt... Allerdings benutzen wir das Backend FSFS und nicht die 
Berkeley-DB!


Der Herr über das SVN soll diese bitte in einem readonly Verzeichnis 
auf dem Webserver ablegen (mit Checksumme), und aus dem SVN soll darauf 
verwiesen werden. So oft wird sich an diesen Dateien ja nichts ändern 
und ein SCM ist für kleine Dateien, an welchen sich oft etwas ändert.


Peter




Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Peter Fischer ſchrieb am 06.05.2010 17:57 Uhr:
Der Herr über das SVN soll diese bitte in einem readonly Verzeichnis 
auf dem Webserver ablegen (mit Checksumme),


Ja, ich glaube, das wäre die beste Möglichkeit. @Martin: Kannst Du eben 
eine entsprechende Mail an Ben schreiben oder soll ich das machen?



Viele Grüße,
Dennis-ſ


PS: Hier ist nochmal der derzeitige Download-Link:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Lucky
Bis dahin kann über 

http://zankt.net/~lucky/data/ikmam/sentences.mod.txt.zip

darauf zugegriffen werden. 

Gruß
Lucky


signature.asc
Description: Digital signature


Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr:

P. S. @Dennis:
Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN:
   


Seit eben sind sie es:
http://wiki.neo-layout.org/browser/statistik/Leipzig
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl


Viele Grüße,
Dennis-ſ



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Karl Köckemann
Dennis Heidsiek writes:

 Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr:
  P. S. @Dennis:
  Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN:
 
 
 Seit eben sind sie es:
 http://wiki.neo-layout.org/browser/statistik/Leipzig
 http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl

Vielen Dank, Dennis!

Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis
interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind.

Als Verweis kommen z. B. in Frage:

http://permalink.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602

http://lists.neo-layout.org/pipermail/diskussion/2009-December/015238.html

Was meinst Du, Dennis, wäre das sinnvoll?

Mit netten Grüßen
Karl




Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek

Hallo Karl,


Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr:

Vielen Dank, Dennis!
   


Gern geschehen, ich war eh’ gerade am comiten :).

Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis 
interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind.
   


Hm … ich fände es noch besser, die Benennungen/Formate der beiden 
Korpusse zu vereinheitlichen und die Dokumentation/Tools dafür dann in 
eine gemeinsame SVN/statistik/README unterzubringen. Ich werd’ im Laufe 
des Abends mal schauen …



Als Verweis kommen z. B. in Frage:
   


Danke für die Links!


Viele Grüße,
Dennis-ſ



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Dennis Heidsiek ſchrieb am 06.05.2010 19:31 Uhr:

Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr:
Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein 
Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt 
worden sind.


Hm … ich fände es noch besser, die Benennungen/Formate der beiden 
Korpusse zu vereinheitlichen und die Dokumentation/Tools dafür dann in 
eine gemeinsame SVN/statistik/README unterzubringen.


Äußerst rudimentär, aber besser als nichts: 
http://wiki.neo-layout.org/browser/statistik


Wem’s nicht gefällt, kann’s ja verbessern o:-).


Viele Grüße,
Dennis-ſ




Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-04 Diskussionsfäden Arne Babenhauserheide
Hi Karl, 

Am Sonntag, 2. Mai 2010, 23:31:30 schrieb Karl Köckemann:
 im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
 überarbeitet.

Wahnsinn! Danke! 

 Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
 andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.

Dafür hier erstmal die alte Ausgabe der Kostenberechnung für Neo, danach dann 
die mit neuem Korpus. 

-- Alter Korpus --

# 2.213623939 billion total penalty compared to notime-noeffort
# 4.00175962322 mean key position cost in file 1gramme.txt
# 4.8219113 % finger repeats in file 2gramme.txt
# 4.56473130298 million keystrokes disbalance of the fingers
# 0.307224610884 % finger repeats top to bottom or vice versa
# 4.70844781487 % of trigrams have no handswitching (uppercase ignored)
# 0.202640267 billion rows² to cross while on the same hand
# 0.0128785781832 hand disbalance. Left: 0.487121421817 %, Right: 
0.512878578183 %

-- Neuer Korpus --

# 2.2073746374 billion total penalty compared to notime-noeffort
# 4.01389863586 mean key position cost in file 1gramme.txt
# 4.79333259039 % finger repeats in file 2gramme.txt
# 4.60589838178 million keystrokes disbalance of the fingers
# 0.308294351576 % finger repeats top to bottom or vice versa
# 4.75874466019 % of trigrams have no handswitching (uppercase ignored)
# 0.200928645 billion rows² to cross while on the same hand
# 0.0130778084025 hand disbalance. Left: 0.486922191598 %, Right: 
0.513077808402 %

Die Kostenberechnung ist die Grundlage der Optimierung und jede Veränderung 
des total penalty um mehr als 0.002 kann schon zwischen Layouts entscheiden. 
Da hier schon bei Neo 0.005 Unterschied sind (aber die Optimierung vermutlich 
noch viel stärkere Unterschiede bewirken kann) denke ich, dass der Korpus 
deutlich verändert, was als Ergebnis rauskommt. 

Um sicher zu gehen, müsste ich aber meinen Optimierer ein paar 10.000 Schritt-
Layouts rechnen lassen, und anders als bei dem verdammt schnellen Optimierer 
von Andreas dauert das bei mir ein paar Stunden je Layout, deswegen habe ich 
es noch etwas zurückgestellt…

Deine neuen Dateien sind aber ab jetzt die neue Arbeitsbasis meines 
Optimierers. 

Liebe Grüße, 
Arne

PS: 
 Heruntergeladen werden kann er mit dem Verweis:
 http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

Gah, downloadbeschränkung getroffen…


signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-04 Diskussionsfäden wettstein509
 *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen 
 Kriterien?

Entschuldige, «speziell» war nicht das rechte Wort.  Ich bin einfach
nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
drehe ab und an den Kriterien.  In zwei Wochen käme wahrscheinlich ein
anderes Optimum raus, das ist, was ich sagen wollte.

 Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen
 Gebieten für unsere Zwecke aufzubereiten.

Vielleicht.  Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus
einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer
Rechtschreibung).  In dem kommt dann zum Beispiel, im Gegensatz zum
Leipziger Korpus, das Komma häufiger vor als der Punkt.  Aber alles in
allem sind die Auswirkungen auf das Ergebnis moderat.

Wenn man einen sehr kleinen Korpus mit einem sehr grossen mischt und so
gewichtet, dass beide ungefähr gleich in die Optimierung eingehen,
bestimmt der kleine Korpus leider den statistischen Fehler.  Es dürfte
schwer sein, Korpusse aus anderen Gebieten zu finden, die so gross wie
der Leipziger Korpus sind (von jemandem, der sie entrümpelt, ganz zu
schweigen).

Im übrigen würde ich sowieso nach einem 1:1 gemischt deutsch-englischen
Korpus optimieren.  Das entspricht viel mehr meinen Anforderungen, und
da bin ich sicher nicht alleine.

Andreas



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-04 Diskussionsfäden Arne Babenhauserheide
wettstein...@solnet.ch wrote:

 *neugierig* Um was ging es bei den gerade im Sourcecode stehenden
 speziellen Kriterien?
 
 Entschuldige, «speziell» war nicht das rechte Wort.  Ich bin einfach
 nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
 drehe ab und an den Kriterien.  In zwei Wochen käme wahrscheinlich ein
 anderes Optimum raus, das ist, was ich sagen wollte.

Dafür hast du im Gegensatz zu mir bereits eine Korrekte Behandlung von 
Großbuchstaben drin. 

 Also sollte es zudem darauf hinaus laufen, weitere Korpora aus
 verschiedenen Gebieten für unsere Zwecke aufzubereiten.

 Vielleicht.  Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus
 einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer
 Rechtschreibung).  In dem kommt dann zum Beispiel, im Gegensatz zum
 Leipziger Korpus, das Komma häufiger vor als der Punkt.  Aber alles in
 allem sind die Auswirkungen auf das Ergebnis moderat.

Vielleicht können wir ja einen von Google bekommen. Die haben riesige 
Textkorpi (ich habe letztens einen Techtalk von ihnen gesehen, in dem sie 
ein Googler erzählt hat, dass sie die Rechnungen zu Wortstatistiken auf 
Clustern machen). 

Liebe Grüße, 
Arne



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Karl Köckemann
Christian Kluge:

 Karl Köckemann schrieb am 02.05.2010 23:31:
  2gramme.mod.txt
  3gramme.mod.txt
  2grammetab.tab.mod.txt
  3grammetab.tab.mod.txt
 
 Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden
 auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nicht, dass
 dies Absicht war, oder?

Doch, das ist beabsichtigt. Die Bi- und Trigramme enthalten alle im Korpus
vorkommenden Zeichen, also auch das Leerzeichen.

Bei den Dateien, in deren Dateiname 'tab' vorkommt, sind die einzelnen Zeichen
jedes Bi- bzw. Trigramms nicht zusammengeschrieben, sondern mit je einem Tabstop
voneinander getrennt. Die Dateien erleichtern das Einlesen in und Arbeiten mit
Tabellenkalkulationsprogrammen erheblich.

Mit netten Grüßen
Karl





Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Dennis Heidsiek

Moin Karl,


Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:

im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus 
überarbeitet.
   


Sehr schön, danke dafür!


Heruntergeladen werden kann er mit dem Verweis:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
   
Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN 
schieben.



Viele Grüße,
Dennis




Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden wettstein509
Hallo Karl,

 im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
 überarbeitet.

Über 300 MB Rohdaten, eine unglaubliche Arbeit.  Vielen Dank.

 Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
 gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.

Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus,
oder hast du noch andere Quellen aufgetan?

Andreas



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Karl Köckemann
Dennis Heidsiek writes:

 
 Moin Karl,
 
 Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
  im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
 
  Heruntergeladen werden kann er mit dem Verweis:
  http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
 
 Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN 
 schieben.

Hi Dennis,

ja, damit bin ich einverstanden. SimpleUpload wird die Datei ohnehin irgendwann
löschen.

In dem Zusammenhang wäre es sinnvoll, die anderen 13 kleineren Dateien mit den
n-Grammen ebenfalls ins Neo-SVN zu stellen, weil unbekannt ist, wie lange
freenet.de meine Homepage noch nicht löscht (freenet.de hat den Dienst
inzwischen eingestellt).

Mit netten Grüßen
Karl




Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Karl Köckemann
 Andreas Wettstein writes:

  im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
  überarbeitet.
 
 Über 300 MB Rohdaten, eine unglaubliche Arbeit.  Vielen Dank.

Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen
(geschätzte 7 Stunden) nicht zu Ende führen, da ich nach der längeren Pause
nicht mehr weiß, an welcher Stelle ich hätte weitermachen wollen. Es ging nur
noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in
'George W. Bush', was wahrscheinlich sowieso wenig relevant sein dürfte.

  Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
  gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.
 
 Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus,
 oder hast du noch andere Quellen aufgetan?

Weitere Quellen zu verwenden, das wäre selbst mir zu viel Arbeit gewesen. ;)

Dieselbe Datei des Leipziger Korpus wurde zugrunde gelegt und überwiegend
manuell bereinigt. Dabei wurden (nach dem Entfernen der Zeilennummern) jeweils 5
Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste
deren bekannten Häufigkeit in etwa entspricht.

Zwecks Rechtschreibkorrektur wurden alle am Anfang des Rechtschreibdudens
stehenden veränderten Schreibungen im Korups überprüft und korrigiert, d. h.
alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor. Klar
konnte auch das überwiegend nur manuell geschehen.
Wegen der Dateigröße war keiner der unter Linux für solche Zwecke empfohlenen
Editoren brauchbar. Unter Windows gibt es einen Editor, der auch Reguläre
Ausdrücke bei riesigen Dateien sehr schnell und gut unterstützt. Welcher Editor
das ist, habe ich inzwischen wieder vergessen (System inzwischen komplett auf
Linux umgestellt, d. h. kein Windows mehr), jedoch ohne ihn wäre sinnvolles
Arbeiten in dem Umfang kaum möglich gewesen.

Das Ergebnis (n-Gramm-Dateien) habe ich mir bislang nicht näher angesehen,
jedoch wird das ß wegen der Neuen Rechtschreibung sicherlich weniger häufig
vorkommen (trotzdem es in Namen beibehalten wurde) und stattdessen das s
häufiger als bei allen Häufigkeitsangaben, die mir untergekommen sind.
Es könnte sein, dass wir hiermit die erste öffentlich zugängliche
Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen
Rechtschreibung basiert. :)

Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.

Mit netten Grüßen
Karl




Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden wettstein509
 Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
 andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.

Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen
lassen.  Mit einem Teil (ca 100k Zeilen) des alten Korpus (zuerst
Korpusstatistik, dann die beste gefundene Tastatur):

aA  5.296/0.474   bB  1.582/0.447   cC  2.582/0.112   dD  4.135/0.558
eE 15.535/0.345   fF  1.415/0.295   gG  2.661/0.300   hH  3.957/0.225
iI  7.505/0.189   jJ  0.122/0.148   kK  1.146/0.320   lL  3.484/0.192
mM  2.247/0.419   nN  9.546/0.166   oO  2.580/0.084   pP  0.691/0.312
qQ  0.014/0.012   rR  7.229/0.226   sS  5.500/0.662   tT  5.963/0.227
uU  3.462/0.176   vV  0.688/0.228   wW  1.107/0.288   xX  0.052/0.002
yY  0.101/0.006   zZ  1.070/0.140   äÄ  0.566/0.008   öÖ  0.247/0.010
üÜ  0.647/0.017   ..  1.106/0.000   ,,  0.951/0.000   ßß  0.230/0.000
   15.582/0.000

Großbuchstaben:6.585 %
Mehrfachanschläge: 1.680 %

   234.164 Gesamtaufwand 195.430 Lageaufwand   links rechts
 0.857 Kollisionen 4.438 Shift-Kollisionen ob  5.3 14.6
jäo.ü khclfv68.646 Handwechsel25.610 Shift-Handwechsel mi 39.2 31.2
teaiu gdnrsß18.230 Einwärts   67.967 Shift-Einwärtsun  6.3 10.0
xqö,y bpmwz  9.979 Auswärts1.984 Shift-Auswärts   sum 50.7 55.9
   Finger 11.4 16.5  8.7 14.2 | 16.3 15.1 12.5 11.9 Shift  4.9  1.7


Mit dem neuen:

aA  5.299/0.461   bB  1.583/0.437   cC  2.591/0.098   dD  4.146/0.527
eE 15.565/0.346   fF  1.425/0.286   gG  2.663/0.287   hH  3.967/0.221
iI  7.509/0.181   jJ  0.121/0.148   kK  1.136/0.315   lL  3.489/0.184
mM  2.245/0.397   nN  9.543/0.158   oO  2.598/0.081   pP  0.691/0.301
qQ  0.014/0.012   rR  7.253/0.218   sS  5.645/0.636   tT  5.992/0.216
uU  3.480/0.152   vV  0.689/0.220   wW  1.114/0.282   xX  0.052/0.002
yY  0.100/0.006   zZ  1.072/0.136   äÄ  0.566/0.008   öÖ  0.249/0.009
üÜ  0.642/0.017   ..  1.104/0.000   ,,  0.954/0.000   ßß  0.155/0.000
   16.427/0.000

Großbuchstaben:6.344 %
Mehrfachanschläge: 1.713 %

   231.510 Gesamtaufwand 193.461 Lageaufwand   links rechts
 0.832 Kollisionen 4.225 Shift-Kollisionen ob  5.3 14.6
jäo.ü khclfv68.637 Handwechsel24.270 Shift-Handwechsel mi 39.2 31.2
teaiu gdnrsß18.207 Einwärts   70.448 Shift-Einwärtsun  6.1  9.9
xqö,y bpmwz  9.958 Auswärts1.057 Shift-Auswärts   sum 50.6 55.8
   Finger 11.2 16.5  8.7 14.1 | 16.3 15.0 12.5 11.9 Shift  4.7  1.6


Für die speziellen Kriterien die gerade in meinem Sourcecode stehen
kommt also dieselbe Tastatur raus.  Das sollte uns nicht enttäuschen, im
Gegenteil: Wir sehen, dass nicht jede kleine Variation am Korpus
unbedingt das Optimum ändert.

Ausserdem ist die Punktzahl mit beiden Korpussen verschieden, und zwar
mehr als man durch blosse statistische Variationen erwarten würde.  Mit
anderen Kriterien könnte das Optimum für die beiden Korpusse durchaus
verschieden sein.

Andreas



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-02 Diskussionsfäden Karl Köckemann
Hallo,

im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Hauptsächlich wurden folgende Punkte umgesetzt:
- Umstellung auf die Neue Rechtschreibung,
- Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
- Korrektur vieler Rechtschreibfehler.

Jedoch auch sehr viele andere Feinheiten wurden berücksichtigt.
Trotzdem die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden
konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.
Daher seien die Ergebnisse nun hier vorgestellt.

Zunächst der überarbeitete Textkörper:
sentences.mod.txt

Heruntergeladen werden kann er mit dem Verweis:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

Die daraus entstandenen n-Gramm-Dateien:
1gramme.mod.txt
2gramme.mod.txt
3gramme.mod.txt
1gramme.tab.mod.txt
2grammetab.tab.mod.txt
3grammetab.tab.mod.txt

können mit den Verweisen heruntergeladen werden:
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.tab.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2grammetab.tab.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3grammetab.tab.mod.txt

In den ersten drei Dateien sind die einzelnen n-Gramm-Zeichen
zusammengeschrieben, in den letzten drei Dateien mit 'tab' im Dateinamen sind
die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in
Tabellenkalkulationsprogrammen eingelesen werden können.

Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.

Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.

Mit schönen Grüßen
Karl




Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-12 Diskussionsfäden Arne Babenhauserheide
Peter Bartosch wrote:

 Arne Babenhauserheide wrote:
 Christian Kluge wrote:
 Oder auch die WTFPL¹
 Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
 domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.

 Nein, da es im deutschen Recht kein public domain gibt - man kann sein
 Urheber Recht nicht abtreten!

Ach verdammt, stimmt. 

Dann wohl creativecommons Zero: 

- http://creativecommons.org/publicdomain/zero/1.0/deed.de

Schöner finde ich allerdings „mit Namensnennung”: 

- http://creativecommons.org/licenses/by/3.0/deed.de

(ich bin ansonsten Anhänger starker Copyleftlizenzen, aber die hier erlaubt 
effektiv alles, solange gesagt wird wer der Urheber ist). 

Liebe Grüße, 
Arne



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-03 Diskussionsfäden Peter Bartosch

Arne Babenhauserheide wrote:

Christian Kluge wrote:

  

Dennis Heidsiek schrieb am 02.02.2010 09:21:



Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
Erschaffer auch einfach auf die Bierlizenz verweisen ;).

  

Oder auch die WTFPL¹



Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public domain) 
veröffentlicht. Dann braucht er keine Lizenzen zu verlinken. 

  
Nein, da es im deutschen Recht kein public domain gibt - man kann sein 
Urheber Recht nicht abtreten!


(nicht zu verwechseln mit Leistungsschutz-Rechten, die Verkauft werden 
dürfen - Siehe Musikindustrie)



Gruß,
Peter





Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-03 Diskussionsfäden Arne Babenhauserheide
Peter Bartosch wrote:

 Arne Babenhauserheide wrote:
 Christian Kluge wrote:
 Oder auch die WTFPL¹
 Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
 domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.

 Nein, da es im deutschen Recht kein public domain gibt - man kann sein
 Urheber Recht nicht abtreten!

Ach verdammt, stimmt. 

Dann wohl creativecommons Zero: 

- http://creativecommons.org/publicdomain/zero/1.0/deed.de

Schöner finde ich allerdings „mit Namensnennung”: 

- http://creativecommons.org/licenses/by/3.0/deed.de

(ich bin ansonsten Anhänger starker Copyleftlizenzen, aber die hier erlaubt 
effektiv alles, solange gesagt wird wer der Urheber ist). 

Liebe Grüße, 
Arne



Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-01-25 Diskussionsfäden Arne Babenhauserheide
Hi Karl, 

Ich habe jetzt gestern und heute meine Ansätze endlich in Code umgesetzt, 
der, wenn ihm keine Eingabedateien gegeben werden, deine mono- und bigramme 
nutzt. 

Er ist v.a. durch viel Dokumentation und automatisierte Tests etwas länger, 
sollte aber durch die Struktur (und Kommentare) auch für Nichtprogrammierer 
lesbar sein (falls nicht, dann sagt das bitte!). 

http://draketo.de/licht/freie-software/neo-tastaturlayout-pruefen-und-
evolutionaer-entwickeln

Liebe Grüße, 
Arne Babenhauserheide

PS: Wie ist die Lizensierung der N-Gramm-Dateien? Kann ich sie unter der GPL 
verwenden?