Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Karl Köckemann schrieb: Dennis Heidsiek writes: Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr: Heruntergeladen werden kann er mit dem Verweis: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN schieben. ja, damit bin ich einverstanden. SimpleUpload wird die Datei ohnehin irgendwann löschen. Wird die Datei bald ins SVN kopiert (100MB ist eigentlich ganz schön viel)? Kann ich sie anders bekommen? Bei simpleupload bekomme ich nämlich nur eine ein paar KB große Datei. Und noch ne Frage: Sind in den n-Grammen auch Zeilenumbrüche/Enter dabei? Wie sind die gestaltet? Gruß, Martin
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo allerseits, Martin Roppelt ſchrieb am 06.05.2010 17:28 Uhr: Wird die Datei bald ins SVN kopiert Kann ich machen! Bisher habe ich nur die n-Gramme hochgeladen: http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl (100MB ist eigentlich ganz schön viel)? Genau deshalb habe ich bislang gezögert … mein lokaler Checkout des Neo-SVN (mitsamt den ganzen .svn-Dateien) kommt insgesamt auf 77,8 MB, da schienen mir 100 MB (als .tar.bz2) bzw. MB (entpackt) doch etwas sehr groß zu sein … ich habe schlichtweg Angst, damit das SVN zu zerschiessen. Ganz zu schweigen davon, dass der lokale Checkout dann bis auf MB anschwellen würde. Kennt sich da jemand etwas genauer mit SVN aus? Kann ich sie anders bekommen? Hm, vielleicht könnten wir Ben fragen, ob wir die Datei ausserhalb des SVNs über HTML zugänglich machen könnten? Hat jemand bessere Ideen? Bei simpleupload bekomme ich nämlich nur eine ein paar KB große Datei. Also die Datei konnte ich dort problemlos mit Chrome herunterladen. Und noch ne Frage: Sind in den n-Grammen auch Zeilenumbrüche/Enter dabei? Wie sind die gestaltet? Ich kopiere Dir einfach mal den Anfang der Datei ans Ende dieser Mail. Karl Köckemann ſchrieb am 03.05.2010 20:40 Uhr: weil unbekannt ist, wie lange freenet.de meine Homepage noch nicht löscht (freenet.de hat den Dienst inzwischen eingestellt). Das wusste ich gar nicht! Ich hatte nur mitbekommen, dass mit GeoCities ein anderer ›klassischer‹ Free-Home//page-Hoster seinen Dienst eingestellt hat … so langsam sterben die Dinosaurier aus ;). Viele Grüße, Dennis-ſ Start Stanczyk nannte es beunruhigend, dass die Bundesregierung in dieser Frage bislang nicht einmal informell Kontakt zur polnischen Regierung gesucht habe. Die Preise für ein Einzelzimmer liegen hier zwischen 129 und 149 Euro. Leder: Vielleicht ringt Normann nur um Anerkennung. Hilfen und Fördermaßnahmen: Der Senat will ab 2002 die Wirtschafts- und Beschäftigungsförderprogramme straffen, die Arbeit der Sozialämter reformieren, die Heimunterbringung von Kindern und Jugendlichen neu ordnen und die Krankenhilfe eindämmen. Möglicherweise werden aus Benutzern Kunden, sobald sie für die Inanspruchnahme der Bibliothek bezahlen müssen. Das können die Fachleute beraten. Der Auftakt zur Münchner Flutlichtsaison der Traber aber findet - keine Regel ohne Ausnahme - nicht am Dienstag, sondern am heutigen Donnerstag (18.30 Uhr) statt. Das Publikum genoss die Lesung sichtlich und vor dem Heimweg wappneten sich die meisten am Bücherstand mit Mehr Hirn. Zur Beteiligung an Babcock sagte Lederer, solange die Umstrukturierung dauere müsse Preussag mit im Boot bleiben. Rose sei Realist, einer, der erst denkt und dann handelt. Der fährt nach einer nicht ganz präzisen Telefonauskunft erst einmal zum Haupttor, um sich zu erkundigen. und als er an der um die Ecke gelegenen Feuerwehrzufahrt eintrifft, ist der Panzer weg. Ich liege im Bett, im Krankenhaus, träume tief und dunkel. Mit den drei afrikanischen Mitgliedern Angola, Kamerun und Guinea bemühten sie sich um einen Kompromiss. Das Verteidigungsministerium in Washington bezeichnete den Absturz als Unfall und leitete eine Untersuchung ein. Dann wären die Freisprüche auf der Landgerichtsebene rechtskräftig. Nato und Russland sind seit Mai über den Nato- Russland-Rat enger als zuvor aneinander gebunden. Das von Seoul finanzierte Projekt ist in der Anfangsphase. Auf dem Bus steht in kursiven Lettern: Die Wölfe kommen. Wasserski: Junge Leser konnten kostenlos am Neuländer See üben. So weit denke ich allerdings noch nicht, versicherte Ribbeck gestern, wichtig ist jetzt, die Fehler aus dem Spiel gegen Holland auszumerzen. Und genauso wenig lässt sich anhand mathematischer Formeln berechnen, warum Streitkräfte gerade diese, jene und noch eine weitere Art von Waffen und in welcher Zahl zur Beherrschung und Abwehr schwer genau kalkulierbarer Risiken benötigt. Der Junge und ein Freund suchten in dem Wrack vermutlich nach dem Flugrekorder, für den ein Finderlohn von rund 2 800 Euro ausgesetzt war. Ab April sollen zusätzlich 1,2 Millionen Briefe auf der Straße transportiert werden. Am anderen Ende des Tunnels, am Gleisdamm reiht er sich unter Obdachlosen ein. Bei den Landesmannschaftsmeisterschaften in Nordenham feierten die Turner des TSV Buchholz 08 zwei Siege. und so weiter und so fort …
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo! (100MB ist eigentlich ganz schön viel)? Genau deshalb habe ich bislang gezögert … Vernünftig! ich habe schlichtweg Angst, damit das SVN zu zerschiessen. Ganz zu schweigen davon, dass der lokale Checkout dann bis auf MB anschwellen würde. Kennt sich da jemand etwas genauer mit SVN aus? Bei uns in der alten Firma hat mal einer versehentlich DB-Dumps eingecheckt... Allerdings benutzen wir das Backend FSFS und nicht die Berkeley-DB! Der Herr über das SVN soll diese bitte in einem readonly Verzeichnis auf dem Webserver ablegen (mit Checksumme), und aus dem SVN soll darauf verwiesen werden. So oft wird sich an diesen Dateien ja nichts ändern und ein SCM ist für kleine Dateien, an welchen sich oft etwas ändert. Peter
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo allerseits, Peter Fischer ſchrieb am 06.05.2010 17:57 Uhr: Der Herr über das SVN soll diese bitte in einem readonly Verzeichnis auf dem Webserver ablegen (mit Checksumme), Ja, ich glaube, das wäre die beste Möglichkeit. @Martin: Kannst Du eben eine entsprechende Mail an Ben schreiben oder soll ich das machen? Viele Grüße, Dennis-ſ PS: Hier ist nochmal der derzeitige Download-Link: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Bis dahin kann über http://zankt.net/~lucky/data/ikmam/sentences.mod.txt.zip darauf zugegriffen werden. Gruß Lucky signature.asc Description: Digital signature
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo allerseits, Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr: P. S. @Dennis: Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN: Seit eben sind sie es: http://wiki.neo-layout.org/browser/statistik/Leipzig http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl Viele Grüße, Dennis-ſ
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Dennis Heidsiek writes: Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr: P. S. @Dennis: Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN: Seit eben sind sie es: http://wiki.neo-layout.org/browser/statistik/Leipzig http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl Vielen Dank, Dennis! Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind. Als Verweis kommen z. B. in Frage: http://permalink.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602 http://lists.neo-layout.org/pipermail/diskussion/2009-December/015238.html Was meinst Du, Dennis, wäre das sinnvoll? Mit netten Grüßen Karl
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo Karl, Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr: Vielen Dank, Dennis! Gern geschehen, ich war eh’ gerade am comiten :). Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind. Hm … ich fände es noch besser, die Benennungen/Formate der beiden Korpusse zu vereinheitlichen und die Dokumentation/Tools dafür dann in eine gemeinsame SVN/statistik/README unterzubringen. Ich werd’ im Laufe des Abends mal schauen … Als Verweis kommen z. B. in Frage: Danke für die Links! Viele Grüße, Dennis-ſ
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo allerseits, Dennis Heidsiek ſchrieb am 06.05.2010 19:31 Uhr: Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr: Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind. Hm … ich fände es noch besser, die Benennungen/Formate der beiden Korpusse zu vereinheitlichen und die Dokumentation/Tools dafür dann in eine gemeinsame SVN/statistik/README unterzubringen. Äußerst rudimentär, aber besser als nichts: http://wiki.neo-layout.org/browser/statistik Wem’s nicht gefällt, kann’s ja verbessern o:-). Viele Grüße, Dennis-ſ
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hi Karl, Am Sonntag, 2. Mai 2010, 23:31:30 schrieb Karl Köckemann: im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Wahnsinn! Danke! Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung. Dafür hier erstmal die alte Ausgabe der Kostenberechnung für Neo, danach dann die mit neuem Korpus. -- Alter Korpus -- # 2.213623939 billion total penalty compared to notime-noeffort # 4.00175962322 mean key position cost in file 1gramme.txt # 4.8219113 % finger repeats in file 2gramme.txt # 4.56473130298 million keystrokes disbalance of the fingers # 0.307224610884 % finger repeats top to bottom or vice versa # 4.70844781487 % of trigrams have no handswitching (uppercase ignored) # 0.202640267 billion rows² to cross while on the same hand # 0.0128785781832 hand disbalance. Left: 0.487121421817 %, Right: 0.512878578183 % -- Neuer Korpus -- # 2.2073746374 billion total penalty compared to notime-noeffort # 4.01389863586 mean key position cost in file 1gramme.txt # 4.79333259039 % finger repeats in file 2gramme.txt # 4.60589838178 million keystrokes disbalance of the fingers # 0.308294351576 % finger repeats top to bottom or vice versa # 4.75874466019 % of trigrams have no handswitching (uppercase ignored) # 0.200928645 billion rows² to cross while on the same hand # 0.0130778084025 hand disbalance. Left: 0.486922191598 %, Right: 0.513077808402 % Die Kostenberechnung ist die Grundlage der Optimierung und jede Veränderung des total penalty um mehr als 0.002 kann schon zwischen Layouts entscheiden. Da hier schon bei Neo 0.005 Unterschied sind (aber die Optimierung vermutlich noch viel stärkere Unterschiede bewirken kann) denke ich, dass der Korpus deutlich verändert, was als Ergebnis rauskommt. Um sicher zu gehen, müsste ich aber meinen Optimierer ein paar 10.000 Schritt- Layouts rechnen lassen, und anders als bei dem verdammt schnellen Optimierer von Andreas dauert das bei mir ein paar Stunden je Layout, deswegen habe ich es noch etwas zurückgestellt… Deine neuen Dateien sind aber ab jetzt die neue Arbeitsbasis meines Optimierers. Liebe Grüße, Arne PS: Heruntergeladen werden kann er mit dem Verweis: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html Gah, downloadbeschränkung getroffen… signature.asc Description: This is a digitally signed message part.
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
*neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen Kriterien? Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlich ein anderes Optimum raus, das ist, was ich sagen wollte. Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen Gebieten für unsere Zwecke aufzubereiten. Vielleicht. Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer Rechtschreibung). In dem kommt dann zum Beispiel, im Gegensatz zum Leipziger Korpus, das Komma häufiger vor als der Punkt. Aber alles in allem sind die Auswirkungen auf das Ergebnis moderat. Wenn man einen sehr kleinen Korpus mit einem sehr grossen mischt und so gewichtet, dass beide ungefähr gleich in die Optimierung eingehen, bestimmt der kleine Korpus leider den statistischen Fehler. Es dürfte schwer sein, Korpusse aus anderen Gebieten zu finden, die so gross wie der Leipziger Korpus sind (von jemandem, der sie entrümpelt, ganz zu schweigen). Im übrigen würde ich sowieso nach einem 1:1 gemischt deutsch-englischen Korpus optimieren. Das entspricht viel mehr meinen Anforderungen, und da bin ich sicher nicht alleine. Andreas
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
wettstein...@solnet.ch wrote: *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen Kriterien? Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlich ein anderes Optimum raus, das ist, was ich sagen wollte. Dafür hast du im Gegensatz zu mir bereits eine Korrekte Behandlung von Großbuchstaben drin. Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen Gebieten für unsere Zwecke aufzubereiten. Vielleicht. Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer Rechtschreibung). In dem kommt dann zum Beispiel, im Gegensatz zum Leipziger Korpus, das Komma häufiger vor als der Punkt. Aber alles in allem sind die Auswirkungen auf das Ergebnis moderat. Vielleicht können wir ja einen von Google bekommen. Die haben riesige Textkorpi (ich habe letztens einen Techtalk von ihnen gesehen, in dem sie ein Googler erzählt hat, dass sie die Rechnungen zu Wortstatistiken auf Clustern machen). Liebe Grüße, Arne
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Christian Kluge: Karl Köckemann schrieb am 02.05.2010 23:31: 2gramme.mod.txt 3gramme.mod.txt 2grammetab.tab.mod.txt 3grammetab.tab.mod.txt Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nicht, dass dies Absicht war, oder? Doch, das ist beabsichtigt. Die Bi- und Trigramme enthalten alle im Korpus vorkommenden Zeichen, also auch das Leerzeichen. Bei den Dateien, in deren Dateiname 'tab' vorkommt, sind die einzelnen Zeichen jedes Bi- bzw. Trigramms nicht zusammengeschrieben, sondern mit je einem Tabstop voneinander getrennt. Die Dateien erleichtern das Einlesen in und Arbeiten mit Tabellenkalkulationsprogrammen erheblich. Mit netten Grüßen Karl
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Moin Karl, Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr: im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Sehr schön, danke dafür! Heruntergeladen werden kann er mit dem Verweis: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN schieben. Viele Grüße, Dennis
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo Karl, im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank. Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus. Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus, oder hast du noch andere Quellen aufgetan? Andreas
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Dennis Heidsiek writes: Moin Karl, Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr: im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Heruntergeladen werden kann er mit dem Verweis: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN schieben. Hi Dennis, ja, damit bin ich einverstanden. SimpleUpload wird die Datei ohnehin irgendwann löschen. In dem Zusammenhang wäre es sinnvoll, die anderen 13 kleineren Dateien mit den n-Grammen ebenfalls ins Neo-SVN zu stellen, weil unbekannt ist, wie lange freenet.de meine Homepage noch nicht löscht (freenet.de hat den Dienst inzwischen eingestellt). Mit netten Grüßen Karl
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Andreas Wettstein writes: im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank. Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen (geschätzte 7 Stunden) nicht zu Ende führen, da ich nach der längeren Pause nicht mehr weiß, an welcher Stelle ich hätte weitermachen wollen. Es ging nur noch um den Rest der von einem Punkt gefolgten Einzelgroßbuchstaben wie z. B. in 'George W. Bush', was wahrscheinlich sowieso wenig relevant sein dürfte. Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus. Der Inhalt kommt aber doch nach wie vor komplett vom Leipziger Korpus, oder hast du noch andere Quellen aufgetan? Weitere Quellen zu verwenden, das wäre selbst mir zu viel Arbeit gewesen. ;) Dieselbe Datei des Leipziger Korpus wurde zugrunde gelegt und überwiegend manuell bereinigt. Dabei wurden (nach dem Entfernen der Zeilennummern) jeweils 5 Sätze zu einem Absatz zusammengefügt, wodurch die Häufigkeit für die Enter-Taste deren bekannten Häufigkeit in etwa entspricht. Zwecks Rechtschreibkorrektur wurden alle am Anfang des Rechtschreibdudens stehenden veränderten Schreibungen im Korups überprüft und korrigiert, d. h. alte Rechtschreibung kommt in der nun vorgestellten Datei kaum noch vor. Klar konnte auch das überwiegend nur manuell geschehen. Wegen der Dateigröße war keiner der unter Linux für solche Zwecke empfohlenen Editoren brauchbar. Unter Windows gibt es einen Editor, der auch Reguläre Ausdrücke bei riesigen Dateien sehr schnell und gut unterstützt. Welcher Editor das ist, habe ich inzwischen wieder vergessen (System inzwischen komplett auf Linux umgestellt, d. h. kein Windows mehr), jedoch ohne ihn wäre sinnvolles Arbeiten in dem Umfang kaum möglich gewesen. Das Ergebnis (n-Gramm-Dateien) habe ich mir bislang nicht näher angesehen, jedoch wird das ß wegen der Neuen Rechtschreibung sicherlich weniger häufig vorkommen (trotzdem es in Namen beibehalten wurde) und stattdessen das s häufiger als bei allen Häufigkeitsangaben, die mir untergekommen sind. Es könnte sein, dass wir hiermit die erste öffentlich zugängliche Zeichenhäufigkeitsliste zu einem nicht kleinen Korpus haben, der auf der Neuen Rechtschreibung basiert. :) Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung. Mit netten Grüßen Karl
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung. Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus (zuerst Korpusstatistik, dann die beste gefundene Tastatur): aA 5.296/0.474 bB 1.582/0.447 cC 2.582/0.112 dD 4.135/0.558 eE 15.535/0.345 fF 1.415/0.295 gG 2.661/0.300 hH 3.957/0.225 iI 7.505/0.189 jJ 0.122/0.148 kK 1.146/0.320 lL 3.484/0.192 mM 2.247/0.419 nN 9.546/0.166 oO 2.580/0.084 pP 0.691/0.312 qQ 0.014/0.012 rR 7.229/0.226 sS 5.500/0.662 tT 5.963/0.227 uU 3.462/0.176 vV 0.688/0.228 wW 1.107/0.288 xX 0.052/0.002 yY 0.101/0.006 zZ 1.070/0.140 äÄ 0.566/0.008 öÖ 0.247/0.010 üÜ 0.647/0.017 .. 1.106/0.000 ,, 0.951/0.000 ßß 0.230/0.000 15.582/0.000 Großbuchstaben:6.585 % Mehrfachanschläge: 1.680 % 234.164 Gesamtaufwand 195.430 Lageaufwand links rechts 0.857 Kollisionen 4.438 Shift-Kollisionen ob 5.3 14.6 jäo.ü khclfv68.646 Handwechsel25.610 Shift-Handwechsel mi 39.2 31.2 teaiu gdnrsß18.230 Einwärts 67.967 Shift-Einwärtsun 6.3 10.0 xqö,y bpmwz 9.979 Auswärts1.984 Shift-Auswärts sum 50.7 55.9 Finger 11.4 16.5 8.7 14.2 | 16.3 15.1 12.5 11.9 Shift 4.9 1.7 Mit dem neuen: aA 5.299/0.461 bB 1.583/0.437 cC 2.591/0.098 dD 4.146/0.527 eE 15.565/0.346 fF 1.425/0.286 gG 2.663/0.287 hH 3.967/0.221 iI 7.509/0.181 jJ 0.121/0.148 kK 1.136/0.315 lL 3.489/0.184 mM 2.245/0.397 nN 9.543/0.158 oO 2.598/0.081 pP 0.691/0.301 qQ 0.014/0.012 rR 7.253/0.218 sS 5.645/0.636 tT 5.992/0.216 uU 3.480/0.152 vV 0.689/0.220 wW 1.114/0.282 xX 0.052/0.002 yY 0.100/0.006 zZ 1.072/0.136 äÄ 0.566/0.008 öÖ 0.249/0.009 üÜ 0.642/0.017 .. 1.104/0.000 ,, 0.954/0.000 ßß 0.155/0.000 16.427/0.000 Großbuchstaben:6.344 % Mehrfachanschläge: 1.713 % 231.510 Gesamtaufwand 193.461 Lageaufwand links rechts 0.832 Kollisionen 4.225 Shift-Kollisionen ob 5.3 14.6 jäo.ü khclfv68.637 Handwechsel24.270 Shift-Handwechsel mi 39.2 31.2 teaiu gdnrsß18.207 Einwärts 70.448 Shift-Einwärtsun 6.1 9.9 xqö,y bpmwz 9.958 Auswärts1.057 Shift-Auswärts sum 50.6 55.8 Finger 11.2 16.5 8.7 14.1 | 16.3 15.0 12.5 11.9 Shift 4.7 1.6 Für die speziellen Kriterien die gerade in meinem Sourcecode stehen kommt also dieselbe Tastatur raus. Das sollte uns nicht enttäuschen, im Gegenteil: Wir sehen, dass nicht jede kleine Variation am Korpus unbedingt das Optimum ändert. Ausserdem ist die Punktzahl mit beiden Korpussen verschieden, und zwar mehr als man durch blosse statistische Variationen erwarten würde. Mit anderen Kriterien könnte das Optimum für die beiden Korpusse durchaus verschieden sein. Andreas
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hallo, im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Hauptsächlich wurden folgende Punkte umgesetzt: - Umstellung auf die Neue Rechtschreibung, - Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.), - Korrektur vieler Rechtschreibfehler. Jedoch auch sehr viele andere Feinheiten wurden berücksichtigt. Trotzdem die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen. Daher seien die Ergebnisse nun hier vorgestellt. Zunächst der überarbeitete Textkörper: sentences.mod.txt Heruntergeladen werden kann er mit dem Verweis: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html Die daraus entstandenen n-Gramm-Dateien: 1gramme.mod.txt 2gramme.mod.txt 3gramme.mod.txt 1gramme.tab.mod.txt 2grammetab.tab.mod.txt 3grammetab.tab.mod.txt können mit den Verweisen heruntergeladen werden: http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2gramme.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3gramme.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.tab.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2grammetab.tab.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3grammetab.tab.mod.txt In den ersten drei Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit 'tab' im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus. Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden. Mit schönen Grüßen Karl
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Peter Bartosch wrote: Arne Babenhauserheide wrote: Christian Kluge wrote: Oder auch die WTFPL¹ Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken. Nein, da es im deutschen Recht kein public domain gibt - man kann sein Urheber Recht nicht abtreten! Ach verdammt, stimmt. Dann wohl creativecommons Zero: - http://creativecommons.org/publicdomain/zero/1.0/deed.de Schöner finde ich allerdings „mit Namensnennung”: - http://creativecommons.org/licenses/by/3.0/deed.de (ich bin ansonsten Anhänger starker Copyleftlizenzen, aber die hier erlaubt effektiv alles, solange gesagt wird wer der Urheber ist). Liebe Grüße, Arne
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Arne Babenhauserheide wrote: Christian Kluge wrote: Dennis Heidsiek schrieb am 02.02.2010 09:21: Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der Erschaffer auch einfach auf die Bierlizenz verweisen ;). Oder auch die WTFPL¹ Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken. Nein, da es im deutschen Recht kein public domain gibt - man kann sein Urheber Recht nicht abtreten! (nicht zu verwechseln mit Leistungsschutz-Rechten, die Verkauft werden dürfen - Siehe Musikindustrie) Gruß, Peter
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Peter Bartosch wrote: Arne Babenhauserheide wrote: Christian Kluge wrote: Oder auch die WTFPL¹ Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken. Nein, da es im deutschen Recht kein public domain gibt - man kann sein Urheber Recht nicht abtreten! Ach verdammt, stimmt. Dann wohl creativecommons Zero: - http://creativecommons.org/publicdomain/zero/1.0/deed.de Schöner finde ich allerdings „mit Namensnennung”: - http://creativecommons.org/licenses/by/3.0/deed.de (ich bin ansonsten Anhänger starker Copyleftlizenzen, aber die hier erlaubt effektiv alles, solange gesagt wird wer der Urheber ist). Liebe Grüße, Arne
Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux
Hi Karl, Ich habe jetzt gestern und heute meine Ansätze endlich in Code umgesetzt, der, wenn ihm keine Eingabedateien gegeben werden, deine mono- und bigramme nutzt. Er ist v.a. durch viel Dokumentation und automatisierte Tests etwas länger, sollte aber durch die Struktur (und Kommentare) auch für Nichtprogrammierer lesbar sein (falls nicht, dann sagt das bitte!). http://draketo.de/licht/freie-software/neo-tastaturlayout-pruefen-und- evolutionaer-entwickeln Liebe Grüße, Arne Babenhauserheide PS: Wie ist die Lizensierung der N-Gramm-Dateien? Kann ich sie unter der GPL verwenden?