Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek
Hallo allerseits, Dennis Heidsiek ſchrieb am 06.05.2010 19:31 Uhr: Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr: Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind. Hm … ich fände es noch besser, di

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek
Hallo Karl, Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr: Vielen Dank, Dennis! Gern geschehen, ich war eh’ gerade am comiten :). Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind. Hm … ic

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Karl Köckemann
Dennis Heidsiek writes: > Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr: > > P. S. @Dennis: > > Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN: > > > > Seit eben sind sie es: > http://wiki.neo-layout.org/browser/statistik/Leipzig > http://wiki.neo-layout.org/browser

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek
Hallo allerseits, Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr: P. S. @Dennis: Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN: Seit eben sind sie es: http://wiki.neo-layout.org/browser/statistik/Leipzig http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Karl Köckemann
Martin Roppelt writes: > Karl Köckemann schrieb: > > Dennis Heidsiek writes: > > > Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr: > > > > Heruntergeladen werden kann er mit dem Verweis: > > > > http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html > > > Wenn Du einverstanden bist

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Lucky
Bis dahin kann über http://zankt.net/~lucky/data/ikmam/sentences.mod.txt.zip darauf zugegriffen werden. Gruß Lucky signature.asc Description: Digital signature

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek
Hallo allerseits, Peter Fischer ſchrieb am 06.05.2010 17:57 Uhr: Der "Herr über das SVN" soll diese bitte in einem readonly Verzeichnis auf dem Webserver ablegen (mit Checksumme), Ja, ich glaube, das wäre die beste Möglichkeit. @Martin: Kannst Du eben eine entsprechende Mail an Ben schreiben

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Peter Fischer
Hallo! (100MB ist eigentlich ganz schön viel)? Genau deshalb habe ich bislang gezögert … Vernünftig! ich habe schlichtweg Angst, damit das SVN zu zerschiessen. Ganz zu schweigen davon, dass der lokale Checkout dann bis auf MB anschwellen würde. Kennt sich da jemand etwas genauer mit SVN

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Dennis Heidsiek
Hallo allerseits, Martin Roppelt ſchrieb am 06.05.2010 17:28 Uhr: Wird die Datei bald ins SVN kopiert Kann ich machen! Bisher habe ich nur die n-Gramme hochgeladen: http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl (100MB ist eigentlich ganz schön viel)? Genau deshalb habe ich bi

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-06 Diskussionsfäden Martin Roppelt
Karl Köckemann schrieb: > Dennis Heidsiek writes: > > Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr: > > > Heruntergeladen werden kann er mit dem Verweis: > > > http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html > > Wenn Du einverstanden bist, kann ich das auch nochmal in das N

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-04 Diskussionsfäden Arne Babenhauserheide
wettstein...@solnet.ch wrote: >> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden >> speziellen Kriterien? > > Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach > nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und > drehe ab und an den Krite

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-04 Diskussionsfäden wettstein509
> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen > Kriterien? Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlic

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-04 Diskussionsfäden Arne Babenhauserheide
Hi Karl, Am Sonntag, 2. Mai 2010, 23:31:30 schrieb Karl Köckemann: > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus > überarbeitet. Wahnsinn! Danke! > Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert > andere Ergebnisse liefern wird, als

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Karl Köckemann
Am Montag, 03.05.2010, 21:47 +0200 schrieb Andreas Wettstein: Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen > lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus [...] > Das ging flott. So frühzeitig hatte ich eine Statistik nicht erwartet. D. h. etwa 3 % des Korpusses

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden wettstein509
> Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert > andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung. Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus (zuerst Korpusstatist

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Karl Köckemann
Andreas Wettstein writes: > > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus > > überarbeitet. > > Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank. Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen (geschätzte 7 Stunden) nicht zu

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Karl Köckemann
Dennis Heidsiek writes: > > Moin Karl, > > Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr: > > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. > > > > Heruntergeladen werden kann er mit dem Verweis: > > http://www.simpleupload.net/download/507348/sent

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden wettstein509
Hallo Karl, > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus > überarbeitet. Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank. > Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu > gebrauchen, als der pure - zu zeitungslastige - Leipzig

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Dennis Heidsiek
Moin Karl, Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr: im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Sehr schön, danke dafür! Heruntergeladen werden kann er mit dem Verweis: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-03 Diskussionsfäden Karl Köckemann
Christian Kluge: > Karl Köckemann schrieb am 02.05.2010 23:31: > > 2gramme.mod.txt > > 3gramme.mod.txt > > 2grammetab.tab.mod.txt > > 3grammetab.tab.mod.txt > > Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden > auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nich

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-02 Diskussionsfäden Christian Kluge
Karl Köckemann schrieb am 02.05.2010 23:31: > Hallo, > > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus > überarbeitet. > Hauptsächlich wurden folgende Punkte umgesetzt: > - Umstellung auf die Neue Rechtschreibung, > - Bereinigung sehr vieler zeitungstypischer Schreibwe

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-05-02 Diskussionsfäden Karl Köckemann
Hallo, im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Hauptsächlich wurden folgende Punkte umgesetzt: - Umstellung auf die Neue Rechtschreibung, - Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.), - Korrektur vieler Rechtschreibf

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-12 Diskussionsfäden Arne Babenhauserheide
Peter Bartosch wrote: > Arne Babenhauserheide wrote: >> Christian Kluge wrote: >>> Oder auch die WTFPL¹ >> Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public >> domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken. > Nein, da es im deutschen Recht kein "public dom

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-03 Diskussionsfäden Arne Babenhauserheide
Peter Bartosch wrote: > Arne Babenhauserheide wrote: >> Christian Kluge wrote: >>> Oder auch die WTFPL¹ >> Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public >> domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken. > Nein, da es im deutschen Recht kein "public dom

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-03 Diskussionsfäden Peter Bartosch
Arne Babenhauserheide wrote: Christian Kluge wrote: Dennis Heidsiek schrieb am 02.02.2010 09:21: Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der Erschaffer auch einfach auf die Bierlizenz verweisen ;). Oder auch die WTFPL¹ Oder einfach dazuschreib

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-03 Diskussionsfäden Arne Babenhauserheide
Christian Kluge wrote: > Dennis Heidsiek schrieb am 02.02.2010 09:21: > >> Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der >> Erschaffer auch einfach auf die Bierlizenz verweisen ;). >> > > Oder auch die WTFPL¹ Oder einfach dazuschreiben, dass er die Datei als gemeinfrei

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-02 Diskussionsfäden Christian Kluge
Dennis Heidsiek schrieb am 02.02.2010 09:21: > Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der > Erschaffer auch einfach auf die Bierlizenz verweisen ;). > Oder auch die WTFPL¹ Mit freundlichen Grüßen Frakturfreak ¹ http://sam.zoy.org/wtfpl/ -- Wenns halt war, wies ha

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-02 Diskussionsfäden Dennis Heidsiek
Hallo Karl, Karl Köckemann ſchrieb am 01.02.2010 17:15 Uhr: Lizensierung ist für mich eine verwirrende Thematik, mit der ich mich ungern befasse. Da muss ich Dir (leider) in beiden Punkten beipflichten. Mit den Dateien bzw. darin enthaltenen Daten kann jeder machen was er will. Das wäre

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-02-01 Diskussionsfäden Karl Köckemann
Am Mon, 25 Jan 2010 23:58:59 +0100 schrieb Arne Babenhauserheide : > PS: Wie ist die Lizensierung der N-Gramm-Dateien? Kann ich sie unter > der GPL verwenden? Hallo Arne, Lizensierung ist für mich eine verwirrende Thematik, mit der ich mich ungern befasse. Mit den Dateien bzw. darin enthaltenen

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-01-25 Diskussionsfäden Arne Babenhauserheide
Hi Karl, Ich habe jetzt gestern und heute meine Ansätze endlich in Code umgesetzt, der, wenn ihm keine Eingabedateien gegeben werden, deine mono- und bigramme nutzt. Er ist v.a. durch viel Dokumentation und automatisierte Tests etwas länger, sollte aber durch die Struktur (und Kommentare) au

Re: [Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2010-01-25 Diskussionsfäden Arne Babenhauserheide
Die Dateien sind Gold wert. Danke! PS: Bin nach langer Auszeit wegen und nach den Diplomprüfungen wieder zurück. neo-n...@freenet.de wrote: > Die Ergebnisse (außer s.txt) können ab jetzt heruntergeladen werden:

[Neo] Anleitung: 1-, 2-, 3-gramme erstellen unter Linux

2009-12-07 Diskussionsfäden neo-nntp
Hallo, durch Ulfs Beitrag¹ angeregt (vielen Dank!), in dem Bigramme einer Testdatei mittels Linux-Befehl bestimmt werden, kann nun eine erweitertete Schritt-für-Schritt-Anleitung vorgestellt werden. Mit nur geringem weiteren Aufwand (aber entsprechender Rechenzeit) können nach dem Prinzip der