Karl Köckemann schrieb:
Dennis Heidsiek writes:
Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
Heruntergeladen werden kann er mit dem Verweis:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
Wenn Du einverstanden bist, kann ich das auch nochmal in das Neo-SVN
Hallo allerseits,
Martin Roppelt ſchrieb am 06.05.2010 17:28 Uhr:
Wird die Datei bald ins SVN kopiert
Kann ich machen! Bisher habe ich nur die n-Gramme hochgeladen:
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl
(100MB ist eigentlich ganz schön viel)?
Genau deshalb habe ich
Hallo!
(100MB ist eigentlich ganz schön viel)?
Genau deshalb habe ich bislang gezögert …
Vernünftig!
ich habe schlichtweg Angst, damit das SVN zu zerschiessen. Ganz zu
schweigen davon, dass der lokale Checkout dann bis auf MB anschwellen
würde.
Kennt sich da jemand etwas genauer mit SVN
Hallo allerseits,
Peter Fischer ſchrieb am 06.05.2010 17:57 Uhr:
Der Herr über das SVN soll diese bitte in einem readonly Verzeichnis
auf dem Webserver ablegen (mit Checksumme),
Ja, ich glaube, das wäre die beste Möglichkeit. @Martin: Kannst Du eben
eine entsprechende Mail an Ben schreiben
Bis dahin kann über
http://zankt.net/~lucky/data/ikmam/sentences.mod.txt.zip
darauf zugegriffen werden.
Gruß
Lucky
signature.asc
Description: Digital signature
Hallo allerseits,
Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr:
P. S. @Dennis:
Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN:
Seit eben sind sie es:
http://wiki.neo-layout.org/browser/statistik/Leipzig
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl
Dennis Heidsiek writes:
Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr:
P. S. @Dennis:
Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN:
Seit eben sind sie es:
http://wiki.neo-layout.org/browser/statistik/Leipzig
Hallo Karl,
Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr:
Vielen Dank, Dennis!
Gern geschehen, ich war eh’ gerade am comiten :).
Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis
interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind.
Hm …
Hallo allerseits,
Dennis Heidsiek ſchrieb am 06.05.2010 19:31 Uhr:
Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr:
Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein
Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt
worden sind.
Hm … ich fände es noch besser,
Hi Karl,
Am Sonntag, 2. Mai 2010, 23:31:30 schrieb Karl Köckemann:
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Wahnsinn! Danke!
Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
andere Ergebnisse liefern wird, als bei
*neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen
Kriterien?
Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach
nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlich
wettstein...@solnet.ch wrote:
*neugierig* Um was ging es bei den gerade im Sourcecode stehenden
speziellen Kriterien?
Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach
nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
drehe ab und an den Kriterien.
Christian Kluge:
Karl Köckemann schrieb am 02.05.2010 23:31:
2gramme.mod.txt
3gramme.mod.txt
2grammetab.tab.mod.txt
3grammetab.tab.mod.txt
Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden
auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nicht, dass
Moin Karl,
Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Sehr schön, danke dafür!
Heruntergeladen werden kann er mit dem Verweis:
Hallo Karl,
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank.
Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
gebrauchen, als der pure - zu zeitungslastige - Leipziger
Dennis Heidsiek writes:
Moin Karl,
Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Heruntergeladen werden kann er mit dem Verweis:
Andreas Wettstein writes:
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank.
Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen
(geschätzte 7 Stunden) nicht zu Ende
Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.
Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen
lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus (zuerst
Hallo,
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Hauptsächlich wurden folgende Punkte umgesetzt:
- Umstellung auf die Neue Rechtschreibung,
- Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
- Korrektur vieler
Peter Bartosch wrote:
Arne Babenhauserheide wrote:
Christian Kluge wrote:
Oder auch die WTFPL¹
Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.
Nein, da es im deutschen Recht kein public domain gibt -
Arne Babenhauserheide wrote:
Christian Kluge wrote:
Dennis Heidsiek schrieb am 02.02.2010 09:21:
Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
Erschaffer auch einfach auf die Bierlizenz verweisen ;).
Oder auch die WTFPL¹
Oder einfach
Peter Bartosch wrote:
Arne Babenhauserheide wrote:
Christian Kluge wrote:
Oder auch die WTFPL¹
Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.
Nein, da es im deutschen Recht kein public domain gibt -
Hi Karl,
Ich habe jetzt gestern und heute meine Ansätze endlich in Code umgesetzt,
der, wenn ihm keine Eingabedateien gegeben werden, deine mono- und bigramme
nutzt.
Er ist v.a. durch viel Dokumentation und automatisierte Tests etwas länger,
sollte aber durch die Struktur (und Kommentare)
23 matches
Mail list logo