Hallo allerseits,
Dennis Heidsiek ſchrieb am 06.05.2010 19:31 Uhr:
Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr:
Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein
Verweis interessant sein könnte, wie die n-Gramm-Dateien erstellt
worden sind.
Hm … ich fände es noch besser, di
Hallo Karl,
Karl Köckemann ſchrieb am 06.05.2010 19:14 Uhr:
Vielen Dank, Dennis!
Gern geschehen, ich war eh’ gerade am comiten :).
Gerade fällt mir auf, dass in den jeweiligen Readme-Dateien ein Verweis
interessant sein könnte, wie die n-Gramm-Dateien erstellt worden sind.
Hm … ic
Dennis Heidsiek writes:
> Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr:
> > P. S. @Dennis:
> > Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN:
> >
>
> Seit eben sind sie es:
> http://wiki.neo-layout.org/browser/statistik/Leipzig
> http://wiki.neo-layout.org/browser
Hallo allerseits,
Karl Köckemann ſchrieb am 06.05.2010 18:46 Uhr:
P. S. @Dennis:
Sind die n-Gramm-Dateien zum unveränderten Leipziger Korpus schon im SVN:
Seit eben sind sie es:
http://wiki.neo-layout.org/browser/statistik/Leipzig
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl
Martin Roppelt writes:
> Karl Köckemann schrieb:
> > Dennis Heidsiek writes:
> > > Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
> > > > Heruntergeladen werden kann er mit dem Verweis:
> > > > http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
> > > Wenn Du einverstanden bist
Bis dahin kann über
http://zankt.net/~lucky/data/ikmam/sentences.mod.txt.zip
darauf zugegriffen werden.
Gruß
Lucky
signature.asc
Description: Digital signature
Hallo allerseits,
Peter Fischer ſchrieb am 06.05.2010 17:57 Uhr:
Der "Herr über das SVN" soll diese bitte in einem readonly Verzeichnis
auf dem Webserver ablegen (mit Checksumme),
Ja, ich glaube, das wäre die beste Möglichkeit. @Martin: Kannst Du eben
eine entsprechende Mail an Ben schreiben
Hallo!
(100MB ist eigentlich ganz schön viel)?
Genau deshalb habe ich bislang gezögert …
Vernünftig!
ich habe schlichtweg Angst, damit das SVN zu zerschiessen. Ganz zu
schweigen davon, dass der lokale Checkout dann bis auf MB anschwellen
würde.
Kennt sich da jemand etwas genauer mit SVN
Hallo allerseits,
Martin Roppelt ſchrieb am 06.05.2010 17:28 Uhr:
Wird die Datei bald ins SVN kopiert
Kann ich machen! Bisher habe ich nur die n-Gramme hochgeladen:
http://wiki.neo-layout.org/browser/statistik/Leipzig-Karl
(100MB ist eigentlich ganz schön viel)?
Genau deshalb habe ich bi
Karl Köckemann schrieb:
> Dennis Heidsiek writes:
> > Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
> > > Heruntergeladen werden kann er mit dem Verweis:
> > > http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html
> > Wenn Du einverstanden bist, kann ich das auch nochmal in das N
wettstein...@solnet.ch wrote:
>> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden
>> speziellen Kriterien?
>
> Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach
> nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
> drehe ab und an den Krite
> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen
> Kriterien?
Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach
nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlic
Hi Karl,
Am Sonntag, 2. Mai 2010, 23:31:30 schrieb Karl Köckemann:
> im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
> überarbeitet.
Wahnsinn! Danke!
> Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
> andere Ergebnisse liefern wird, als
Am Montag, 03.05.2010, 21:47 +0200 schrieb Andreas Wettstein:
Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen
> lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus [...]
> Das ging flott. So frühzeitig hatte ich eine Statistik nicht erwartet.
D. h. etwa 3 % des Korpusses
> Mich interessiert, ob ein Optimierungsprogramm damit tatsächlich nennenswert
> andere Ergebnisse liefern wird, als bei auf alter Rechtschreibung.
Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen
lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus (zuerst
Korpusstatist
Andreas Wettstein writes:
> > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
> > überarbeitet.
>
> Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank.
Ja, das war tatsächlich viel Arbeit. Leider konnte ich das letzte bischen
(geschätzte 7 Stunden) nicht zu
Dennis Heidsiek writes:
>
> Moin Karl,
>
> Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
> > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
> >
> > Heruntergeladen werden kann er mit dem Verweis:
> > http://www.simpleupload.net/download/507348/sent
Hallo Karl,
> im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
> überarbeitet.
Über 300 MB Rohdaten, eine unglaubliche Arbeit. Vielen Dank.
> Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
> gebrauchen, als der pure - zu zeitungslastige - Leipzig
Moin Karl,
Karl Köckemann ſchrieb am 02.05.2010 23:31 Uhr:
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Sehr schön, danke dafür!
Heruntergeladen werden kann er mit dem Verweis:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip
Christian Kluge:
> Karl Köckemann schrieb am 02.05.2010 23:31:
> > 2gramme.mod.txt
> > 3gramme.mod.txt
> > 2grammetab.tab.mod.txt
> > 3grammetab.tab.mod.txt
>
> Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden
> auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nich
Karl Köckemann schrieb am 02.05.2010 23:31:
> Hallo,
>
> im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
> überarbeitet.
> Hauptsächlich wurden folgende Punkte umgesetzt:
> - Umstellung auf die Neue Rechtschreibung,
> - Bereinigung sehr vieler zeitungstypischer Schreibwe
Hallo,
im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Hauptsächlich wurden folgende Punkte umgesetzt:
- Umstellung auf die Neue Rechtschreibung,
- Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
- Korrektur vieler Rechtschreibf
Peter Bartosch wrote:
> Arne Babenhauserheide wrote:
>> Christian Kluge wrote:
>>> Oder auch die WTFPL¹
>> Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
>> domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.
> Nein, da es im deutschen Recht kein "public dom
Peter Bartosch wrote:
> Arne Babenhauserheide wrote:
>> Christian Kluge wrote:
>>> Oder auch die WTFPL¹
>> Oder einfach dazuschreiben, dass er die Datei als gemeinfrei (public
>> domain) veröffentlicht. Dann braucht er keine Lizenzen zu verlinken.
> Nein, da es im deutschen Recht kein "public dom
Arne Babenhauserheide wrote:
Christian Kluge wrote:
Dennis Heidsiek schrieb am 02.02.2010 09:21:
Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
Erschaffer auch einfach auf die Bierlizenz verweisen ;).
Oder auch die WTFPL¹
Oder einfach dazuschreib
Christian Kluge wrote:
> Dennis Heidsiek schrieb am 02.02.2010 09:21:
>
>> Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
>> Erschaffer auch einfach auf die Bierlizenz verweisen ;).
>>
>
> Oder auch die WTFPL¹
Oder einfach dazuschreiben, dass er die Datei als gemeinfrei
Dennis Heidsiek schrieb am 02.02.2010 09:21:
> Das wäre dann wohl ein gemeinfreies Werk … in solchen Fällen kann der
> Erschaffer auch einfach auf die Bierlizenz verweisen ;).
>
Oder auch die WTFPL¹
Mit freundlichen Grüßen
Frakturfreak
¹ http://sam.zoy.org/wtfpl/
--
Wenns halt war, wies ha
Hallo Karl,
Karl Köckemann ſchrieb am 01.02.2010 17:15 Uhr:
Lizensierung ist für mich eine verwirrende Thematik, mit der ich mich ungern
befasse.
Da muss ich Dir (leider) in beiden Punkten beipflichten.
Mit den Dateien bzw. darin enthaltenen Daten kann jeder machen was er will.
Das wäre
Am Mon, 25 Jan 2010 23:58:59 +0100
schrieb Arne Babenhauserheide :
> PS: Wie ist die Lizensierung der N-Gramm-Dateien? Kann ich sie unter
> der GPL verwenden?
Hallo Arne,
Lizensierung ist für mich eine verwirrende Thematik, mit der ich mich
ungern befasse.
Mit den Dateien bzw. darin enthaltenen
Hi Karl,
Ich habe jetzt gestern und heute meine Ansätze endlich in Code umgesetzt,
der, wenn ihm keine Eingabedateien gegeben werden, deine mono- und bigramme
nutzt.
Er ist v.a. durch viel Dokumentation und automatisierte Tests etwas länger,
sollte aber durch die Struktur (und Kommentare) au
Die Dateien sind Gold wert. Danke!
PS: Bin nach langer Auszeit wegen und nach den Diplomprüfungen wieder
zurück.
neo-n...@freenet.de wrote:
> Die Ergebnisse (außer s.txt) können ab jetzt heruntergeladen werden:
Hallo,
durch Ulfs Beitrag¹ angeregt (vielen Dank!), in dem Bigramme einer Testdatei
mittels Linux-Befehl bestimmt werden, kann nun eine erweitertete
Schritt-für-Schritt-Anleitung vorgestellt werden.
Mit nur geringem weiteren Aufwand (aber entsprechender Rechenzeit) können nach
dem Prinzip der
32 matches
Mail list logo