Re: [Neo] Fremdsprachliche Korpusse

2010-05-05 Diskussionsfäden Karl Köckemann
Dennis Heidsiek HeidsiekB at aol.com writes:

 Karl Köckemann ſchrieb am 04.05.2010 18:41 Uhr:
  Dort, wo wir unseren Leipziger Korpus her haben, werden weitere (weniger
  große) Korpora für unterschiedlich Sprachen bereitgestellt. Der dortige
  englischsprachige könnte für den Anfang genügen.
 
 Tatsächlich, vielen herzlichen Dank für den Hinweis! Hier ist nochmal 
 der Link:
 http://corpora.informatik.uni-leipzig.de/download.html
 
 Kann vielleicht mal jemand der ›Auswerter‹ so nett sein und Neo 2 und 
 NordTast in Bezug auf einen rein englischen Korpus analysieren? Es wäre 
 schon interessant, ob die sich Nordtast-Optimierungen im Englischen eher 
 positiv oder negativ auswirken … ich hoffe auf die erste Variante :).
 
 Falls das schon jemand gemacht hat und ich einfach die entsprechende 
 Mail übersehen haben sollte, bitte ich um einen entsprechenden Hinweis :).

Leider basiert der englischsprachige Leipziger Korpus nur auf wenigen
Textquellen, d. h. er dürfte arg zeitungslastig sein, vor allem Wirtschafts- und
Finanzmeldungen. Es wird mich nicht wundern, wenn das Bigramm 'AP',
Datumsangaben sowie Firmennamen extrem häufig vorkommen.

Vielleicht wäre es besser, auch andere englischsprachige Korpora einzubeziehen.

Mit schönen Grüßen
Karl




Re: [Neo] Fremdsprachliche Korpusse

2010-05-05 Diskussionsfäden Karl Köckemann
Dennis Heidsiek writes:

 Die Frage ist: Wo kriegen wir einen englischen Korpus her? Kennt da 
 jemand Einen?

Ein Verweis, der zu mehreren englischsprachigen Korpora führt, sei genannt:
http://www.grsampson.net/Resources.html

Hinweise auf weitere Korpora enthalten die Verweise:
http://khnt.hit.uib.no/icame
http://129.177.24.52/icame/manuals

Mit netten Grüßen
Karl




Re: [Neo] Fremdsprachliche Korpusse

2010-05-05 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Karl Köckemann ſchrieb am 05.05.2010 10:14 Uhr:

Leider basiert der englischsprachige Leipziger Korpus nur auf wenigen
Textquellen, d. h. er dürfte arg zeitungslastig sein, […]

Vielleicht wäre es besser, auch andere englischsprachige Korpora einzubeziehen.
   


Da hast Du natürlich vollkommen recht, mir ging es nur um einen groben 
ersten Eindruck :).



Viele Grüße,
Dennis-ſ



Re: [Neo] Fremdsprachliche Korpusse

2010-05-05 Diskussionsfäden Peter Karp
Hallo,

 Müsste man dann aber nicht (um Neo's Zielsetzung gerecht zu werden) 
 ausser einem Deutsch-Korpus, einem Englisch-Korpus auch einen 
 Kommandozeilen/LaTEX-Quelltext/...(Computereingaben)-Korpus auftreiben
 und berücksichtigen?

Ich dachte, dass das die Tage schon so verabschiedet war, dass es
eine gute Idee ist für verschiedene Anwendungsgebiete die Auswertungen
zu machen und dann natürlich unterm Strich noch eine gewichtete
Auswertung für einen typsichen Mix der Anwendungsfälle?

Schwierig ist natürlich eine gute Gewichtung zu finden!

Gruß
Peter




Re: [Neo] Fremdsprachliche Korpusse

2010-05-05 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Peter Karp ſchrieb am 05.05.2010 19:45 Uhr:

Ich dachte, dass das die Tage schon so verabschiedet war, dass es
eine gute Idee ist für verschiedene Anwendungsgebiete die Auswertungen
zu machen und dann natürlich unterm Strich noch eine gewichtete
Auswertung für einen typsichen Mix der Anwendungsfälle?
   


Ja, das ist Konsens … aber Du weisst doch, einige Themen werden immer 
mal wieder neu erfunden, einfach da immer wieder Neulinge dazukommen, 
von denen man nicht erwarten kann, dass gleich das gesamte Wiki (oder 
das Mailinglistenarchiv!) durchgelesen haben.



Schwierig ist natürlich eine gute Gewichtung zu finden!
   


Stimmt, über diese (wichtigere!) Frage haben wir bisher noch nicht so 
viel gesprochen.



Viele Grüße,
Dennis-ſ



Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden Peter Fischer
  PS: Vielleicht sollten wir unseren Korpus um eine gewisse Menge 
anderssprachlicher Teile erweitern, um dem Rechnung zu tragen, dass 
nicht jeder immer nur Deutsch schreibt.

 Ich finde, dass das eine sehr gute und richtige Anregung ist!

Dem stimme ich zu.

Müsste man dann aber nicht (um Neo's Zielsetzung gerecht zu werden) 
ausser einem Deutsch-Korpus, einem Englisch-Korpus auch einen 
Kommandozeilen/LaTEX-Quelltext/...(Computereingaben)-Korpus auftreiben 
und berücksichtigen?


Peter






Re: [Neo] Fremdsprachliche Korpusse (was: Re: Ein Knaller! (war: 1-, 2-, 3-gramme erstellen unter Linux))

2010-05-04 Diskussionsfäden Arne Babenhauserheide
Dennis Heidsiek wrote:

 Die Frage ist: Wo kriegen wir einen englischen Korpus her? Kennt da
 jemand Einen?

Ulf hat auch Tests für Englisch und Finnisch gemacht → vielleicht hat er 
welche. 



Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Peter Fischer ſchrieb am 04.05.2010 18:26 Uhr:
Müsste man dann aber nicht (um Neo's Zielsetzung gerecht zu werden) 
ausser einem Deutsch-Korpus, einem Englisch-Korpus auch einen 
Kommandozeilen/LaTEX-Quelltext/...(Computereingaben)-Korpus 
auftreiben und berücksichtigen?


Prinzipiell schon! Wobei der meiste Programmcode ja mehr oder weniger 
›normales‹ Englisch ist, nur angereichert um diverse 
(programmiersprachenspezifische) Sonderzeichen. Erstmal sollten wir uns 
aber um die Optimierung der ersten beiden Ebenen kümmern, das ist ja die 
wichtigste Baustelle.



Viele Grüße,
Dennis-ſ



Re: [Neo] Fremdsprachliche Korpusse (was: Re: Ein Knaller! (war: 1-, 2-, 3-gramme erstellen unter Linux))

2010-05-04 Diskussionsfäden Karl Köckemann
Dennis Heidsiek writes:

 Die Frage ist: Wo kriegen wir einen englischen Korpus her? Kennt da 
 jemand Einen?

Es gibt mehrere öffentlich bereitgestellte Korpora für die englische Sprache.
Bei der Betriebssystemumstellung auf Ubuntu ist mir ein Fehler unterlaufen, so
dass mir all die vielen feinen Links abhanden gekommen sind. :(

Dort, wo wir unseren Leipziger Korpus her haben, werden weitere (weniger große)
Korpora für unterschiedlich Sprachen bereitgestellt. Der dortige
englischsprachige könnte für den Anfang genügen.

Mit netten Grüßen
Karl




Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden wettstein509
 Ich finde, dass das eine sehr gute und richtige Anregung ist! Natürlich können
 wir nicht auf alle lateinischen Sprachen gleichzeitig optimieren (man könnte
 schon, nur würde dabei halt eine ›alles etwas aber nichts richtig‹ Tastatur
 herauskommen), Aber gerade wenn sich die verschiedenen computergenerierten
 Tastaturen nur noch geringfügig voneinander bezüglich des Deutschen
 unterscheiden, wäre eine zusätzliche Analyse bezüglich der ›Kompatibilität‹ 
 mit
 anderen Sprachen – wie Mœsi bereits andeutete, ist Englisch hier wohl die
 Wichtigste – schon sehr interessant.

Ich bin für eine 1:1-Mischung Deutsch und Englisch.

 Die Frage ist: Wo kriegen wir einen englischen Korpus her? Kennt da jemand
 Einen?

Die Leipziger haben einige Sprachen auf Lager, auch Englisch.  Ansonsten
gibt es Project Gutenberg und diesen hier:

http://americannationalcorpus.org/#

Andreas



Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden Arne Babenhauserheide
wettstein...@solnet.ch wrote:

 Ich bin für eine 1:1-Mischung Deutsch und Englisch.

Ich wäre eher für 2/3 Deutsch, 1/6 Englisch und 1/6 sonstige. 

Sonst wird die Optimierung zu weit vom Deutschen weggehen, das doch das 
meistgeschriebene sein wird (zumindest außerhalb des Wissenschafts- und 
Programmierbereiches). 

Meine Texte sind da allerdings definitiv nicht repräsentativ. 

Liebe Grüße, 
Arne



Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Karl Köckemann ſchrieb am 04.05.2010 18:41 Uhr:

Dort, wo wir unseren Leipziger Korpus her haben, werden weitere (weniger große) 
Korpora für unterschiedlich Sprachen bereitgestellt. Der dortige 
englischsprachige könnte für den Anfang genügen.



Tatsächlich, vielen herzlichen Dank für den Hinweis! Hier ist nochmal 
der Link:

http://corpora.informatik.uni-leipzig.de/download.html

Kann vielleicht mal jemand der ›Auswerter‹ so nett sein und Neo 2 und 
NordTast in Bezug auf einen rein englischen Korpus analysieren? Es wäre 
schon interessant, ob die sich Nordtast-Optimierungen im Englischen eher 
positiv oder negativ auswirken … ich hoffe auf die erste Variante :).


Falls das schon jemand gemacht hat und ich einfach die entsprechende 
Mail übersehen haben sollte, bitte ich um einen entsprechenden Hinweis :).



Viele Grüße,
Dennis-ſ



Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden wettstein509
 Kann vielleicht mal jemand der ›Auswerter‹ so nett sein und Neo 2 und NordTast
 in Bezug auf einen rein englischen Korpus analysieren?

Mit dem englischen Leipziger Korpus bekomme ich:

Neo2   321.849 Gesamtaufwand 194.512 Lageaufwand   links rechts
 8.935 Kollisionen 6.235 Shift-Kollisionen ob 10.1  9.2
xvlcw khgfqß59.876 Handwechsel41.029 Shift-Handwechsel mi 37.3 34.5
uiaeo snrtdy13.308 Einwärts   49.277 Shift-Einwärtsun  4.4  8.2
üöäpz bm,.j 15.329 Auswärts3.459 Shift-Auswärts   sum 51.7 51.9
   Finger  4.9  8.3 12.3 26.2 | 23.0  9.4 12.1  7.3 Shift  2.1  1.5


NordTast   250.312 Gesamtaufwand 197.353 Lageaufwand   links rechts
 1.619 Kollisionen14.049 Shift-Kollisionen ob 13.5 11.5
äuobp kglmfx66.621 Handwechsel31.151 Shift-Handwechsel mi 39.4 28.6
aietc hdnrsß14.034 Einwärts   51.612 Shift-Einwärtsun  4.3  6.3
.,üöq yzwvj 15.174 Auswärts3.188 Shift-Auswärts   sum 57.2 46.4
   Finger 11.4 11.0 19.1 15.7 | 12.6 12.7 10.0 11.2 Shift  1.8  1.8

Andreas



Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Andreas ſchrieb am 04.05.2010 21:27 Uhr:

Kann vielleicht mal jemand der ›Auswerter‹ so nett sein und Neo 2 und NordTast 
in Bezug auf einen rein englischen Korpus analysieren?

Mit dem englischen Leipziger Korpus bekomme ich:
   


Vielen Dank dafür! Es ist sehr schön zu sehen, dass eine Optimierung auf 
das Deutsche keine miserable Englisch-Unterstützung hervorbringt :).



Viele Grüße,
Dennis-ſ



Re: [Neo] Fremdsprachliche Korpusse

2010-05-04 Diskussionsfäden Arne Babenhauserheide
Dank der tollen Idee von Peter Karp, zum Testen von Layouts doch einfach 
Texte in ein anderes Layout zu übertragen (‚Programm zum Konvertieren von 
Text zum praktischen Testen von neuen Layouts?‘), habe ich jetzt etwas 
experimentieren können. 


Das hier ist mein erster Versuch mit NordTast. Ich kann leider noch nicht 
wirklich was zu sagen, weil es wirklich meine ersten zwei Sätze sind. 

Dud siat ide fair atdeat Vatdvos fie NltnTudeü Ios kurr gainat rlos riose 
,itkgios ,ud mv duharö ,aig ad ,itkgios faira atdear m,ai Sxema dirnü 


Mit Andreas Zwischenergebnis tippen fühlt sich glatter an. Ich kann es noch 
nicht ganz beziffern, aber ich glaube, einen Unterschied zu fühlen. 

Meu Arntiad Z.edghiritsibred uemmir qwhfu degh sfauuit arc Igh karr id rlgh 
reghu sarj bijeqqitrp abit egh sfaobip ierir Uruitdghein jo qwhfirc


Ich würde vorschlagen, dass wir das allgemein zum Testen nutzen, damit wir 
ohne Umlernzeit viele unterschiedliche Layouts testen können und so eine 
breitere Datenbasis bekommen, bevor wir uns an die heftige Arbeit machen, 
unsere Finger umzutrainieren. Außerdem hilft es beim Tippen trainieren :)

Leibi Gtwyip
Atri
:)