Dennis Heidsiek ſchrieb: > Dummerweise kommt diese (bereits komprimierte!) Datei² auf stolze 1,6 > GB.Ich habe mir mal als Vergleichsmaßstab die plattdeusche Wikipedia > heruntergeladen; hier kommt die entsprechende Datei³ auf ›nur‹ auf > 12,03 MB, und wächst entpackt auf 56,6 MB an (Faktor 4,705). Damit > ergibt sich für den entpackten Schnapschuss der deutschen Wikipedia > eine Größe von 7,5GB.
Schon eine grobe Abschätzung von ~1 Mio. Artikeln ∙ n KB ergibt eine Größe im GB-Bereich. Nix, was man nicht bewältigen könnte (schlimmer wärs im TB-Bereich … Festplatten-dd(=disk-dump, d.h. kopieren) lässt grüßen ;) > Die Textbasis wäre halt nochmal deutlich grösser als die Leipziger > Variante, aber ob das für uns auch einen echten Mehrwert bringen > würde, darf durchaus angezweifelt werden. Obs was bringt, ist eine gute Frage. Ich denke jedoch, was die Machbarkeit/Rechendauer angeht, ist das machbar (;)). > Karl Köckemann: > >Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie > >überall. > > Klar, aber die meisten Artikel in der Wikipedia sind vielfach > gegengelesen bzw. korrigiert worden … wenigstens in der Theorie > sollten deshalb nur im akzeptablen Maße Rechtschreibfehler auftreten. Die Artikelbasis ist (bei häufig frequentierten Lemmata) sicherlich gründlich gegengelesen worden. Allerdings schleichen sich bei den letzten Änderungen auch viele Rechtschreibfehler ein. Es gibt bei der (deutschen) Wikipedia das System der gesichteten Versionen (d.h., dass Änderungen von Nich-Sichtern von Sichtern (erfahrenen Autoren) nochmal gegengelesen werden und, wenn nicht vandaliert oder der Artikel verschlechtert wurde (z.B. hier Rechtschreibfehler), als gesichtet markiert werden). Wenn man nun nur diese (jeweils letzten) gesichteten Versionen nimmt, kann man die Wahrscheinlichkeit von Rechtschreibfehlern gegen Null führen. Mann kann sich nun den (größeren) Dump mit allen Versionen holen, und den verarbeiten (ist, glaub ich, ne Datenbank, keine Ahnung wie ich die anpacken sollte). Oder man holt sich per API jeweils 50 Versionen (die Erfahrung zeigt, dass wohl nur 25 möglich sind) (mit einem Bot-/Adminaccount gehen 10mal so viel). Wie man das macht, wüsste ich. > >Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch > >wird die Relevanz für den allgemeinen Gebrauch von daraus gewonnenen > >Worthäufigkeiten extrem variieren. > > Das ist allerdings wahr, aber jede Textquelle hat ihre spezifischen > Vor- wie Nachteile. Zwar gibt es in Fachartikeln auch viele Fremdwörter und lexikatypische Begriffe (Einzelnachweise, Quellen, Weblinks, …), welche letzteren man neben der Wikisyntax auch noch aus der Textbasis entfernen müsste. Aber im Großen und Ganzen, denke ich, besteht die Wikipedia auch nur aus normalem Text. Aber ich denke auch, dass, wie von Ulf schon angedacht, der Wert der Worthäufigkeiten überschätzt ist, und man den Fokus mehr auf die Buchstabenfolgen legen muss (die Worthäufigkeiten gehen dann eh unter ?). Gruß, Martin