Hi, Mir sind jetzt öfters schon diverse Anekdoten über die Inhaltsstruktur der deutschsprachigen Wikipedia über den Weg gelaufen, konnte die aber meist nicht anhand reputabler Quellen nachvollziehn. Läuft die Wikipedia über mit Hochschullehrerbiographien oder Harry Potter Artiklen? Gammeln da die Artikel zu Vierligaballschubsern ungelesen herum? Wieviele Artikel gibt es eigentlich zur Netzkultur? Liesst jemand die Artikel zu den 36 Strassen in Lübeck?
Um mir selbst ein Bild zu machen habe ich die Kategoriestruktur, Seiten- daten und Zugriffsdaten von kurz vor Weihnachten gesammelt und ausge- wertet und als interaktive "Treemap" (Grössenverhältnisse werden durch verschieden grosse und verschieden gefärbte verschachtelte Blöcke dar- gestellt) ins Netz gestellt. Wenn man einen schnellen Rechner mit viel Speicher und Adobe Flash hat, und ein paar statistische Grundkenntnisse, und alle wichtigen Tabs ge- schlossen hat, kann man sich das unter http://katograph.appspot.com/ angucken. Ist die Anwendung einmal geladen, kann man sich die Daten die zur Bestimmung der Färbung und der Blockgrösse herangezogen werden sollen aussuchen und wie tief gezoomt werden soll (die option "Zu viel" ist dort durchaus ernst gemeint, wenn man zum Beispiel in der Räumlich- en Systematik ist). Dabei stehen diverse Metriken zur Verfügung. Die Standardeinstellung ist es, die Blöcke nach dem Median der Zugriffe zu färben und nach der Zahl der Artikel in der Kategorie (inklusive allen Unterkategorien) zu ska- lieren. Die Farben verlaufen dabei von hellem Blau nach Orange. Als Beispiel, in der Kategorie "Chemie" findet man einen Haufen Blöche in Orange, bis auf einen recht grossen grauen Block, die "Chemiker". Der ist grau weil der Median der Zugriffe auf Artikel in der Kategorie bei 7 liegt, also wurden die Artikel in der Kategorie zur Hälfte min- destens 7 mal aufgerufen und zur Hälfte höchstens 7 mal aufgerufen (im Beobachtungszeitraum von drei Tagen). Ein Drittel der Kategorien hat einen niedrigeren Median, zwei Drittel haben einen höheren, daraus ergibt sich die Färbung des Blocks. Die Ka- tegorie "Lebensmittelchemie" liegt optisch in der Nähe, hat aber einen Median von 78, was nur von 4% der Kategorien überboten wird, daher hat die Kategorie eine knallige Orangefärbung. Der "Chemiepreis" hingegen hat einen Median von 5 und ist damit hellblau. Ändert man die Einstellung für die Grössenbestimmung z.B. auf die Option "Zugriffe (Summe)" wird die Kategorie "Chemiker" ein ganzes Stück klei- ner, da absolut nicht so oft auf die Artikel in der Kategorie zuge- griffen wurde wie zum Beispiel auf die Chemischen Verbindungen. Ändert man es auf "Zugriffe (Median)" wird sie nochmal kleiner, weil auch auf die Artikel verteilt andere Kategorien viel besser dastehen. Zur Verfügung stehen für die Färbung die Optionen Artikelzahl, Zugriffe insgesamt, im median, im mittel, und die Standardabweichung, sowie bei der Grössenbestimmung das jeweilige Inverse, damit man auch die sonst zu klein dargestellten Sachen zu Gesicht bekommt. So kann man sich durch das gesamte Kategoriesystem navigieren. Natürlich lassen sich keinesfalls leicht Schlüsse aus den Daten ziehen, nur weil die E-Sportler mit nur 30 Artikeln insgesamt so viele Zugriffe hatten wie die Bogenschützen mit gut 300 Artikeln, heisst das ja nicht, dass man dringend einen Ausgleich schaffen sollte. Oder der eine Hochschul- lehrer aus Jordanien viel stärker nachgefragt wird als der zyprische. Genaugenommen wird man anhand der Datenmasse überhaupt Probleme haben, aus den Ansichten etwas mitzunehmen, ausser unterbewusst mal einen Ein- druck bekommen zu haben. Einige nützliche Daten fallen allerdings auch auf, so haben wir zum Beispiel bald 328 000 Personen, aber nur 300 000 Personen nach Geschlecht, also fehlt bei 28 000 Personen wohl diese Zu- ordnung. In jedem Fall kann es recht kurzweilig sein da durch die Ge- gend zu klicken, in dem Sinne, viel Spass. -- Björn Höhrmann · mailto:bjo...@hoehrmann.de · http://bjoern.hoehrmann.de Am Badedeich 7 · Telefon: +49(0)160/4415681 · http://www.bjoernsworld.de 25899 Dagebüll · PGP Pub. KeyID: 0xA4357E78 · http://www.websitedev.de/ _______________________________________________ WikiDE-l mailing list WikiDE-l@lists.wikimedia.org https://lists.wikimedia.org/mailman/listinfo/wikide-l