Witajcie, Przez wakacje CC Polska, z pomocą Ewy Bartosiewicz, studentki informatyki z PW oraz ICM UW (który udostępnił nam serwer), przeprowadziła crawl dużej próby polskich stron internetowych, w poszukiwaniu treści na licencjach Creative Commons. W 40 milionach stron z domeny .pl znaleźliśmy 170 tysięcy domen i subdomen, które potencjalnie są na licencji CC (lub jedynie uzywają tego zwrotu).
Stoi przed nami zadanie przeanalizowania tych danych - chcemy wiedzieć jakie zostały użyte licencje, czy zostały prawidłowo opisane, i jakiego rodzaju treści zostały udostępnione. Ponieważ analizę 170 tysięcy stron łatwiej robić automatycznie niż ręcznie, poszukujemy informatyka, który chciałby wziąć udział w naszym projekcie. Szukamy osoby potrafiącej pisać proste skrypty bazodanowe w celu analizy dużych zbiorów tekstowych. Chcemy wyniki tego badania zaprezentować za miesiąc na międzynarodowym zjeździe Creative Commons. Oferujemy pracę wolontariacką lub za drobnym wynagrodzeniem nad projektem, który jest jedną z pierwszych prób analizy na dużą skalę wykorzystania licencji CC. Istnieje również możliwość współpracy przy kontynuacji projektu crawlowania polskiego internetu z pomocą stworzonego przez Ewę narzędzia. Będziemy wdzięczni za przesłanie informacji do zainteresowanych osób - chętnych prosimy o kontakt pod [email protected] pozdrowienia, Alek -- dr Alek Tarkowski koordynator / public lead Creative Commons Polska / Poland www: http://creativecommons.pl identica: http://identi.ca/alek twitter: http://twitter.com/atarkowski _______________________________________________ Cc-pl mailing list [email protected] http://lists.ibiblio.org/mailman/listinfo/cc-pl
