Witajcie,

Przez wakacje CC Polska, z pomocą Ewy Bartosiewicz, studentki
informatyki z PW oraz ICM UW (który udostępnił nam serwer),
przeprowadziła crawl dużej próby polskich stron internetowych, w
poszukiwaniu treści na licencjach Creative Commons. W 40 milionach stron
z domeny .pl znaleźliśmy 170 tysięcy domen i subdomen, które
potencjalnie są na licencji CC (lub jedynie uzywają tego zwrotu).

Stoi przed nami zadanie przeanalizowania tych danych - chcemy wiedzieć
jakie zostały użyte licencje, czy zostały prawidłowo opisane, i jakiego
rodzaju treści zostały udostępnione.

Ponieważ analizę 170 tysięcy stron łatwiej robić automatycznie niż
ręcznie, poszukujemy informatyka, który chciałby wziąć udział w naszym
projekcie. Szukamy osoby potrafiącej pisać proste skrypty bazodanowe w
celu analizy dużych zbiorów tekstowych.

Chcemy wyniki tego badania zaprezentować za miesiąc na międzynarodowym
zjeździe Creative Commons. Oferujemy pracę wolontariacką lub za drobnym
wynagrodzeniem nad projektem, który jest jedną z pierwszych prób analizy
na dużą skalę wykorzystania licencji CC.

Istnieje również możliwość współpracy przy kontynuacji projektu
crawlowania polskiego internetu z pomocą stworzonego przez Ewę narzędzia.

Będziemy wdzięczni za przesłanie informacji do zainteresowanych osób -
chętnych prosimy o kontakt pod [email protected]

pozdrowienia,

Alek

-- 
dr Alek Tarkowski
koordynator / public lead
Creative Commons Polska / Poland
www: http://creativecommons.pl
identica: http://identi.ca/alek
twitter: http://twitter.com/atarkowski

_______________________________________________
Cc-pl mailing list
[email protected]
http://lists.ibiblio.org/mailman/listinfo/cc-pl

Odpowiedź listem elektroniczym