Thursday 06 of December 2007 23:28:53 catface napisał(a): > pracuje nad parserem stron blogów które będą wyławiały z poszczególnych > blogów słowa które mogłyby sugerować choćby skłonności samobójcze lub stany
Oczywiście przy ambitnym założeniu, że strona jest poprawnym XMLem, co raczej jest bardzo ambitnym założeniem. Moim zadniem do twoich potrzeb wystarczy wyprucie body i usunięcie tagów - w wyniku dostajesz plaintext wpisów w blogu. Oba cięcia robisz regexpami, nie zawracając głowy zadnemu parserowi. Zwłąszcza, że potrzebujesz słów kluczowych a nie ładnej reprezentacji tekstowej. BTW z zawodowej ciekawości, jaki masz materiał porównawczy? Bo przy odpowiednio dużym zasobie można by to poszczuć bibliotekami antyspamowymi - tylko zamiast spam/niespam to samobójca/niesamobójca. Analiza statystyczna ta sama. Pozdrawiam i czy mógłbym prosić o "keep me informed on progress"? -- Pawel Kraszewski http://www.kraszewscy.net
