Thursday 06 of December 2007 23:28:53 catface napisał(a):

> pracuje nad parserem stron blogów które będą wyławiały z poszczególnych
> blogów słowa które mogłyby sugerować choćby skłonności samobójcze lub stany

Oczywiście przy ambitnym założeniu, że strona jest poprawnym XMLem, co raczej 
jest bardzo ambitnym założeniem. Moim zadniem do twoich potrzeb wystarczy 
wyprucie body i usunięcie tagów - w wyniku dostajesz plaintext wpisów w 
blogu. Oba cięcia robisz regexpami, nie zawracając głowy zadnemu parserowi. 
Zwłąszcza, że potrzebujesz słów kluczowych a nie ładnej reprezentacji 
tekstowej.

BTW z zawodowej ciekawości, jaki masz materiał porównawczy? Bo przy 
odpowiednio dużym zasobie można by to poszczuć bibliotekami antyspamowymi - 
tylko zamiast spam/niespam to samobójca/niesamobójca. Analiza statystyczna ta 
sama.

Pozdrawiam i czy mógłbym prosić o "keep me informed on progress"?

-- 
 Pawel Kraszewski
 http://www.kraszewscy.net

Odpowiedź listem elektroniczym