Pawel Kraszewski wrote: > Thursday 06 of December 2007 23:28:53 catface napisał(a): > >> pracuje nad parserem stron blogów które będą wyławiały z poszczególnych >> blogów słowa które mogłyby sugerować choćby skłonności samobójcze lub stany > > Oczywiście przy ambitnym założeniu, że strona jest poprawnym XMLem, co raczej > jest bardzo ambitnym założeniem.
Zdaje się, że można użyć JTidy do konwersji HTML do poprawnego XHTML. O ile pamiętam jeden z kumpli z pracy używał właśnie JTidy do parsowania HTML w botach grających w gry przeglądarkowe. :) Nie wiem, czy catface nie gadał już w tej sprawie z alexem? -- "Meaning is differential not referential" Kazimierz Pogoda Nordic Consulting & Development Company http://www.ncdc.pl/
