Não dá: ele é high-level demais. O que pode ser feito é uma gambiarra: pre-processar o documento e representá-lo com hashes de seus tokens customizados. Uma excelente referencia: http://hunch.net/~jl/projects/hash_reps/index.html
ABS() 2013/4/18 Alceu Rodrigues de Freitas Junior <[email protected]> > De fato foram ótimas dicas. > > Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar > como tokens mais de uma palavra? > > []'s > Alceu > > Em 17-04-2013 12:22, Marcio Ferreira escreveu: > >> Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e >> poupam tempo >> https://metacpan.org/module/**List::Compare<https://metacpan.org/module/List::Compare> >> https://metacpan.org/module/**Algorithm::Combinatorics<https://metacpan.org/module/Algorithm::Combinatorics> >> >> Esse tipo de trabalho você precisa saber o que quer e ir construindo aos >> poucos. E vai pegando essas manhas que o Stan citou. >> >> Recomendo também distribuir o trabalho com >> https://metacpan.org/module/**Parallel::ForkManager<https://metacpan.org/module/Parallel::ForkManager>, >> MAS cuidado!! Saiba >> qual ponto distribuir. >> O run_on_finish é útil usado com moderação, ele escreve no disco, aí >> pode ser um baita gargalo =S. >> >> Use um >> https://metacpan.org/module/**Devel::NYTProf<https://metacpan.org/module/Devel::NYTProf>pra >> saber onde otimizar. >> >> Stan++ #ótimo artigo! >> >> >> []s, >> >> Marcio Ferreira >> skype: marcio.ferreir4 >> (21) 8365-7768 >> >> >> 2013/4/16 Stanislaw Pusep <[email protected] <mailto: >> [email protected]>> >> >> >> Quanto ao módulo de stopwords em português, existe um, sim: >> >> https://metacpan.org/module/**Lingua::StopWords<https://metacpan.org/module/Lingua::StopWords> >> Outra coisa interessante é aplicar um stemmer: >> >> https://metacpan.org/module/**Lingua::Stem::Snowball<https://metacpan.org/module/Lingua::Stem::Snowball> >> Também vale notar uma técnica "ninja": quem disse que token precisa >> corresponder a UMA palavra? Usando bi- ou tri-gramas, observei >> aumento considerável na precisão da categorização de textos curtos. >> Ah, um detalhe importantíssimo: para mensurar o desempenho dos >> modelos estatísticos, é comum usar uma "matriz da confusão" >> >> (https://en.wikipedia.org/**wiki/Confusion_matrix<https://en.wikipedia.org/wiki/Confusion_matrix> >> ). >> Por fim, existem coisas prontas para análise de texto usando >> Hadoop/Mahout: https://cwiki.apache.org/** >> MAHOUT/twenty-newsgroups.html<https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html> >> > > =begin disclaimer > Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ > SaoPaulo-pm mailing list: [email protected] > L<http://mail.pm.org/mailman/**listinfo/saopaulo-pm<http://mail.pm.org/mailman/listinfo/saopaulo-pm> > > > =end disclaimer >
=begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: [email protected] L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer
