Utilizando os artigos passados, documentações e dicas eu estou conseguindo iniciar um projeto para classificação de frases. Esta ainda muito cru mas já começa a ter os primeiro resultados. Onde eu criri uma lista de palavras armazenadas no banco.
Um dos maiores problemas que tenho enfrentado é o internetes e claro o proprio portugues. Onde convenhamos ler o que se escreve hoje em dia esta cada vez mais """difissiu""". Mesmo assim estou criando uma função que consegue ler uma fazer e atribuir um valor a ela sendo 0,1 ou 2 e com isso tomo a ação necessária.... Vamos amadurecer mais a ideia, e depois claro quero mostrar a todos. Mesmo assim obrigado por todas as dicas e informações, principalmente ao stan e o alceu. Ricardo Stock www.stocksistemas.com.br ----- Original Message ----- From: Stanislaw Pusep To: [email protected] Sent: Thursday, April 18, 2013 10:03 AM Subject: Re: [SP-pm] analise de texto Não dá: ele é high-level demais. O que pode ser feito é uma gambiarra: pre-processar o documento e representá-lo com hashes de seus tokens customizados. Uma excelente referencia: http://hunch.net/~jl/projects/hash_reps/index.html ABS() 2013/4/18 Alceu Rodrigues de Freitas Junior <[email protected]> De fato foram ótimas dicas. Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar como tokens mais de uma palavra? []'s Alceu Em 17-04-2013 12:22, Marcio Ferreira escreveu: Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e poupam tempo https://metacpan.org/module/List::Compare https://metacpan.org/module/Algorithm::Combinatorics Esse tipo de trabalho você precisa saber o que quer e ir construindo aos poucos. E vai pegando essas manhas que o Stan citou. Recomendo também distribuir o trabalho com https://metacpan.org/module/Parallel::ForkManager, MAS cuidado!! Saiba qual ponto distribuir. O run_on_finish é útil usado com moderação, ele escreve no disco, aí pode ser um baita gargalo =S. Use um https://metacpan.org/module/Devel::NYTProf pra saber onde otimizar. Stan++ #ótimo artigo! []s, Marcio Ferreira skype: marcio.ferreir4 (21) 8365-7768 2013/4/16 Stanislaw Pusep <[email protected] <mailto:[email protected]>> Quanto ao módulo de stopwords em português, existe um, sim: https://metacpan.org/module/Lingua::StopWords Outra coisa interessante é aplicar um stemmer: https://metacpan.org/module/Lingua::Stem::Snowball Também vale notar uma técnica "ninja": quem disse que token precisa corresponder a UMA palavra? Usando bi- ou tri-gramas, observei aumento considerável na precisão da categorização de textos curtos. Ah, um detalhe importantíssimo: para mensurar o desempenho dos modelos estatísticos, é comum usar uma "matriz da confusão" (https://en.wikipedia.org/wiki/Confusion_matrix). Por fim, existem coisas prontas para análise de texto usando Hadoop/Mahout: https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html =begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: [email protected] L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer ------------------------------------------------------------------------------ =begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: [email protected] L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer
=begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: [email protected] L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer
