Re: [SP-pm] analise de texto

Alceu Rodrigues de Freitas Junior Tue, 16 Apr 2013 04:42:01 -0700

Tiago,

Um passo à passo vou ficar devendo até porque o assunto é um tantocomplexo e vai depender fortemente do tipo que dados que você vai analisar.

Vale a pena ler um pouco de teoria sobre Naive Bayes (existe muitomaterial disponível na internet) para que você entenda melhor comotrabalhar com o corpus que for criando.

Basicamente você vai pegar algumas mensagens e vai categorizá-las vocêmesmo.

Depois vai passar isto para o AI::Categorizer fazer parsing dessasmensagens (criando tokens). Por estatística, ele vai entender que umamensagem pode ou não fazer parte daquela categoria pelos tokens encontrados.

Depois que o categorizador recebeu este treinamento, você pode passarpara ele outras mensagens e ele vai tentar repetir o processo. Claro quenão é um método determinístico, algumas vezes ele vai errar o "chute".Você terá que refinar o processo algumas vezes até ter resultadossatisfatórios. Mas é um trabalho contínuo se as mensagens forem mudando.

Uma forma boa de refinar o processo é utilizar "stop words", quebasicamente é dizer para o categorizar o que ele deve ignorar comotokens. Infelizmente não achei um módulo para fazer isto que utilizassepalavras em português, mas você sempre pode incluir sua lista.


[]'s
Alceu

Em 14-04-2013 09:24, Tiago Peczenyj escreveu:

Alceu

Vc podia dar mais detalhes do seu trabalho? Como vc categorizava as
mensagens, de repente mostrando um passo a passo a partir de algum
exemplo mais simples... achei isso bem legal!


2013/4/14 Alceu Rodrigues de Freitas Junior <[email protected]
<mailto:[email protected]>>

    Olá Ricardo,

    Eu usei a distro AI::Categorizer
    
(http://search.cpan.org/~__kwilliams/AI-Categorizer-0.09/__lib/AI/Categorizer.pm
    
<http://search.cpan.org/~kwilliams/AI-Categorizer-0.09/lib/AI/Categorizer.pm>)
    para categorizar centenas de mensagens de erros diários do
    middleware de integração aonde trabalho atualmente.

    O AI::Categorizer tem a interface meio confusa, o POD não ajuda
    muito, mas se você pesquisar em perlmonks.org <http://perlmonks.org>
    você vai encontrar referências interessantes.

    Eu usei o algoritmo de Naive Bayes, que é estatístico, mas funciona
    suficientemente bem na maioria dos casos. Você pode querer tentar
    outros.

    Dê também uma olhada o projeto Weka
    (http://www.cs.waikato.ac.nz/__ml/weka/
    <http://www.cs.waikato.ac.nz/ml/weka/>), não é Perl mas pode te
    ajudar a decidir mais facilmente que algoritmo usar.

    []'s

    Em 13-04-2013 18:16, Ricardo Stock escreveu:

              Ola para todos.
              gostaria da ajuda da galera para a descoberta de algum
        módulo ou
        caso alguem já tenha trabalhado com analise de texto.
              Alguem poderia me dar alguma dica ou caminho das pedras para
        trabalhar com analise de texto, para dependendo da frase tomar
        determinada ação.
              No aguardo
        Ricardo Stock
        www.stocksistemas.com.br <http://www.stocksistemas.com.br>
        <http://www.stocksistemas.com.__br
        <http://www.stocksistemas.com.br>>


        =begin disclaimer
             Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
           SaoPaulo-pm mailing list: [email protected]
        <mailto:[email protected]>
           L<http://mail.pm.org/mailman/__listinfo/saopaulo-pm
        <http://mail.pm.org/mailman/listinfo/saopaulo-pm>>
        =end disclaimer


    =begin disclaimer
       Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
    SaoPaulo-pm mailing list: [email protected] <mailto:[email protected]>
    L<http://mail.pm.org/mailman/__listinfo/saopaulo-pm
    <http://mail.pm.org/mailman/listinfo/saopaulo-pm>>
    =end disclaimer




--
Tiago B. Peczenyj
Linux User #405772

http://about.me/peczenyj


=begin disclaimer
    Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
  SaoPaulo-pm mailing list: [email protected]
  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer


=begin disclaimer
  Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
SaoPaulo-pm mailing list: [email protected]
L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer

Re: [SP-pm] analise de texto

Responder a