Re: [SP-pm] analise de texto

Ricardo Stock Thu, 18 Apr 2013 06:52:18 -0700

Utilizando os artigos passados, documentações e dicas eu estou conseguindo 
iniciar um projeto para classificação de frases. Esta ainda muito cru mas já 
começa a ter os primeiro resultados. Onde eu criri uma lista de palavras 
armazenadas no banco.


Um dos maiores problemas que tenho enfrentado é o internetes e claro o proprio 
portugues. Onde convenhamos ler o que se escreve hoje em dia esta cada vez mais 
"""difissiu""".

Mesmo assim estou criando uma função que consegue ler uma fazer e atribuir um 
valor a ela sendo 0,1 ou 2 e com isso tomo a ação necessária.... Vamos 
amadurecer mais a ideia, e depois claro quero mostrar a todos.

Mesmo assim obrigado por todas as dicas e informações, principalmente ao stan e 
o alceu.

Ricardo Stock
www.stocksistemas.com.br
  ----- Original Message ----- 
  From: Stanislaw Pusep 
  To: [email protected] 
  Sent: Thursday, April 18, 2013 10:03 AM
  Subject: Re: [SP-pm] analise de texto


  Não dá: ele é high-level demais. O que pode ser feito é uma gambiarra: 
pre-processar o documento e representá-lo com hashes de seus tokens 
customizados. Uma excelente referencia: 
http://hunch.net/~jl/projects/hash_reps/index.html



  ABS()




  2013/4/18 Alceu Rodrigues de Freitas Junior <[email protected]>

    De fato foram ótimas dicas.

    Só fiquei com uma dúvida: como controlar o AI::Categorizer para utilizar 
como tokens mais de uma palavra?

    []'s
    Alceu

    Em 17-04-2013 12:22, Marcio Ferreira escreveu:

      Falando ainda de matrix e comparações, 2 módulos que me ajudam muito e
      poupam tempo
      https://metacpan.org/module/List::Compare
      https://metacpan.org/module/Algorithm::Combinatorics

      Esse tipo de trabalho você precisa saber o que quer e ir construindo aos
      poucos. E vai pegando essas manhas que o Stan citou.

      Recomendo também distribuir o trabalho com
      https://metacpan.org/module/Parallel::ForkManager, MAS cuidado!! Saiba
      qual ponto distribuir.
      O run_on_finish é útil usado com moderação, ele escreve no disco, aí
      pode ser um baita gargalo =S.

      Use um https://metacpan.org/module/Devel::NYTProf pra saber onde otimizar.

      Stan++ #ótimo artigo!


      []s,

      Marcio Ferreira
      skype: marcio.ferreir4
      (21) 8365-7768



      2013/4/16 Stanislaw Pusep <[email protected] 
<mailto:[email protected]>>


          Quanto ao módulo de stopwords em português, existe um, sim:
          https://metacpan.org/module/Lingua::StopWords
          Outra coisa interessante é aplicar um stemmer:
          https://metacpan.org/module/Lingua::Stem::Snowball
          Também vale notar uma técnica "ninja": quem disse que token precisa
          corresponder a UMA palavra? Usando bi- ou tri-gramas, observei
          aumento considerável na precisão da categorização de textos curtos.
          Ah, um detalhe importantíssimo: para mensurar o desempenho dos
          modelos estatísticos, é comum usar uma "matriz da confusão"
          (https://en.wikipedia.org/wiki/Confusion_matrix).
          Por fim, existem coisas prontas para análise de texto usando
          Hadoop/Mahout: https://cwiki.apache.org/MAHOUT/twenty-newsgroups.html



    =begin disclaimer
      Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
    SaoPaulo-pm mailing list: [email protected]
    L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
    =end disclaimer





------------------------------------------------------------------------------


  =begin disclaimer
     Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
   SaoPaulo-pm mailing list: [email protected]
   L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
  =end disclaimer

=begin disclaimer
   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
 SaoPaulo-pm mailing list: [email protected]
 L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer

Re: [SP-pm] analise de texto

Responder a