Em 11 de maio de 2012 14:17, Jean Domingues <[email protected]>escreveu:
> Euler, na pratica nao sei como ele faz o calculo. Eu tinha uma rotina de > calculo de similaridade, baseado no algoritimo ssnc, que da um peso para a > comparacao baseado em janelas de caracteres. Nesse caso, eu ia comparando > janelas de textos (ex.: rato roeu a roupa... tem 4 palavras, entao, ia > verificando a similaridade em janelas com 4 palavras no texto). A janela > que me desse a maior similaridade era aceita. Nesse caso, acho que terei > que adotar a mesma tecnica, para identificar qual parte do texto foi > responsavel pelo valor retornado. Eu preciso disso, pq eu preciso grifar o > texto na hora de apresentar pro usuario. > > Eu utilizo uma ferramenta fora do SGBD para isso, no caso utilizo o Lucene. Me atende e ainda por cima separa uma quantidade de caracteres, por exemplo 150 caracteres, em que contenham a similaridade e mando adicionar um <b></b> na similaridade. Como ele já faz os cáculos e utiliza-se de radicais da palavra buscada consigo pesquisar limão e receber limoeiro, limonada, lima e etc... porque o radical das palavras era lim e a similaridade calculada foi alta. Mas cada caso é um caso diferente...
_______________________________________________ pgbr-geral mailing list [email protected] https://listas.postgresql.org.br/cgi-bin/mailman/listinfo/pgbr-geral
