Hehe foi exatamente isso que eu fiz na segunda versão: http://forum.openstreetmap.org/viewtopic.php?pid=408056#p408056
2014-03-23 19:04 GMT-03:00 Paulo Carvalho <[email protected]>: > Sugiro dividir o valor da distância pelo número de caracteres de um dos > operandos. Em ambos os exemplos a distância é 1. Mas se relativizar, fica > 25% para o primeiro exemplo e 3% para o segundo. > > > Em 23 de março de 2014 16:01, Hermann Peifer <[email protected]> escreveu: > >> >> Nossa! Isso foi rápido. Nem tive tempo para olhar os detalhes dos >> resultados, mas vou fazer logo. >> >> A distäncia Levenshtein é absoluta, não é? Digamos: estes dois exemplos >> tem ambos uma distância de 1: >> >> 'RUA A' <-> 'RUA B' >> 'RUA MARECHAL ARTHUR COSTA E SILVA' <-> 'RUA MARECHAL ARTUR COSTA E SILVA' >> >> No primeiro exemplo, um dos dois nomes seria completamente errado e no >> segundo exemplo falta só uma letra no meio de um nome comprido. Vou pensar >> no assunto. >> >> Abçs, Hermann >> >> PS: >> >> Agora tambem coloquei os nomes dos municípios na minha pasta: >> MUE250GC_SIR.txt, baseado no shapefile 43MUE250GC_SIR.shp do IBGE >> 496 municípios com código e nome, 10 kb, texto UTF-8, sep = tab >> http://ubuntuone.com/1uCkqoBdecUmXgsMw8lSQC >> >> Minha NORMALIZACAO does nomes das ruas do OSM era asim: >> >> $ cat scripts/translit.awk >> >> { >> $0 = toupper($0) >> gsub(/[ÀÁÂÃĪ]/, "A") >> gsub(/Ç/, "C") >> gsub(/[ÈÉÊ]/, "E") >> gsub(/Í/, "I") >> gsub(/Ñ/, "N") >> gsub(/[ÓÔÕÖ°º]/, "O") >> gsub(/[ÚÜ]/, "U") >> gsub(/ß/, "SS") >> >> print >> >> } >> >> On 2014-03-23 18:31, Fernando Trebien wrote: >>> >>> Tentei, acho que os resultados são interessantes. Por isso, acabei >>> postando no fórum: >>> http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015 >>> >>> 2014-03-23 12:01 GMT-03:00 Hermann Peifer <[email protected]>: >>>> >>>> >>>> Olá, >>>> >>>> Fiz algumas pesquisas provisórias, pegando os dados do RS: >>>> >>>> O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre >>>> eles tem uma boa quantidade de varias formas de ruas sem nome, veja o >>>> anexo. >>>> >>>> Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no >>>> ubuntu.com: >>>> >>>> 1) municipio_cep_RUA_CNEFE.txt >>>> Código do municipio, CEP e NOME DA RUA, segundo o CNEFE >>>> 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação >>>> http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs >>>> >>>> >>>> 2) municipio_rua_RUA_OSM.txt >>>> Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM >>>> 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação >>>> http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9 >>>> >>>> Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para >>>> facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz >>>> dessa forma para evitar de mexer com as duas listas). >>>> >>>> Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a >>>> distância Levenshtein, ou algo semelhante. >>>> >>>> Alguem quer tentar ? >>>> >>>> Abçs, Hermann >>>> >>>> >>>> Anexo >>>> >>>> Casos Nome >>>> 215 RUA SEM DENOMINACAO >>>> 163 RUA SEM NOME >>>> 91 RUA SEM NOME 2 >>>> 88 BECO SEM NOME >>>> 84 RUA SEM NOME 1 >>>> 77 BECO SEM DENOMINACAO >>>> 68 RUA SEM NOME 3 >>>> 67 ESTRADA SEM DENOMINACAO >>>> 66 RUA SEM DENOMINACAO 2 >>>> 60 TRAVESSA SEM NOME >>>> 57 RUA SEM DENOMINACAO 1 >>>> 57 ESTRADA SEM NOME >>>> 54 RUA SEM NOME 4 >>>> 45 RUA SEM DENOMINACAO 3 >>>> 43 RUA SEM NOME 5 >>>> 38 BECO SEM NOME 2 >>>> 37 RUA SEM DENOMINACAO 4 >>>> 36 TRAVESSA SEM DENOMINACAO >>>> 36 BECO SEM NOME 1 >>>> 33 RUA SEM NOME 6 >>>> 28 ESTRADA SEM NOME 2 >>>> 27 ESTRADA SEM NOME 1 >>>> 26 RUA SEM DENOMINACAO 5 >>>> 25 RUA CASEMIRO DE ABREU >>>> 23 BECO SEM NOME 3 >>>> 22 RUA SEM NOME 8 >>>> 22 RUA SEM NOME 7 >>>> 21 BECO SEM NOME 4 >>>> 20 ESTRADA SEM DENOMINACAO 2 >>>> >>>> >>>> >>>> On 2014-03-23 14:24, Thiago Marcos P. Santos wrote: >>>>> >>>>> >>>>> 2014-03-23 14:53 GMT+02:00 Fernando Trebien >>>>> <[email protected]>: >>>>>> >>>>>> >>>>>> Pelo que entendi é no processamento, pra poder comparar as duas bases >>>>>> tendo menos falsas diferenças. >>>>>> >>>>> >>>>> Eh.... a qualidade dos dados está realmente bastante questionável.... >>>>> >>>>> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as >>>>> pérolas que encontrei: >>>>> >>>>> RUA SEMINTERIO >>>>> RUA DO CEMINTERIO >>>>> RUA CEMINTERIO >>>>> >>>> >>>> >>>> >>>> >>>> >>>> _______________________________________________ >>>> Talk-br mailing list >>>> [email protected] >>>> https://lists.openstreetmap.org/listinfo/talk-br >>> >>> >>> >>> >> >> >> >> _______________________________________________ >> Talk-br mailing list >> [email protected] >> https://lists.openstreetmap.org/listinfo/talk-br > > > > _______________________________________________ > Talk-br mailing list > [email protected] > https://lists.openstreetmap.org/listinfo/talk-br > -- Fernando Trebien +55 (51) 9962-5409 "The speed of computer chips doubles every 18 months." (Moore's law) "The speed of software halves every 18 months." (Gates' law) _______________________________________________ Talk-br mailing list [email protected] https://lists.openstreetmap.org/listinfo/talk-br
