Tentei, acho que os resultados são interessantes. Por isso, acabei postando no fórum: http://forum.openstreetmap.org/viewtopic.php?pid=408015#p408015
2014-03-23 12:01 GMT-03:00 Hermann Peifer <[email protected]>: > > Olá, > > Fiz algumas pesquisas provisórias, pegando os dados do RS: > > O CNEFE tem ~130 000 nomes para avenidas, ruas e estradas gaúchas. Entre > eles tem uma boa quantidade de varias formas de ruas sem nome, veja o anexo. > > Nos dados OSM do RS tem 23 679 nomes de ruas. Eu carreguei 2 listas no > ubuntu.com: > > 1) municipio_cep_RUA_CNEFE.txt > Código do municipio, CEP e NOME DA RUA, segundo o CNEFE > 130175 linhas, 4.7 MB, texto UTF-8, sep = tecla de tabulação > http://ubuntuone.com/3yVwVRtk5bob8UcPL4EEjs > > > 2) municipio_rua_RUA_OSM.txt > Código do municipio, nome da rua, NOME NORMALIZADO DA RUA, segundo OSM > 23679 linhas, 1.1 MB, texto UTF-8, sep = tecla de tabulação > http://ubuntuone.com/4LFzmNYhB8zanUN0gjh7l9 > > Eu inventei aqueles NOMES NORMALIZADOS, baseado nos nomes do OSM para > facilitar a comparação, colocando tudo em maiúsculos e sem acentos (fiz > dessa forma para evitar de mexer com as duas listas). > > Ainda tenho duvidas si vale a pena de fazer uma comparação, usando o a > distância Levenshtein, ou algo semelhante. > > Alguem quer tentar ? > > Abçs, Hermann > > > Anexo > > Casos Nome > 215 RUA SEM DENOMINACAO > 163 RUA SEM NOME > 91 RUA SEM NOME 2 > 88 BECO SEM NOME > 84 RUA SEM NOME 1 > 77 BECO SEM DENOMINACAO > 68 RUA SEM NOME 3 > 67 ESTRADA SEM DENOMINACAO > 66 RUA SEM DENOMINACAO 2 > 60 TRAVESSA SEM NOME > 57 RUA SEM DENOMINACAO 1 > 57 ESTRADA SEM NOME > 54 RUA SEM NOME 4 > 45 RUA SEM DENOMINACAO 3 > 43 RUA SEM NOME 5 > 38 BECO SEM NOME 2 > 37 RUA SEM DENOMINACAO 4 > 36 TRAVESSA SEM DENOMINACAO > 36 BECO SEM NOME 1 > 33 RUA SEM NOME 6 > 28 ESTRADA SEM NOME 2 > 27 ESTRADA SEM NOME 1 > 26 RUA SEM DENOMINACAO 5 > 25 RUA CASEMIRO DE ABREU > 23 BECO SEM NOME 3 > 22 RUA SEM NOME 8 > 22 RUA SEM NOME 7 > 21 BECO SEM NOME 4 > 20 ESTRADA SEM DENOMINACAO 2 > > > > On 2014-03-23 14:24, Thiago Marcos P. Santos wrote: >> >> 2014-03-23 14:53 GMT+02:00 Fernando Trebien <[email protected]>: >>> >>> Pelo que entendi é no processamento, pra poder comparar as duas bases >>> tendo menos falsas diferenças. >>> >> >> Eh.... a qualidade dos dados está realmente bastante questionável.... >> >> Peguei um arquivo aleatório para testar (31235280500.TXT) e veja as >> pérolas que encontrei: >> >> RUA SEMINTERIO >> RUA DO CEMINTERIO >> RUA CEMINTERIO >> > > > > > > _______________________________________________ > Talk-br mailing list > [email protected] > https://lists.openstreetmap.org/listinfo/talk-br -- Fernando Trebien +55 (51) 9962-5409 "The speed of computer chips doubles every 18 months." (Moore's law) "The speed of software halves every 18 months." (Gates' law) _______________________________________________ Talk-br mailing list [email protected] https://lists.openstreetmap.org/listinfo/talk-br
