Pessoal, Fiz uns testes dos nomes de Ruas no OSM-Brasil. Objetivo era chegar numa base "limpa" para cruzar com o CNEFE, mas acho que já é um resutlado de interesse por sí só, então já adianto neste email
Basicamente eu fiz a comparação dos nomes de ruas no OSM dentro de cada cidade, para tentar achar nomes duplicados e/ou com algum erro de grafia. Para isso fiz um pareamento fuzzy/probabilistico entre os nomes de ruas em cada cidade, usando o método de Levenshtein ( threshold = 0.1). Resultados: Dos 1.392k ways (seguimentos de ruas) que o OSM tem, 964k (69%) destes estão sem nome. Portanto há 428 mil ruas com nome. Colapsando por nome de rua e município (usando a divisão municipal de 2010 do IBGE) ficamos com 297k ruas (na verdade são pares de nome de rua-município). Aí apliquei o método mesmo método de Levenshtein ( threshold = 0.1) e encontrei 10.2k ruas que potencialmente são duplicadas, devido a typos no nome, etc. Coloquei estes casos nestes arquivos (é o mesmo dado, só para facilitar o acesso) excel: https://www.dropbox.com/s/9akoujoaww4xqf1/Erros_Nomes_Ruas_Municipios_OSM.xls csv: https://www.dropbox.com/s/jjd67ayn22vgyqo/Erros_Nomes_Ruas_Municipios_OSM.csv Alguém se anima a encarar estas correções? Como encaminhar isso? abs Lucas _______________________________________________ Talk-br mailing list [email protected] https://lists.openstreetmap.org/listinfo/talk-br
