É mesmo: a qualidade dos dados do IBGE pode ser um problema.
Acabei de abaixar todos os 1370 arquivos do RS com um total de 5 129 203
endereços. Nemhum deles tem um acento e todos os nomes em letras
maiúsculas :-( Alguns exemplos abaixo. Tambem já pensei no algoritmo
Levenshtein, mas agora estou na dúvidas si vale a pena mesmo.
Por outro lado: ainda acho que os "heat maps" poderiam fazer sentido,
para ilustrar o estágio do mapeamento.
Abraços, Hermann
RUA ALBINO PRIESTCH
RUA ANTONIO ALVES PEREIRA
RUA ADAO BRASIL
RUA PROJETADA 1
RUA PROJETADA 2
RUA VEREADORA LORINHA
RUA PROJETADA 3
...
ESTRADA LOC SAO SEBASTIAO A PTO BIGUA
ESTRADA PORTO BIGUA A ESQ SAO PEDRO
ESTRADA ESQ SAO PEDRO A POCO PRETO
...
RUA BARAO TRIUNFO
RUA SEM DENOMINACAO A
RUA SEM DENOMINACAO B
RUA SEM DENOMINACAO D
On 2014-03-22 19:56, Fernando Trebien wrote:
Uma idéia: o diff poderia ordenar as diferenças pela distância de
Levenshtein (http://en.wikipedia.org/wiki/Levenshtein_distance). No
início do arquivo, ficariam os nomes com o menor número de diferenças,
a maioria pequenos erros ortográficos ou com acentuação incorreta
(tanto no OSM quanto no cadastro do IBGE), muitas das quais teriam uma
solução imediatamente óbvia (dispensando que o mapeador tenha que
confirmar o nome na placa). No final, ficariam as diferenças mais
grosseiras (problemas de qualidade em ou ou no outro cadastro), cujo
conserto custaria mais para o mapeador, mas somariam um número bem
menor.
Uma rápida olhada no arquivo daria ao mapeador uma idéia de quanto
trabalho ele teria pela frente. Por exemplo, se forem 10000 diferenças
na sua cidade, mas só 250 realmente exigirem que ele verifique a placa
(o resto é aparentemente trivial), é muito mais provável que sinta
vontade de iniciar o processo de correção. Mas se o mapeador só souber
que são 10000 diferenças, pode nunca começar por achar que o trabalho
é difícil demais.
2014-03-22 14:11 GMT-03:00 wille
<wille-Y/[email protected]>:
oi, Hermann
Claro: faltam páginas em Português e talves outras adaptações (por
exemplo no algoritmo de comparação dos nomes: qual seria a tolerância
para dizer que 2 nomes são iguais: tolerância cero que nem na Lei
Seca?).
Os dados do IBGE tem muitas ruas com nomes abreviados ou sem os acentos...
Acho a ideia interessante, mas não consideraria prioritária, por dois
motivos: não estamos num estágio tão avançado de mapeamento quanto os
alemães e o os dados do IBGE não são de qualidade muito confiável.
abçs,
wille
Acho que no caso este projeto saísse do papel: tambem é preciso de
alguns voluntários do Brasil mesmo, alguns "verdadeiros mapeadores
brasileiros" que entendem melhor o sistema de endereços no Brasil.
Hermann
On 2014-03-22 15:50, Arlindo Pereira wrote:
Muito legal. Acho super válido, se não for tomar muito o seu tempo. Não
deixa de ser uma forma de contribuir com o projeto. =)
[]s
Arlindo Pereira
On Sat, Mar 22, 2014 at 11:16 AM, Hermann Peifer
<[email protected]
<mailto:[email protected]>> wrote:
On 2014-03-22 14:51, Hermann Peifer wrote:
[1] http://www.openstreetmap.org/__user/okilimu/diary
<http://www.openstreetmap.org/user/okilimu/diary>
[2] "Heat maps" por cidade/região, clique por exemplo: Berlim
http://regio-osm.de/__listofstreets/__kartenuebersicht.html
<http://regio-osm.de/listofstreets/kartenuebersicht.html>
Esqueci que daqueles heat maps vc pode chegar nas páginas com as
estatísticas. Aqui os números de uma pequena vila de 1000
habitantes, nem é município (usando Google Translate):
http://translate.google.com/__translate?sl=de&tl=pt&js=n&__prev=_t&hl=en&ie=UTF-8&u=__regio-osm.de%2Flistofstreets%__2Fevaluation%3Ftitle%__3DWiltingen%26country%__3DBundesrepublik%2BDeutschland
<http://translate.google.com/translate?sl=de&tl=pt&js=n&prev=_t&hl=en&ie=UTF-8&u=regio-osm.de%2Flistofstreets%2Fevaluation%3Ftitle%3DWiltingen%26country%3DBundesrepublik%2BDeutschland>
Hermann
_______________________________________________
Talk-br mailing list
Talk-br-3+rWM/WnaLOn4i5uJCXUsti2O/[email protected]
https://lists.openstreetmap.org/listinfo/talk-br
--
wille
http://wille.blog.br
_______________________________________________
Talk-br mailing list
Talk-br-3+rWM/WnaLOn4i5uJCXUsti2O/[email protected]
https://lists.openstreetmap.org/listinfo/talk-br
_______________________________________________
Talk-br mailing list
[email protected]
https://lists.openstreetmap.org/listinfo/talk-br