Uma idéia: o diff poderia ordenar as diferenças pela distância de Levenshtein (http://en.wikipedia.org/wiki/Levenshtein_distance). No início do arquivo, ficariam os nomes com o menor número de diferenças, a maioria pequenos erros ortográficos ou com acentuação incorreta (tanto no OSM quanto no cadastro do IBGE), muitas das quais teriam uma solução imediatamente óbvia (dispensando que o mapeador tenha que confirmar o nome na placa). No final, ficariam as diferenças mais grosseiras (problemas de qualidade em ou ou no outro cadastro), cujo conserto custaria mais para o mapeador, mas somariam um número bem menor.
Uma rápida olhada no arquivo daria ao mapeador uma idéia de quanto trabalho ele teria pela frente. Por exemplo, se forem 10000 diferenças na sua cidade, mas só 250 realmente exigirem que ele verifique a placa (o resto é aparentemente trivial), é muito mais provável que sinta vontade de iniciar o processo de correção. Mas se o mapeador só souber que são 10000 diferenças, pode nunca começar por achar que o trabalho é difícil demais. 2014-03-22 14:11 GMT-03:00 wille <[email protected]>: > oi, Hermann > > >> >> Claro: faltam páginas em Português e talves outras adaptações (por >> exemplo no algoritmo de comparação dos nomes: qual seria a tolerância >> para dizer que 2 nomes são iguais: tolerância cero que nem na Lei >> Seca?). > > > Os dados do IBGE tem muitas ruas com nomes abreviados ou sem os acentos... > > Acho a ideia interessante, mas não consideraria prioritária, por dois > motivos: não estamos num estágio tão avançado de mapeamento quanto os > alemães e o os dados do IBGE não são de qualidade muito confiável. > > abçs, > wille > > >> >> Acho que no caso este projeto saísse do papel: tambem é preciso de >> alguns voluntários do Brasil mesmo, alguns "verdadeiros mapeadores >> brasileiros" que entendem melhor o sistema de endereços no Brasil. >> >> Hermann >> >> On 2014-03-22 15:50, Arlindo Pereira wrote: >>> >>> Muito legal. Acho super válido, se não for tomar muito o seu tempo. Não >>> deixa de ser uma forma de contribuir com o projeto. =) >>> >>> >>> []s >>> Arlindo Pereira >>> >>> On Sat, Mar 22, 2014 at 11:16 AM, Hermann Peifer >>> <[email protected] >>> <mailto:[email protected]>> wrote: >>> >>> On 2014-03-22 14:51, Hermann Peifer wrote: >>> >>> >>> [1] http://www.openstreetmap.org/__user/okilimu/diary >>> <http://www.openstreetmap.org/user/okilimu/diary> >>> >>> [2] "Heat maps" por cidade/região, clique por exemplo: Berlim >>> http://regio-osm.de/__listofstreets/__kartenuebersicht.html >>> <http://regio-osm.de/listofstreets/kartenuebersicht.html> >>> >>> >>> >>> Esqueci que daqueles heat maps vc pode chegar nas páginas com as >>> estatísticas. Aqui os números de uma pequena vila de 1000 >>> habitantes, nem é município (usando Google Translate): >>> >>> >>> http://translate.google.com/__translate?sl=de&tl=pt&js=n&__prev=_t&hl=en&ie=UTF-8&u=__regio-osm.de%2Flistofstreets%__2Fevaluation%3Ftitle%__3DWiltingen%26country%__3DBundesrepublik%2BDeutschland >>> >>> <http://translate.google.com/translate?sl=de&tl=pt&js=n&prev=_t&hl=en&ie=UTF-8&u=regio-osm.de%2Flistofstreets%2Fevaluation%3Ftitle%3DWiltingen%26country%3DBundesrepublik%2BDeutschland> >>> >>> Hermann >> >> >> >> _______________________________________________ >> Talk-br mailing list >> [email protected] >> https://lists.openstreetmap.org/listinfo/talk-br > > > -- > wille > http://wille.blog.br > > > _______________________________________________ > Talk-br mailing list > [email protected] > https://lists.openstreetmap.org/listinfo/talk-br -- Fernando Trebien +55 (51) 9962-5409 "The speed of computer chips doubles every 18 months." (Moore's law) "The speed of software halves every 18 months." (Gates' law) _______________________________________________ Talk-br mailing list [email protected] https://lists.openstreetmap.org/listinfo/talk-br
