Oi Tom, Você provavelmente já vai fazer isso mas, paralelamente ao desenvolvimento do scraper, sugiro pedir os dados pela LAI. Quem sabe, né :)
Abraços, Em 10 de setembro de 2014 15:37, Andres MRM <[email protected]> escreveu: > > On 10-09-14 15:30, Everton Zanella Alvarenga wrote: > >> Em 10 de setembro de 2014 15:06, Andres MRM <[email protected]> >> escreveu: >> >> Acho que eu usaria algumas expressões regulares (RE). >>> >>> O script primeiro baixaria esse HTML (com a lista de todas as Subs): >>> http://www.prefeitura.sp.gov.br/cidade/secretarias/ >>> subprefeituras/subprefeituras/index.php >>> Aplicaria então uma RE para extrair os nomes delas. Algo assim: >>> "http://www.prefeitura.sp.gov.br/cidade/secretarias/ >>> subprefeituras/(NOME)/historico/*" >>> >> >> Valeu o passo a passo, Andres. Essa etapa não precisa, já temos as >> subprefeituras e bairros estruturados em JSON. [1] (Agradecimento ao >> Célio, que fez isso usando RegExp num outro contexto a partir da >> Wikipédia ;). >> > > Talvez precise sim, porque os nomes tem que ser idênticos aos que o site > usa, > se não os links vão quebrar. > Por exemplo: > vila_maria_vila_guilherme > > > Em 10 de setembro de 2014 15:06, Edgar Zanella Alvarenga <[email protected]> >> escreveu: >> >>> >>> Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext >>> com parâmetro -layout você possui um arquivo txt que pode ser > >>> trivialmente convertido para csv. Não precisa do Tabula e mesmo que >>> precisasse, melhor usá-lo localmente. >>> >> >> Valeu, Edgar. Vou usar o pdftotext. >> >> >> [1] https://pad.okfn.org/p/gastosabertos-ploa2015 >> >> {"Aricanduva/Formosa/Carrão": ["Aricanduva", "Carrão", "Vila Formosa"]} >> >> {"Butantã": ["Butantã", "Morumbi", "Raposo Tavares", "Rio Pequeno", >> "Vila Sônia"]} >> >> {"Campo Limpo": ["Campo Limpo", "Capão Redondo", "Vila Andrade"]} >> >> {"Capela do Socorro": ["Cidade Dutra", "Grajaú", "Socorro"]} >> >> {"Casa Verde/Cachoeirinha": ["Cachoeirinha", "Casa Verde", "Limão"]} >> >> {"Cidade Ademar": ["Cidade Ademar", "Pedreira"]} >> >> {"Cidade Tiradentes": ["Cidade Tiradentes"]} >> >> {"Ermelino Matarazzo": ["Ermelino Matarazzo", "Ponte Rasa"]} >> >> {"Freguesia/Brasilândia": ["Brasilândia", "Freguesia do Ó"]} >> >> {"Guaianases": ["Guaianases", "Lajeado"]} >> >> {"Ipiranga": ["Cursino", "Ipiranga", "Sacomã"]} >> >> {"Itaim Paulista": ["Itaim Paulista", "Vila Curuçá"]} >> >> {"Itaquera": ["Cidade Líder", "Itaquera", "José Bonifácio", "Parque do >> Carmo"]} >> >> {"Jabaquara": ["Jabaquara", "Jaçanã/Tremembé", "Jaçanã", "Tremembé"]} >> >> {"Lapa": ["Barra Funda"]} >> >> {"Jaguara": ["Jaguaré", "Lapa", "Perdizes", "Vila Leopoldina"]} >> >> {"M'Boi Mirim": ["Jardim Ângela", "Jardim São Luís"]} >> >> {"Mooca": ["Água Rasa", "Belém", "Brás", "Moóca", "Pari", "Tatuapé"]} >> >> {"Parelheiros": ["Marsilac", "Parelheiros"]} >> >> {"Penha": ["Artur Alvim", "Cangaíba", "Penha", "Vila Matilde"]} >> >> {"Perus": ["Anhanguera", "Perus"]} >> >> {"Pinheiros": ["Alto de Pinheiros", "Itaim Bibi", "Jardim Paulista", >> "Pinheiros"]} >> >> {"Pirituba": ["Jaraguá", "Pirituba", "São Domingos"]} >> >> {"Santana/Tucuruvi": ["Mandaqui", "Santana", "Tucuruvi"]} >> >> {"Santo Amaro": ["Campo Belo", "Campo Grande", "Santo Amaro"]} >> >> {"São Mateus": ["Iguatemi", "São Mateus", "São Rafael"]} >> >> {"São Miguel": ["Jardim Helena", "São Miguel", "Vila Jacuí"]} >> >> {"Sé": ["Bela Vista", "Bom Retiro", "Cambuci", "Consolação", >> "Liberdade", "República", "Santa Cecília", "Sé"]} >> >> {"Vila Maria/Vila Guilherme": ["Vila Guilherme", "Vila Maria", "Vila >> Medeiros"]} >> >> {"Vila Mariana": ["Moema", "Saúde", "Vila Mariana"]} >> >> {"Vila Prudente/Sapopemba": ["São Lucas", "Sapopemba", "Vila Prudente"]} >> _______________________________________________ >> okfn-br mailing list >> [email protected] >> https://lists.okfn.org/mailman/listinfo/okfn-br >> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br >> > _______________________________________________ > okfn-br mailing list > [email protected] > https://lists.okfn.org/mailman/listinfo/okfn-br > Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br > -- Vítor Baptista Developer | http://vitorbaptista.com | LinkedIn <http://www.linkedin.com/in/vitorbaptista> | @vitorbaptista <http://twitter.com/vitorbaptista> The Open Knowledge Foundation <http://okfn.org> *Empowering through Open Knowledge* http://okfn.org/ | @okfn <http://twitter.com/okfn> | OKF on Facebook <https://www.facebook.com/OKFNetwork> | Blog <http://blog.okfn.org/> | Newsletter <http://okfn.org/about/newsletter/>
_______________________________________________ okfn-br mailing list [email protected] https://lists.okfn.org/mailman/listinfo/okfn-br Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
