Em 10 de setembro de 2014 15:06, Andres MRM <[email protected]> escreveu:
> Acho que eu usaria algumas expressões regulares (RE). > > O script primeiro baixaria esse HTML (com a lista de todas as Subs): > http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/subprefeituras/index.php > Aplicaria então uma RE para extrair os nomes delas. Algo assim: > "http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/historico/*" Valeu o passo a passo, Andres. Essa etapa não precisa, já temos as subprefeituras e bairros estruturados em JSON. [1] (Agradecimento ao Célio, que fez isso usando RegExp num outro contexto a partir da Wikipédia ;). Em 10 de setembro de 2014 15:06, Edgar Zanella Alvarenga <[email protected]> escreveu: > > Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext com > parâmetro -layout você possui um arquivo txt que pode ser > trivialmente > convertido para csv. Não precisa do Tabula e mesmo que precisasse, melhor > usá-lo localmente. Valeu, Edgar. Vou usar o pdftotext. [1] https://pad.okfn.org/p/gastosabertos-ploa2015 {"Aricanduva/Formosa/Carrão": ["Aricanduva", "Carrão", "Vila Formosa"]} {"Butantã": ["Butantã", "Morumbi", "Raposo Tavares", "Rio Pequeno", "Vila Sônia"]} {"Campo Limpo": ["Campo Limpo", "Capão Redondo", "Vila Andrade"]} {"Capela do Socorro": ["Cidade Dutra", "Grajaú", "Socorro"]} {"Casa Verde/Cachoeirinha": ["Cachoeirinha", "Casa Verde", "Limão"]} {"Cidade Ademar": ["Cidade Ademar", "Pedreira"]} {"Cidade Tiradentes": ["Cidade Tiradentes"]} {"Ermelino Matarazzo": ["Ermelino Matarazzo", "Ponte Rasa"]} {"Freguesia/Brasilândia": ["Brasilândia", "Freguesia do Ó"]} {"Guaianases": ["Guaianases", "Lajeado"]} {"Ipiranga": ["Cursino", "Ipiranga", "Sacomã"]} {"Itaim Paulista": ["Itaim Paulista", "Vila Curuçá"]} {"Itaquera": ["Cidade Líder", "Itaquera", "José Bonifácio", "Parque do Carmo"]} {"Jabaquara": ["Jabaquara", "Jaçanã/Tremembé", "Jaçanã", "Tremembé"]} {"Lapa": ["Barra Funda"]} {"Jaguara": ["Jaguaré", "Lapa", "Perdizes", "Vila Leopoldina"]} {"M'Boi Mirim": ["Jardim Ângela", "Jardim São Luís"]} {"Mooca": ["Água Rasa", "Belém", "Brás", "Moóca", "Pari", "Tatuapé"]} {"Parelheiros": ["Marsilac", "Parelheiros"]} {"Penha": ["Artur Alvim", "Cangaíba", "Penha", "Vila Matilde"]} {"Perus": ["Anhanguera", "Perus"]} {"Pinheiros": ["Alto de Pinheiros", "Itaim Bibi", "Jardim Paulista", "Pinheiros"]} {"Pirituba": ["Jaraguá", "Pirituba", "São Domingos"]} {"Santana/Tucuruvi": ["Mandaqui", "Santana", "Tucuruvi"]} {"Santo Amaro": ["Campo Belo", "Campo Grande", "Santo Amaro"]} {"São Mateus": ["Iguatemi", "São Mateus", "São Rafael"]} {"São Miguel": ["Jardim Helena", "São Miguel", "Vila Jacuí"]} {"Sé": ["Bela Vista", "Bom Retiro", "Cambuci", "Consolação", "Liberdade", "República", "Santa Cecília", "Sé"]} {"Vila Maria/Vila Guilherme": ["Vila Guilherme", "Vila Maria", "Vila Medeiros"]} {"Vila Mariana": ["Moema", "Saúde", "Vila Mariana"]} {"Vila Prudente/Sapopemba": ["São Lucas", "Sapopemba", "Vila Prudente"]} _______________________________________________ okfn-br mailing list [email protected] https://lists.okfn.org/mailman/listinfo/okfn-br Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
