Acho que eu usaria algumas expressões regulares (RE).

O script primeiro baixaria esse HTML (com a lista de todas as Subs):
http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/subprefeituras/index.php
Aplicaria então uma RE para extrair os nomes delas. Algo assim:
"http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/historico/*"

Tendo a lista de subdomínios de cada Subprefeitura, baixaria a página de
execução de cada uma:
http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/execucao_orcamentaria/index.php

Dai é só vasculhar cada página baixada por um link que contenha "PDF" ou "pdf"
e baixar. Algo assim:
"http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/upload/(NOME)/arquivos/execucao_orcamentaria/*.(pdf|PDF)"

Alguém vê um caminho mais fácil?

Existem uns copiadores de sites. Há muito tempo que não uso um. Não sei se
seria uma boa opção, mas talvez algum deles tenha uma opção de baixar todos os
PDFs de um site.

On 10-09-14 14:47, Everton Zanella Alvarenga wrote:
Pessoal,

durante a última audiência pública do planejamento do orçamento de São
Paulo São Paulo para 2015 (notas <
https://pad.okfn.org/p/gastosabertos-ploa2015> do encontro na sub da Sé),
comecei a vasculhar os dados da execução orçamentária para cada
subprefeitura. Está tudo sem muito padrão nos PDFs de cada mês, quando
estão completo.

Vou tentar começar um script que extraia os PDFs das páginas de cada sub e
depois começar a tentar transformar esses dados num CSV. Exemplo da sub da
Sé

http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/se/execucao_orcamentaria/index.php?p=27287

Alguém que programa de verdade vê algo melhor que usar Beautiful Soup em
Python para extrair os PDFs da página de cada sub? Quando eu começar o
script (provavelmente começarei a ver isso sexta pela manhã), compartilho o
link quando estiver minimamente funcional. Se alguém já tiver um script
nessa linha, por favor, compartilhe o link do repositório. :)

Temos um Tabula rodando em algum servidor? Caso não, acho que vai ser útil
para começarmos a abrir esses dados. Podemos ver algum VPS da OKBR para por
um, se não tiver nenhum estável rodando.

E podemos pedir para o pessoal da Sempla para publicarem esses dados num
formato aberto, eles motraram interesse em colaborar no último encontro de
segunda. ;)

Valeu!

Tom

--
Everton Zanella Alvarenga (also Tom)
Open Knowledge Brasil - Rede pelo Conhecimento Livre
http://br.okfn.org

_______________________________________________
okfn-br mailing list
[email protected]
https://lists.okfn.org/mailman/listinfo/okfn-br
Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br

_______________________________________________
okfn-br mailing list
[email protected]
https://lists.okfn.org/mailman/listinfo/okfn-br
Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br

Responder a