Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext com parâmetro -layout você possui um arquivo txt que pode ser trivialmente convertido para csv. Não precisa do Tabula e mesmo que precisasse, melhor usá-lo localmente.
2014-09-10 14:47 GMT-03:00 Everton Zanella Alvarenga <[email protected]>: > Pessoal, > > durante a última audiência pública do planejamento do orçamento de São > Paulo São Paulo para 2015 (notas < > https://pad.okfn.org/p/gastosabertos-ploa2015> do encontro na sub da Sé), > comecei a vasculhar os dados da execução orçamentária para cada > subprefeitura. Está tudo sem muito padrão nos PDFs de cada mês, quando > estão completo. > > Vou tentar começar um script que extraia os PDFs das páginas de cada sub e > depois começar a tentar transformar esses dados num CSV. Exemplo da sub da > Sé > > > http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/se/execucao_orcamentaria/index.php?p=27287 > > Alguém que programa de verdade vê algo melhor que usar Beautiful Soup em > Python para extrair os PDFs da página de cada sub? Quando eu começar o > script (provavelmente começarei a ver isso sexta pela manhã), compartilho o > link quando estiver minimamente funcional. Se alguém já tiver um script > nessa linha, por favor, compartilhe o link do repositório. :) > > Temos um Tabula rodando em algum servidor? Caso não, acho que vai ser útil > para começarmos a abrir esses dados. Podemos ver algum VPS da OKBR para por > um, se não tiver nenhum estável rodando. > > E podemos pedir para o pessoal da Sempla para publicarem esses dados num > formato aberto, eles motraram interesse em colaborar no último encontro de > segunda. ;) > > Valeu! > > Tom > > -- > Everton Zanella Alvarenga (also Tom) > Open Knowledge Brasil - Rede pelo Conhecimento Livre > http://br.okfn.org > > _______________________________________________ > okfn-br mailing list > [email protected] > https://lists.okfn.org/mailman/listinfo/okfn-br > Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br > >
_______________________________________________ okfn-br mailing list [email protected] https://lists.okfn.org/mailman/listinfo/okfn-br Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
