Tom, O registro dos discursos da Câmara de 2011, 2012 e inicio de 2013 estão em rtf, que é um formato mais aceitável. Depois piorou e passaram a entregar os arquivos como docx, mas pelo menos está com bem pouca formatação, então é fácil filtrar o texto. Eles entregam esses arquivos por uma interface, mas ela tem um botão de download que faz uma requisição à uma url, então é possível automatizar o processo para baixar vários registros. Na Maratona Hacker eu escrevi um script que faz o download desses discursos para uma pasta, é esse aqui https://github.com/lucasnemeth/hackathon-cmsp/blob/master/scripts/baixa_registros.py (atualizei ele inclusive, por que vi que as urls haviam mudado). É só botar o caminho para um diretório nessa variável 'DOWNLOAD_DESTINO = "arquivos"' que o script vai tentar baixar vários registros de sessões.
Abraços, Lucas Nemeth Durante a Maratona Hacker eu fiz 2013/6/6 Everton Zanella Alvarenga <[email protected]> > Documentos de São Paulo em formato aberto - vejam abaixo. Não vi os > documentos enviados com calma, mas é algo interesssante de se obter. > > Eu queria, por exemplo, ter acesso a todos discursos dos vereadores num > formato decente para poder fazer alguma análise naquilo lá. Isso foi algo > que pedimos durante a Maratona Hacker organizada pela OKF Brasil ano > passado na câmara <http://desafiodadosabertos.org/>, mas vi que isso não > ocorrerá tão longo, se não tiver alguém com tempo e paciência para ficar em > cima. > > O Pedro colocou no github > > https://github.com/pmarkun/gitlaw/wiki/pl0288-2013-sp > > Tom > > ---------- Mensagem encaminhada ---------- > De: Luis Eduardo Trevisan <[email protected]> > Data: 28 de maio de 2013 18:35 > Assunto: [thackday] Convite Audiência PL Software Livre e Dados Abertos > Para: [email protected] > > > Olá pessoal do transparência hacker, > > O gabinete do Vereador Nabil Bonduki (PT), tem a honra de convida-lós para > participar da audiência sobre o PL 288/2013 que dispõe sobre o uso de > software livre e disponibilização de documentos em formatos abertos > no município de São Paulo. > A audiência será dia 12/06 ás 19h na sala Sergio Viera de Melo no 1º > subsolo da Câmara Municipal de São Paulo. > > A mesa será composta por: > > - Marcio de Andrade (PRODAM) > - Vagner Diniz (W3C Brasil) > - Prof. Fabio Kon (IME/USP) > - Sergio Amadeu (Secretaria Municipal de Serviços) > - João Armindo (CADESC - Ong Cidade Tiradentes) > - (Transparência Hacker) > - Nabil Bonduki (Vereador PT) > > Estamos a disposição para qualquer esclarecimento. > > Abraços! > > -- > -- > Você recebeu esta mensagem porque está cadastrado no grupo "Transparência > Hacker" > Para enviar uma mensagem a todo o grupo, escreva para > [email protected] > Para não receber mais mensagens, envie um email para > [email protected] > Para mais informações, ou para ler mensagens arquivadas deste grupo, > visite http://groups.google.com/group/thackday?hl=pt-BR > > --- > You received this message because you are subscribed to the Google Groups > "Transparência Hacker" group. > To unsubscribe from this group and stop receiving emails from it, send an > email to [email protected]. > For more options, visit https://groups.google.com/groups/opt_out. > > > > > _______________________________________________ > okfn-br mailing list > [email protected] > http://lists.okfn.org/mailman/listinfo/okfn-br > Unsubscribe: http://lists.okfn.org/mailman/options/okfn-br > >
_______________________________________________ okfn-br mailing list [email protected] http://lists.okfn.org/mailman/listinfo/okfn-br Unsubscribe: http://lists.okfn.org/mailman/options/okfn-br
