Bem... vai um patch... (nao testado) para evitar tentativa de
downloads de arquivos inexistentes.
#!/bin/bash
get_pagina () {
for pagina in `seq 1 200` ; do
url="http://www.in.gov.br/materias/pdf/do/secao${secao}/${dia}_${mes}_2006/do$secao-$pagina.pdf"
wget $url || return 0
done
}
for mes in 08 ; do
for dia in `seq -w 1 31` ; do
mkdir 2006$mes$dia
cd 2006$mes$dia
for secao in 1 2 3 ; do
get_pagina
done
cd ..
done
done
On 10/10/06, box_ferrari <[EMAIL PROTECTED]> wrote:
>
> Bom dia lista.
>
> Há uns 10 dias precisei procurar uma resolução do MAPA no Diário
> Oficial da União. Eu sabia extamente o dia em que ela foi publicada,
> mas foi um martírio encontrar a bendita.
>
> Isso graças a péssima organização do site, que agrupa o DOU por
> págianas em formato PDF e obriga ao usuário saber em qual seção e
> página o bendito texto foi publicado, o que por sua vez faz com que o
> infeliz compulsóriamente tenha que baixar praticamente toda a
> publicação de um dia, página a página, para encontrar o que precisa.
>
> Eis que então o ilustríssimo colega Ricardo Bánffy passa pelo mesmo
> problema e nos brinda com o artigo abaixo
> http://www.dieblinkenlights.com/artigos/superpoderesUteis/html.
>
> Para resolver o problema, ele criou o script abaixo, que serve para
> baixar, com incrível facilidade, todas as páginas do dia e tornar
> menos penoso o processo de acesso à informação oficial do nosso
> querido governo.
>
> #!/bin/bash
>
> for mes in 08 ; do
> for dia in `seq -w 1 31` ; do
> mkdir 2006$mes$dia
> cd 2006$mes$dia
> for secao in 1 2 3 ; do
> for pagina in `seq 1 200` ; do
>
> url="http://www.in.gov.br/materias/pdf/do/secao${secao}/${dia}_${mes}_2006/do$secao-$pagina.pdf"
> wget $url
> done
> done
> cd ..
> done
> done
>
>
> O script, com o devido mérito ao Ricardo, embora criativo não tem nada
> de especial, mas me chamou a atenção para um detalhe muito importante.
> A necessidade de se "sair do quadrado" e olhar as coisas por ângulos
> diferentes.
>
> Mesmo conhecendo um pouco de shell script e tendo, teoricamente,
> conhecimento suficiente para fazer algo parecido com o que o Ricardo
> fez, quando eu me deparei com o obstáculo da des-"organização" do site
> do DOU, me resignei a reclamar da vida e procurar alguém que tivesse
> uma cópia impressa do dia que me interessava. Não sei o que seria mais
> trabalhoso: baixar manualmente todas as páginas, ou encontrar a
> bendita cópia impressa.
>
> Jamais, em momento algum, cogitei a possibilidade de fazer um script
> como o acima para resolver meu problema.
>
> Disso, tiro 3 lições:
>
> 1. Que os famosos ditos "a necessidade é a mãe da criatividade" e "se
> não existe uma solução simples para um problema, não existe solução",
> são verdades tão absolutas quanto a lei da gravidade.
>
> 2. Que não basta o conhecimento técnico, mas é necessário também senso
> crítico, capacidade de análise e acima de tudo, criatividade e
>
> 3. Que o windows, com o devido respeito, a exemplo da nicotina, vicia
> e faz muito mal à saude. Anos e anos neste ambiente levam a gente a
> truncar o nossa mente, raciocinando sempre dentro do mesmo quadrado e
> aceitando o paradigma de que se algo não está disponível, é porque não
> pode ser feito. Pelo menos comigo, aconteceu assim.
>
> Resolvi escrever o post, com o perdão de ser off-topic, para
> compartilhar com os colegas a alegria de poder ver a luz!
>
>
>
>
>
>
>
> ---------------------------------------------------------------------
> Esta lista não admite a abordagem de outras liguagens de programação, como
> perl, C etc. Quem insistir em não seguir esta regra será moderado sem prévio
> aviso.
> ---------------------------------------------------------------------
> Sair da lista: [EMAIL PROTECTED]
> ---------------------------------------------------------------------
> Esta lista é moderada de acordo com o previsto em
> http://www.listas-discussao.cjb.net
> ---------------------------------------------------------------------
> Servidor Newsgroup da lista: news.gmane.org
> Grupo: gmane.org.user-groups.programming.shell.brazil
>
>
> Links do Yahoo! Grupos
>
>
>
>
>
>
>
>
>
--
Reinaldo Carvalho
Debian Sarge 3.1 - Linux User: #238310
Prodepa - [EMAIL PROTECTED]
---------------------------------------------------------------------
Esta lista não admite a abordagem de outras liguagens de programação, como
perl, C etc. Quem insistir em não seguir esta regra será moderado sem prévio
aviso.
---------------------------------------------------------------------
Sair da lista: [EMAIL PROTECTED]
---------------------------------------------------------------------
Esta lista é moderada de acordo com o previsto em
http://www.listas-discussao.cjb.net
---------------------------------------------------------------------
Servidor Newsgroup da lista: news.gmane.org
Grupo: gmane.org.user-groups.programming.shell.brazil
Links do Yahoo! Grupos
<*> Para visitar o site do seu grupo na web, acesse:
http://br.groups.yahoo.com/group/shell-script/
<*> Para sair deste grupo, envie um e-mail para:
[EMAIL PROTECTED]
<*> O uso que você faz do Yahoo! Grupos está sujeito aos:
http://br.yahoo.com/info/utos.html