eu uso a extensão do firefox DownThemAll 2010/10/14 Henry <jmhenri...@yahoo.com.br>
> Em Quarta-feira 13 Outubro 2010, às 22:27:18, roberval.s...@gmail.comescreveu: > > galera, > > > > > > eu to me batendo para criar um script que baixe 'uma tonelada' de > > arquivos PDF de um site, mas to apanhando horrores... > > > > acontece que pelo site já abaixa automaticamente, quando se acessa a > > página... eu não consigo "chegar lá" > > > > exemplo: > > estrando no navegador, se acesso a página: > > > http://www.in.gov.br/imprensa/visualiza/index.jsp?jornal=20&pagina=1&data=1 > > 3/10/2010 ele automaticamente já baixa o arquivo.. da página 1 > > > > é preciso fazer isso várias vezes, (as vezes mais de 2000), mudando a > > página para ter o arquivo completo... > > > > ai no bash fiz vários testes... mas nenhum deles abre a página > > 'seguinte', que é o download 'automático'.. > > > > > > se alguém tiver uma dica de como fazer os downloads de uma 'tacada' só, > > agradeço!! > > DETALHE: ele sempre baixa o arquivo com o mesmo nome... teria que > > renomear na hora de gravar... > > > > > > []s Sena > > > Veja se te ajuda... > > ===== > #!/bin/bash > if [ $# != 2 ] > then echo -e "\n\nUso: $0 dd/mm/aaaa NumeroJornal\n\n" > exit 0 > fi > DATA="$1" > JORNAL="$2" > TEMPO_MENOR="2" > TEMPO_MAIOR="8" > DATA_DIR=`echo "$DATA" | sed 's/\//_/g'` > ANO=`echo $DATA_DIR|cut -d_ -f3` > MES=`echo $DATA_DIR|cut -d_ -f2` > DIA=`echo $DATA_DIR|cut -d_ -f1` > DATA_DIR="$ANO"_"$MES"_"$DIA" > mkdir -p "$DATA_DIR/$JORNAL" > touch "$$cookie$$" > trap "rm -f $$cookie$$; exit" INT TERM EXIT > USER="Mozilla/5.0 (X11; U; Linux i686; pt-BR; rv:1.9.1.9) Gecko/20100501 > Iceweasel/3.5.9 (like Firefox/3.5.9)" > OPTS="--save-cookies=$$cookie$$ --load-cookies=$$cookie$$ > --keep-session-cookies -c -q" > URLS=`wget $OPTS -U="$USER" " > http://www.in.gov.br/visualiza/index.jsp?data=$DATA&jornal=$JORNAL&pagina=1" > -o /dev/null -O - | grep src ` > CONTROLADOR=`echo "$URLS" | grep -i controlador| cut -d\" -f4` > ARQUIVOS=`echo "$CONTROLADOR"|sed 's/\&/\n/g' | grep totalArquivos|cut -d= > -f2` > if [ -z "$ARQUIVOS" ] > then > echo "Link inválido ou jornal inexistente ou data sem publicação. revise > os links ou suas opções " > exit 1 > fi > PAGINA=0 > for PAGINA in `seq 1 $ARQUIVOS` > do > segundos=0 > while [ "$segundos" -le $TEMPO_MENOR ] > do > segundos=$RANDOM > let "segundos %=$TEMPO_MAIOR" > done > URLS=`wget $OPTS -U="USER" " > http://www.in.gov.br/visualiza/index.jsp?data=$DATA&jornal=$JORNAL&pagina=$PAGINA" > -o /dev/null -O - | grep src` > CONTROLADOR=`echo "$URLS" | grep -i controlador| cut -d\" -f4` > VISUALIZADOR=`echo "$URLS" | grep -i visualizador| cut -d\" -f4` > ARQUIVOS=`echo "$CONTROLADOR"|sed 's/\&/\n/g' | grep totalArquivos|cut -d= > -f2` > if [ -z "$ARQUIVOS" ] > then > echo "Link inválido ou jornal inexistente ou data sem publicação. revise > os links ou suas opções " > exit 1 > fi > REFERER=" > http://www.in.gov.br/visualiza/navegaJornalSumario.jsp?jornal=$JORNAL&pagina=$PAGINA&data=$DATA&totalArquivos=$ARQUIVOS > " > wget $OPTS -U="USER" --referer="$REFERER" "$VISUALIZADOR" -O > $DATA_DIR/$JORNAL/$PAGINA.pdf > echo "$DATA_DIR/$JORNAL/$PAGINA.pdf pronto, aguardando $segundos segundos > para a próxima página" > sleep $segundos > done > ===== > > [ ]'s, e divirta-se > Henry > > > -- > To UNSUBSCRIBE, email to debian-user-portuguese-requ...@lists.debian.org > with a subject of "unsubscribe". Trouble? Contact > listmas...@lists.debian.org > Archive: > http://lists.debian.org/201010141804.39188.jmhenri...@yahoo.com.br > >