Anderson, Vc poderia baixar todo o site usando wget recursivo
cd /caminho/para/mirror/atos_pmpf BASE=http://www.fazenda.gov.br DIR=confaz/confaz/atos/atos_pmpf/2009/ wget -r -N -l 1 --no-remove-listing ${BASE}/${DIR} -o atos.log Depois, seria o caso de vc ter um registro do que vc ja mantou (um arquivo txt ja bastaria) ou analisar os logs e ver quais arquivos tem log diferente disso --2009-10-26 17:18:00-- http://www.fazenda.gov.br/confaz/confaz/atos/atos_pmpf/2009/PMPF018_09%20Retifica%C3%A7%C3%A3o%20RJ.htm Reusing existing connection to www.fazenda.gov.br:80. HTTP request sent, awaiting response... 200 OK Length: 50508 (49K) [text/html] Server file no newer than local file ` www.fazenda.gov.br/confaz/confaz/atos/atos_pmpf/2009/PMPF018_09 Retificação RJ.htm' -- not retrieving. e, então, enviar por email. Entretanto, se vc pensar bem, vc pode ter um mirror dos atos e, a cada novo arquivo nesse diretorio, vc pode avisar por email e servir os arquivos por um apache interno - se for possivel. 2009/10/26 Anderson Duarte <[email protected]> > > > Pessoal, aqui na empresa eu tenho um Debian que hospeda toda a intranet da > empresa e alguns sisteminhas em php que deixo rodando. Nesta maquina eu tb > tenho um MTA (postfix) pra me enviar alguns eventos por email. > Acontece que apareceu um novo evento, e pensei em usar um Shell Script pra > isso. > É o seguinte, o pessoal do financeiro baseia-se em uma tabela fornecida > pela > Fazenda. Esta tabela, alguns atos da confaz, não existem um RSS pra seguir > e > o pessoal tem que ficar entrando no site todo dia. Daí o shell pra > facilitar > a vida :) > > A pagina onde ficam os Atos é essa aqui: > http://www.fazenda.gov.br/confaz/confaz/atos/atos_pmpf/2009/ > > Eu fiz o seguinte, baixei o ultimo Ato com o wget > > $ wget -c > http://www.fazenda.gov.br/confaz/confaz/atos/atos_pmpf/2009/PMPF020_09.htm > > E depois mandei em formato HTML para o pessoal do financeiro assim: > > $ cat PMPF019_09.htm | mail -a "Content-type: text/html;" -s "Atos Confaz" > [email protected] <usuario%40dominio.com> > > O problema é o seguinte, se os senhores verem, no dia 23/09 sairam 7 Atos. > O > unico padrão que ele segue é com o nome do arquivo HTML tipo o > PMPF018_09.htm, PMPF019_09.htm, PMPF020_09.htm etc... > Mas o chato é que as vezes ainda sai uma errata de algum destes, > complicando > mais ainda. > Queria que o script rode uma vez ao dia e pegar todas referente aquele dia. > (no caso do exemplo, dia 23/09) > > Ideias? > > Desde já obrigado. > > -- > _________________________________________ > Anderson Dantas Duarte Linux user #432277 > Linux é o estado da arte! > Preserve a arte, use Linux! :) > > [As partes desta mensagem que não continham texto foram removidas] > > > -- Tiago B. Peczenyj Linux User #405772 http://pacman.blog.br [As partes desta mensagem que não continham texto foram removidas]
