Não sei se captei seu objetivo. Não vou falar em sed, matrizes ou tags específicas. Tendo agora algo mais direto, te passo essa linha de comando. Ela e sua saida poderão te dar alguma idéia para uma "nova abordagem".
wget 2>/dev/null -O - http://g1.globo.com/Noticias/Tecnologia/0,,6174,00.html|tr '\t' ' '|tr -d '\n'| tr -s ' '|tr '<' '\n'|grep -A 1 '^a href="javascript:abrirMateria' Não acredito em soluções milagrosas definitivas. Basta a fonte alterar estruturalmente sua página e você terá de rever seu código de filtragem, e cada fonte é um caso, não existe mágica. Desculpe, se o colocado nada tiver a ver com sua questão. On 4/3/07, Alain M. <[EMAIL PROTECTED]> wrote: > Vou tentar uma nova abordagem para o meu problema: Eu preciso fazer um > arquivo de configuração com estas informações (por exemplo) > > # páginas a carregar > http://g1.globo.com/Noticias/Ciencia/0,,5603,00.html > http://g1.globo.com/Noticias/Cinema/0,,7086,00.html > http://g1.globo.com/Noticias/Tecnologia/0,,6174,00.html > # tags a remover com 3 campos: tag, chave de reentrancia e final > '<div id="banner_full">' '<div' '</div>' > '<ul class="barraImpressao">' '<ul' '</ul>' > '<div [^>]*id="impressaoBottom">' '<div' '</div>' > '<!-- ABRIL -->' '' '<!-- /ABRIL -->' > # algumas variáveis diversas > DIAS=7 > > A idéia inicial era definir umas variáveis em um arquivo de include. > Alguém pode me dar uma idéia de como fazer sem ficar muito confuso? Não > gostaria de ter que criar um script de parsing complexo para isso.
