Não sei se captei seu objetivo. Não vou falar em sed, matrizes ou tags
específicas. Tendo agora algo mais direto, te passo essa linha de
comando. Ela e sua saida poderão te dar alguma idéia para uma "nova
abordagem".

wget 2>/dev/null -O -
http://g1.globo.com/Noticias/Tecnologia/0,,6174,00.html|tr '\t' ' '|tr
-d '\n'| tr -s ' '|tr '<' '\n'|grep -A 1 '^a
href="javascript:abrirMateria'

Não acredito em soluções milagrosas definitivas. Basta a fonte alterar
estruturalmente sua página e você terá de rever seu código de
filtragem, e cada fonte é um caso, não existe mágica.

Desculpe, se o colocado nada tiver a ver com sua questão.




On 4/3/07, Alain M. <[EMAIL PROTECTED]> wrote:
> Vou tentar uma nova abordagem para o meu problema: Eu preciso fazer um
> arquivo de configuração com estas informações (por exemplo)
>
> # páginas a carregar
>    http://g1.globo.com/Noticias/Ciencia/0,,5603,00.html
>    http://g1.globo.com/Noticias/Cinema/0,,7086,00.html
>    http://g1.globo.com/Noticias/Tecnologia/0,,6174,00.html
> # tags a remover com 3 campos: tag, chave de reentrancia e final
>    '<div id="banner_full">'          '<div'  '</div>'
>    '<ul class="barraImpressao">'     '<ul'   '</ul>'
>    '<div [^>]*id="impressaoBottom">' '<div'  '</div>'
>    '<!-- ABRIL -->'                  ''      '<!-- /ABRIL -->'
> # algumas variáveis diversas
>    DIAS=7
>
> A idéia inicial era definir umas variáveis em um arquivo de include.
> Alguém pode me dar uma idéia de como fazer sem ficar muito confuso? Não
> gostaria de ter que criar um script de parsing complexo para isso.

Responder a