Amigo, 
tenta isso:

for ARQUIVO in pagina[1234].html
do
        tr '\n' ' ' < "$ARQUIVO" |
                awk 'gsub("<[^/]", "\n&")' |
                fgrep -i ">$TEXTO</a>" |
                tr A-Z a-z |
                tr -d \" |
                sed 's/.*href=// ; s/>.*//'
done

Marlon

--- Em [email protected], "podestafox" <[EMAIL PROTECTED]>
escreveu
>
> Olá pessoal, o que estou tentando fazer e não obtive sucesso, foi
> criar um script, que procure em uma página na internet, uma
> determinada URL. Tentei em Python. Mas não gerava certo pois o link
> que quero extrair fica em uma tag JAVASCRIPT e simplesmente não
> carregava corretamente.
> 
> Por exemplo:
> 
> # Envia o comando para ler o banco de links à procurar
> ~$ ./script-busca-link links.txt
> 
> # Neste arquivo "links.txt", eu tenho a lista de páginas. Exemplo
> http://www.site.com/8767899098
> http://www.site.com/8767899345
> http://www.site.com/8767899567
> http://www.site.com/8767891233
> 
> É nestas páginas que ele vai procurar o link no código fonte. E que
> começa com http://  e termina com .flv ou .mp4 o link que quero
> extrair. Exemplo:
> 
> <script>url_param='http://92837928374/9823748723.flv';<script>
> 
> 
> E vai gravar em um outro arquivo com o nome de baixarconteudo.txt o
> link de cada página buscada >> exemplo:
> 
> http://92837928374/9823748723.flv
> http://92837928374/982374asdsa8723.flv
> 
> Tentei usar o wget para baixar a página em html para o /tmp
> O find para buscar o html depois de baixa-lo
> O grep para procurar dentro do html: http://*.(flv|mp4)
> e passar para o /tmp/baixarconteudo.txt com >>
> 
> Alguém sabe como fazer a mágica acontecer?
>


Responder a