On Tue, 22 Jan 2008 18:59:35 +0100 domenico.v <[EMAIL PROTECTED]> wrote:
> Salve a tutti, > ho un problema con sed e vorrei un consiglio da voi. Devo estrarre > da pagine come questa > http://www.aia-figc.it/designazioni/canc/des.asp?gare=92-0-SC1-A la > tabella è possibile farlo con sed? Cioè fare uno script che dato > l'url mi estragga dalla pagina solo la tabella direttamente in un > file csv? > > Ogni suggerimento è benvenuto. Ho abbozzato questo script, http://insomniac.slackware.it/figc.py , vedi se va bene per le tue esigenze, purtroppo quella pagina ha un html veramente brutto (nested table, tanto per dirne una), e ovviamente trattandosi di un parser HTML, se cambia qualcosa nella pagina, potrebbe non funzionare più. Se non ti piace l'output con i quote nel CSV, cambia QUOTE_ALL in QUOTE_MINIMAL o QUOTE_NONE nello script. Good luck, -- Andrea Barberio [EMAIL PROTECTED] - Linux&C. [EMAIL PROTECTED] - Slackware Linux Project Italia GPG key on http://insomniac.slackware.it/gpgkey.asc 2818 A961 D6D8 1A8C 6E84 6181 5FA6 03B2 E68A 0B7D SIP: 5327786, Phone: 06 916503784 _______________________________________________ ml mailing list [email protected] http://nalug.net/mailman/listinfo/ml
