Ok ho detto encoding? e ti sto facendo incartare. L'enconding di quella pagina è utf-8 quindi è corretto
prova a sottoporre al testo print u"\n".join([u"%s -> %s" % (c, unicodedata.category(c)) for c in tuo_testo_unicode if unicodedata.category(c) not in ['Ll', 'Lu', 'Zs', 'Nd']]) ti conviene trattare con alcune categorie tipo: Ps Punctuation, Open Pe Punctuation, Close Pi Punctuation, Initial quote (may behave like Ps or Pe depending on usage) Pf Punctuation, Final quote (may behave like Ps or Pe depending on usage) ftp://ftp.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.html ad esempio fai un replace di questi caratteri con l'apostrofo e amen.
_______________________________________________ Python mailing list Python@lists.python.it http://lists.python.it/mailman/listinfo/python