Ok ho detto encoding?
e ti sto facendo incartare.

L'enconding di quella pagina è utf-8 quindi è corretto

prova a sottoporre al testo

print u"\n".join([u"%s -> %s" % (c, unicodedata.category(c)) for c in
tuo_testo_unicode if unicodedata.category(c) not in ['Ll', 'Lu', 'Zs',
'Nd']])

ti conviene trattare con alcune categorie tipo:
Ps Punctuation, Open
Pe Punctuation, Close
Pi Punctuation, Initial quote (may behave like Ps or Pe depending on usage)
Pf Punctuation, Final quote (may behave like Ps or Pe depending on usage)
ftp://ftp.unicode.org/Public/3.0-Update/UnicodeData-3.0.0.html

ad esempio fai un replace di questi caratteri con l'apostrofo e amen.
_______________________________________________
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python

Rispondere a