Il giorno 11 luglio 2014 09:36, Stefano Maistri <
[email protected]> ha scritto:
>
> Sto realizzando un tool che sfrutta Hadoop per l'analisi della
> distribuzione statistica delle lettere nell'alfabeto italiano (o inglese) e
> nel modo di scrivere di una particolare persona al fine di poter decifrare
> un testo cifrato dalla persona in questione con un substitution cipher.
> Essendo completamente automatico per fermare l'analisi del testo non appena
> trova un messaggio in italiano (o inglese) comprensibile mi consigliate di
> usare un riconoscitore di linguaggi gia' esistente o di scrivere una mia
> euristica di decisione?
>
Se ho capito bene vorresti riconoscere il linguaggio di un testo.
Se ti vuoi appoggiare a un servizio professionale di terze parti puoi usare
questo servizio: http://detectlanguage.com/
Altrimenti, un esempio di libreria (in Python) รจ questo:
http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/


-- 
LORENZO MAINARDI
http://blog.mainardi.me

Rispondere a