> (d'altra parte su come costruire
> un 70B solo con testi italiani 'kosher' nessuno ha uno straccio di idea),

Non siamo proprio all'anno zero, qualcosa, su Internet e in italiano, di 
"lecito" c'è ;)
L'italiano è la 23esima lingua più parlata al mondo [1], ma nelle statistiche 
di Common Crawl [2], è all'ottavo posto. Segno che c'è molto materiale 
lessicale italiano in rete.
Wikipedia, ovviamente, ma ancora di più Wikisource (si può partire 
dall'analizzare questi file [3])
C'è il corpus Paisà [4], c'è OSCAR [5] e chissà quanti altri in progetti più o 
meno pubblici.

A.

[1] https://it.wikipedia.org/wiki/Lingue_per_numero_di_parlanti_madrelingua
[2] https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html
[3] https://dumps.wikimedia.org/itwikisource/
[4] https://www.corpusitaliano.it/en/contents/description.html
[5] https://oscar-project.github.io/documentation/versions/oscar-2301/

Reply via email to