Grazie mille per la segnalazione AB
Il giorno lun 15 lug 2024 alle ore 12:15 Guido Vetere < [email protected]> ha scritto: > Nexiane e nexiani, > > l'Università di Milano-Bicocca ha avuto l'idea di ricavare un benchmark > dalle prove INVALSI per valutare come se la cavano i language model con > italiano. > Ne hanno poi fatto una leaderboard Huggingface che è consultabile qui > <https://huggingface.co/spaces/Crisp-Unimib/INVALSIbenchmark>. > Tra i modelli XXL vince claude-sonnet per distacco, ma la cosa > interessante è filtrare i modelli per dimensione e 'apertura' (nel senso > del LLM, per cortesia non ricominciamo) > Tra i modelli aperti di taglia small gemma2 (DeepMind) svetta sulla > concorrenza. > I modelli 'italianissimi' annunciati e propagandati nei mesi scorsi cadono > in fondo alla classifica. > Se la cavano abbastanza bene i fine-tune di LLama3 > Modello Italia, su cui tanti e tante aveva messo la faccia, era anch'esso > in fondo alla leaderboard e ora pare sia stato ritirato. > Naturalmente, su questo non c'è da aspettarsi alcuna intervista su Wired > :-) > > Buona giornata, > G. > >
