Caro Fabio,
ho riflettuto a lungo se risponderti, perché non mi piace perdere tempo
e non mi sembri interessato a comprendere come funzionano i software di
cui parliamo. Non so perché, ma mi sembra evidente.
Tuttavia, rispondendo a Duccio, mi sono reso conto che subite
la stessa confusione ("anfibolia"? :-D) e la lettura del paper
potrebbe svelare ad entrambi la dinamica dell' "imitation game"
che OpenAI & friends stanno "giocando".
On Tue, 10 Sep 2024 12:07:53 Fabio Alemagna <[email protected]> wrote:
> Io trovo che sia scientificamente interessante e persino
> strabiliante che un algoritmo che non è stato esplicitamente
> istruito per saper far di conto, riesca a far di conto entro
> una certa misura, semplicemente per essere stato allenato
> su tomi che spiegano come si fa di conto.
Commentavi questo articolo: https://arxiv.org/pdf/2301.13867
Leggiamo come è composto il dataset con cui hanno testato le
"competenze matematiche" dei LLM di OpenAI (pagina 4):
- books that are widely used in universities to teach upper
undergraduate or first-year graduate courses in a degree in
mathematics
- math.stackexchange.com, a collection of books, and the
MATH dataset
- the book Problem-Solving Strategies, that is often used
to prepare for mathematical competitions
- il dataset di https://arxiv.org/abs/1912.01412 che contiene
decine di esercizi... e le soluzioni.
Leggi con calma e rifletti: non noti niente?
Questi ricercatori NON hanno sottoposto a ChatGPT e GPT-4 problemi
inediti, ma problemi tratti da eserciziari disponibili in rete.
Ora, se immagini una qualche "intelligenza artificiale" alle prese con
tutti questi problemi, è ragionevole trovare i risultati sintetizzati
nell'abstract che avevo citato "strabilianti" [1].
Ma se hai chiaro il processo di compilazione / compressione dei testi
sorgente che produce il LLM, trovi quei risultati piuttosto ovvi: il
LLM ha prodotto in output le soluzioni codificate nelle matrici
eseguibili.
Quale delle due spiegazioni passa il rasoio di Occam?
1. ChatGPT "è intelligente ma non si impegna"
2. ChatGPT è un archivio compresso eseguibile che contiene i problemi
che gli sono stati sottposti ed ha "autocompletato" i problemi,
con le soluzioni che li seguivano?
Che tu, Duccio e molti altri che non comprendono come funzionano questi
software programmati staticamente, vi facciate ingannare da questo
"imitation game" è purtroppo prevedibile e previsto.
L'enorme quantità di testi compressi dentro GPT-4 (alcuni dei quali
mai pubblicati, come quelli prodotti dai giornalisti che fanno i
"chatbot helper" per arrotondare) rende estremamente improbabile
che un estratto venga servito a qualcuno che lo possa riconoscere.
In questo caso però, questo è proprio ciò che è successo!
E che 8 ricercatori universitari non si siano accorti di aver
dimostrato il plagio [2] di decine di manuali sotto copyright [3]
rende _evidente_ quanti DANNI la favola della "intelligenza
artificiale", del "machine learning", delle "allucinazioni"
e stronzate varie stia facendo alla ricerca informatica
e al progresso dell'umanità.
E nota che non si tratta di persone impreparate.
Ma le parole che usiamo per descrivere la realtà determinano
il nostro modo di intepretarla.
Non fatevi ingannare: l'intelligenza artificiale non esiste.
Le macchine non imparano, non hanno allucinazioni
e non funzionano assolutamente come un essere umano.
Urge cambiare linguaggio.
Giacomo
[1] non potevi scegliere un termine più appropriato! :-D
https://www.etimo.it/?term=strabiliare
[2] spacciando ChatGPT come una "intelligenza artificiale _generativa_"
si/gli intesta la paternità delle soluzioni, sottraendola agli
autori https://it.wikipedia.org/wiki/Plagio_(diritto_d'autore)
[3] per altro, in un modo che esclude l'applicabilità del fair
use negli USA, come ci ha spiegato benissimo Giancarlo qui
https://server-nexa.polito.it/pipermail/nexa/2024-September/053236.html
perché ChatGPT diventa un surrogato gratuito di quegli stessi testi,
riducendone il valore di mercato