Re: [nexa] AI Training is Copyright Infringement

Guido Vetere Sun, 08 Sep 2024 08:13:02 -0700

Caro Tesio, apprezzo il tono e dunque rispondo.

Sembra un caso degenere perché immagini un'intelligenza artificiale che
> impara.

Fin dai tempi del povero Rosenblatt (morì giovane in un incidente) e dal
suo percettrone, l'umanità intera ha immaginato una 'intelligenza
artificiale che impara' (machine learning). Su cosa cosa significhi
'imparare' per gli umani e per le macchine si sono versati fiumi di
inchiostro, non credo sia il caso di dilungarsi qui. Comunque, chiarisco
che sono tra quelli che negano decisamente qualsiasi analogia tra
l'apprendistato linguistico umano e i SALAMI. Chomsky aveva ragione contro
il distribuzionalismo negli anni '50, e continua ad avere ragione oggi sui
LLM (su tante altre cose aveva torto, ma tralasciamo).

Nonappena comprendi che si tratta semplicemente di un software  programmato
> statisticamente

Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di
training molto interessante, però non mi convince per due motivi:
1) Come la mettiamo col lavoro umano di supervisione e rinforzo (cfr.
l'articolo del Guardian riportato oggi qui) che ha un'importanza cruciale
per il comportamento a run-time? Tra l'altro, è proprio qui che si trova il
grande vantaggio competitivo dei monopolisti.
2) Come la mettiamo con la generazione aumentata dal retrieval (RAG)?
Supponi che un grande produttore abbia generato un foundation model con
dataset acquisiti legalmente (bastano le briciole di quello che hanno in
tasca) e lo abbia poi istruito col lavoro di dipendenti regolari. Quel
modello, anche di dimensioni ridotte (es. 70B) sarebbe in grado di fare
cose molto utili, ad esempio question answering, interpolando dati che non
sono nel training set, ma in database esterni sui quali viene a run-time
operata una ricerca.

Suggerisco di stare molto attenti alle false analogie, perché ci danno
l'illusione di riportare l'ignoto al noto (la produzione di software in
questo caso) ma talvolta offuscano la comprensione delle cose.

Regards,
G.

On Sun, 8 Sept 2024 at 16:45, Giacomo Tesio <[email protected]> wrote:

> Vedi Guido,
>
> Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
> >
> > Research has also shown that memorization occurs if
> > an LLM sees a text repeatedly during training (Carlini et al., 2022b;
> > Biderman et al., 2023).
> > Because of this, *memorization can be seen as an extreme case of training
> > data contamination*
> > where a dataset is not only seen during training but repeated within the
> > training set so often
> > that the LLM becomes able to consistently generate it.
> >
> > La memorizzazione, insomma, è un caso degenere.
>
> Sembra un caso degenere perché immagini un'intelligenza artificiale che
> impara.
>
> Nonappena comprendi che si tratta semplicemente di un software
> programmato statisticamente, ti appare del tutto ovvio e normale che i
> dati più frequenti
> subiscano una perdita minore durante il processo di compressione.
>
> > Infatti, si applicano
> > usualmente tecniche di filtering per deduplicare i passaggi che occorrono
> > molte volte nei dataset di training
>
> E nonostante ciò gli LLM continuano a sputarli fuori.
>
> La differenza non sta nella loro "memorizzazione" da parte del LLM, ma
> nella nostra capacità
> di riconoscerli nell'output nonostante gli errori di decompressione.
>
> Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da
> GitHub Copilot:
> li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è
> dimenticata
> di deduplicare i fork di Quake su GitHub!
>
>
> Giacomo
>

Re: [nexa] AI Training is Copyright Infringement

Reply via email to