Vedi Guido, 

Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto:
>
> Research has also shown that memorization occurs if
> an LLM sees a text repeatedly during training (Carlini et al., 2022b;
> Biderman et al., 2023).
> Because of this, *memorization can be seen as an extreme case of training
> data contamination*
> where a dataset is not only seen during training but repeated within the
> training set so often
> that the LLM becomes able to consistently generate it.
> 
> La memorizzazione, insomma, è un caso degenere.

Sembra un caso degenere perché immagini un'intelligenza artificiale che impara.

Nonappena comprendi che si tratta semplicemente di un software
programmato statisticamente, ti appare del tutto ovvio e normale che i dati più 
frequenti
subiscano una perdita minore durante il processo di compressione.

> Infatti, si applicano
> usualmente tecniche di filtering per deduplicare i passaggi che occorrono
> molte volte nei dataset di training

E nonostante ciò gli LLM continuano a sputarli fuori.

La differenza non sta nella loro "memorizzazione" da parte del LLM, ma nella 
nostra capacità
di riconoscerli nell'output nonostante gli errori di decompressione.

Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da GitHub 
Copilot:
li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è 
dimenticata
di deduplicare i fork di Quake su GitHub!


Giacomo

Reply via email to