Vedi Guido, Il 8 Settembre 2024 14:24:00 UTC, Guido Vetereha scritto: > > Research has also shown that memorization occurs if > an LLM sees a text repeatedly during training (Carlini et al., 2022b; > Biderman et al., 2023). > Because of this, *memorization can be seen as an extreme case of training > data contamination* > where a dataset is not only seen during training but repeated within the > training set so often > that the LLM becomes able to consistently generate it. > > La memorizzazione, insomma, è un caso degenere.
Sembra un caso degenere perché immagini un'intelligenza artificiale che impara. Nonappena comprendi che si tratta semplicemente di un software programmato statisticamente, ti appare del tutto ovvio e normale che i dati più frequenti subiscano una perdita minore durante il processo di compressione. > Infatti, si applicano > usualmente tecniche di filtering per deduplicare i passaggi che occorrono > molte volte nei dataset di training E nonostante ciò gli LLM continuano a sputarli fuori. La differenza non sta nella loro "memorizzazione" da parte del LLM, ma nella nostra capacità di riconoscerli nell'output nonostante gli errori di decompressione. Un po' come avvenne per i sorgenti GPL di Quake III sparati in output da GitHub Copilot: li abbiamo riconosciuti perché sono famosi, non perché Microsoft si è dimenticata di deduplicare i fork di Quake su GitHub! Giacomo
