> Confesso che trovo la tua idea che un LLM sia un 'compilato' dei dataset di
> training molto interessante, però non mi convince per due motivi:

A me invece convince :)
Prendo a prestito llama.cpp (già citato in passato).
Per "produrre" una chat, una delle linee di comando possibile è questa:
./llama-cli -m ggml-model-q4_0.gguf -c 512 -b 1024 -n 256 --keep 48 -r "User:" 
-f prompt.txt

llama-cli è la "virtual machine" suggerita da Giacomo, può essere benissimo 
open source e infatti nella maggior parte dei casi lo è. Si occupa 
dell'inference, in soldoni, effettua i calcoli matriciali e poco altro.

I numeretti che seguono -c, -b, -n, ecc. sono i parametri del model, poco da 
dire.

I "pesi" sono tutti dentro il file ggml-model-q4_0.gguf.
Questo file è il "compilato". E di questo file non si conosce pressoché nulla 
sul suo processo di creazione.
Deriva dai dati di training e (spesso) dal lavoro umano di taggatura, ma nel 
dettaglio nessuno (tranne gli autori) sa come sia stato realizzato.

A.

Reply via email to