I word embedding sono molto diversi dai co-occurrence counts, simili a quelle
dei tuoi esempi.
I co-occuurrence count non funzionano affatto come rappresentazione del
significato delle parole.
I word embedding vengono ottenuti come effetto secondario dell’allenamento di
un Language Model, come i vettori nascosti che consentono al modello di stimare
la probabilità di una parola in un contesto.
La dimensione dei word embeddings è un valore costante prefissato, indipendente
dalla lunghezza del vocabolario, com nella tua versione.
Ci vorrebbero diverse lezioni per spiegare come si calcolano i word embedding e
perché funzionino in modo talmente efficace, come quelle che trovi qui:
https://elearning.di.unipi.it/course/view.php?id=438
I word embedding sono composi di centinaia di dimensioni e non è ricostruibile
cosa rappresenti ciascuna: sono le centinaia di sfumature/sfaccettature che
tratteggiano le caratteristiche di una parola, sia semantiche che sintattiche o
chissà che altro.
Con l’attention dei transformer, gli embeddings vengono calcolati in modo
contestuale frase per frase, per tenere conto della polisemia delle parole in
contesti diversi.
> Ora il significato del termine "leggere" è leggere: l'azione che stai
Questa è l’accezione di “significato” denotazionale che filosofi hanno proposto
dai tempi di Platone, ma appunto non risolve il problema perché poi dovresti
definire cosa sia questa denotazione e riapriremmo una discussione che in 2000
anni non sono stati in grado di risolvere.
Cos’è un tavolo? Cos’è la tavolinità che distingue un tavolo da altri oggetti:
avere 4 gambe, o tre, o una? E cos'è una gamba? Avere un piano: cos'è un piano?
E così a ritroso.
— Beppe
> On 12 Oct 2023, at 18:43, Giacomo Tesio <[email protected]> wrote:
>
> Salve Giuseppe,
>
> Il giorno Thu, 12 Oct 2023 10:26:32 +0200 Giuseppe Attardi ha scritto:
>
>> alla base dei LLMs ci sono i word embedding, un modo per assegnare un
>> significato alle parole
>
> non mi è chiaro come i word embedding possano catturare il significato.
>
>
> Per chi non lo sapesse, un word embeeding è un vettore N-dimensionale
> (una sequenza di N numeri) che approssima la posizione di un termine
> in uno spazio euclideo progettato per massimizzare la vicinanza con
> i termini usati in modo simile in contesti simili.
>
> Un modo per calcolarlo, consiste nell'associare ad ogni elemento del
> vettore una misura (tipicamente la frequenza) di una relazione con
> cui quel termime appare associato agli altri termini nel "corpus"
> sorgente.
>
> Immagina un dataset sorgente composto da tre frasi:
>
> - Giuseppe scrive.
> - Giuseppe legge.
> - Giuseppe legge o scrive.
>
> Abbiamo 4 parole: "Giuseppe" alla prima posizione, "scrive" alla
> seconda e "legge" alla terza, "o" alla quarta.
>
> I rispettivi word embedding potrebbero essere
>
> - Giuseppe [0, 0.5, 0.5, 0]
> - scrive [1, 0, 0, 0.5]
> - legge [1, 0, 0, 0.5]
> - o [0, 0.5, 0.5, 0]
>
> All'aumentare della dimensione del dataset sorgente (il "corpus") e del
> vocabolario, aumenta il numero di dimensioni dello spazio euclideo in
> questione (ovvero la lunghezza di ciascun vettore) e con tecniche più
> avanzate può variare la semantica degli elementi del vettore... ma la
> sostanza è questa: il vettore cattura la relazione di un termine con
> gli altri presenti nel vocabolario estraendola da misure estratte dal
> dataset sorgente.
>
>
> Ora il significato del termine "leggere" è leggere: l'azione che stai
> compiendo (spero) mentre guardi su uno schermo la rappresentazione di
> questo mio messaggio.
>
> Quel significato è una esperienza soggettiva complessa ed unica della
> tua mente, legata alle diverse altre esperienze e riflessioni della tua
> vita.
>
>
> Analogamente le parole "amare" o "morte" non derivano il proprio
> significato dalla relazione che hanno con altre parole, ma dalle
> esperienze umane che convenzionalmente esprimono.
>
> Anche parole come "zero" o "spin" (quantistico), pur non derivando
> direttamente da esperienze fisiche, derivano il proprio significato da
> esperienze soggettive di pensiero comunicabile (aka le "informazioni"
> che cerchiamo di esprimere attraverso di esse).
>
>
> In nessun caso la relazione fra le parole ne costituisce il senso.
>
> Infatti possiamo facilmente definire nuove parole per riferirci ad una
> qualsiasi esperienza condivisa, senza nemmeno condividere una
> definizione e ci capiremo benissimo.
>
> Se andiamo a prenderci un caffé e ci diciamo "da adesso in poi questa
> azione la chiamiamo 'fefare'", potremo fefare periodicamente o
> discutere dove fefare meglio senza alcun bisogno di analizzare la
> frequenza del termine in relazione agli altri termini del nostro
> vocabolario per dedurre il significato della parola stessa.
>
>
> Dunque i word embedding non rappresentano alcun significato, ma
> al massimo relazioni statistiche fra significanti.
>
>
> Il "significato" può esistere solo nelle menti di noi esseri umani, come
> esperienza soggettiva di pensiero comunicabile (l'informazione, appunto)
>
>
>> ...the huge number of features interacting in very complicated way to
>> predict the features of the next word and from that make a prediction
>> about the probability of the next word, the point is that is
>> understanding, at least I believe that is understanding.
>> I believe that is what our brains are doing.
>
> "I believe".
>
> Mulder con più onestà intellettuale avrebbe detto "I WANT to believe".
>
>
>> È tratto da una conversazione con Andrew Ng, che si dichiara
>> d’accordo.
>
> Ma dai? il gatto e la volpe... :-)
>
> Potremmo considerarlo un corollario della nota osservazione di Upton
> Sinclair [1]
>
> "It's straightforward to get a man to believe something when his salary
> and status depend on spreading such belief."
>
>
> Giacomo
>
> [1] "It is difficult to get a man to understand something, when his
> salary depends on his not understanding it."
_______________________________________________
nexa mailing list
[email protected]
https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa