[ideoL] Entropia (Miguel)

David S�nchez Tue, 01 Oct 2002 09:47:18 -0700


Carlos ya ha explicado bastante bien algunas implicaciones del concepto de
Entrop�a Estad�stica e Informaci�n en ling��stica, si os parece voy a
explicar un poco m�s como se mide y la motivaci�n de la misma. Para aclarar
las cosas diremos que en cualquier sistema en que intervienen las
probabilidades hay cierta incertidumbre (no sabemos que es lo que va a
pasar, solo tenemos una ligera idea de las probabilidades).


Cuando examinamos un texto en una lengua que no conocemos las palabras
forman secuencias de letras que aparentemente aparecen al azar (para una
persona que no conozca la lengua en cuesti�n esas letras se aparecer�n de
manera aleatoria y caprichosa). Evidentemente uno sabe puede hacer cuentas y
ver que unas letras o secuencias aparecen m�s que otras (los morfemas de
dicha lengua o las secuencias que forman preposiciones). Podemos por tanto
hablar de la porbabilidad de que aparezca una u otra letra y por tanto
podemos hablar de probabilidades, de incertidumbres sobre cual ser� la
siguiente letra etc. Est� claro que de tanto en tanto un encuentra ciertas
regularidaes por ejemplo cuando en castellano uno encuentra la secuencia
<cio> la siguiente letra un elevado n�mero de veces es <n> ya que hay muchas
palabras acabadas en <ci�n> pero no tambien hay secuencias como <comercio>
en las que <cio> no va seguida de <n>.

La informaci�n estad�stica se entiende como la cantidad necesaria de
informaci�n necesaria para despejar toda incertidumbre. Y la ENTROP�A
estad�stica no es ni m�s ni menos que una medida de esta incertidumbre (y
por tanto tambi�n de la informaci�n "faltante" o la informaci�n requierida,
o la informaci�n subyacente a algo). Por ejemplo si yo escribo un n�mero
binario de dos digitos (bits) bastar� con especificar 2 bits de informaci�n
para despejar las incertidumbres [ser� uno de estos cuatro: 00,01,10,11] .
Pero y para despejar un numero de dos difras decimales? Obviamente aqui la
incertidumbre o la cantidad necesaria es mayor ya que existen cien
posiblidades: 00,01,02,... 98,99. Cual es por tanto una medida razonable de
la informaci�n? Est� claro que pare acertar un de dos cifras decimales (100
posiblidaes) se requiere justo el doble de informaci�n n�mero del 0 al 9 (10
posibilidades). Con lo cual el numero de posibildades no es una buena medida
de incertidumbre. Imaginemos que tenemos N posibildades y digamos que la
entrop�a S puede expresarse como funci�n del numero de posiblidades:

S = f(N)    [siendo f( ) una funci�n que habr� que determinar]

Antes hemos visto que S=f(100) = f(10) + f(10) es decir la informaci�n
necesaria para especificar una posiblidad entre 100 es justo el doble de la
informacion necesaria para especificar una posbilidad entre 10. No voy a
entrar en el detalle matem�tico pero esta simple propiedad implica que f( )
solo puede ser una funci�n logar�timica, es decir, f(N) = k�log(N) [siendo k
una constante]. Esto lo hemos hecho para sucesos con N posbilidades
igualmente probables pero que ocurre si no todas las posibilidades son
igualmente probables como sucede por ejemplo con las letras? (algunas letras
como C, A y E aparecen continuamente mientras que X, K o W casi no
aparecen). Si tenemos N posiblidaes equiporbables cada una aprece con una
probabilidad p = 1/N por tanto nuestra formula en funci�n de la probabilidad
se escribe S(p) = f(1/p) = k�log(1/p).
Por otra parte est� claro a partir de esto que las letras menos frecuentes
probabilidad p peque�a proporcionan m�s informaci�n: por ejemplo tratar de
advinar que palabra se esconde aqu� en (a) y (b):
(a)    _a_a
(b)    k_w_

Para la primera como a es muy frecuente hay muchas palabras posibles <casa,
bata, caca, pata, mama, papa, ...> sin embargo para segunda est� claro que
solo puede ser <kiwi> (fruta tropical). De hecho eso pasa en la vida real
los sucesos infrecuentes nos dan m�s pistas: si llego y voy al bosque donde
voy los domingos y lo veo todo calcinado s� que se ha producido un incendio,
mientras que si lo veo como casi siempre no puedo deducir mucho de lo que a
sucedido previamente.

Una medida buena de la incertidumbre es promediar la informaci�n que aporta
cada letra. Cada letra aporta por s� misma una informaci�n k�log(1/p)
[siendo p su probabilidad de aparici�n] por tanto el promedio de informaci�n
por letra ser�: S = k�suma( p�log(1/p)) [donde la suma se realiza para cada
una de las letras]. Esta es la f�rmula de la entrop�a estad�stica que se
aplica a letras, a �tomos, a sucesos probabil�sticos y a cualquier cosa
donde intervengan las probabilidades y la incertidumbres (de hecho es la
f�rmula de m�s amplio uso que conozco).

Si tomais un texto en ingl�s vereis que la entrop�a por letra aparente
usando la formula anterior es 4,76 y de hecho casi cualquier otra lengua
escrita en alfabeto latino o cirilico viene a dar resultados similares. En
otro mensaje deber�amos explicar como al hablar de <cio> y <cion> que por
encima de la aparente aleatoriedad si existen ciertas correlaciones que
hacen que las letras no sean del todo azarosas (y en eso se basan los juegos
de adivinar palabras) y de hecho la entrop�a o incertidumbre real es como
una cuarta parte. Por eso si elimino las vocales como se hace en hebreo y
�rabe todav�a me queda alrededor de la mitad de la entrop�a disponible para
reconstruir las palabras pero si adem�s borro algunas consonantes el juego
se vuelve m�s dificil.

David S.







En realidad, las leyes del azar son con frecuencia unmodelo mejor de la
ignorancia,
que las leyes de la l�gica lo son del pensamiento organizado.
B. MANDELBROT

5.1. Introducci�n a la teor�a de la informaci�n
Uno de los desarrollos te�ricos m�s prol�ficos del siglo XX ha sido la
teor�a de la informaci�n. Iniciada por el ingeniero el�ctrico Claude E.
Shannon en su hist�rico art�culo[1] de 1948, la teor�a ha encontrado amplia
aplicaci�n en muchos y muy diversos campos: en las telecomunicaciones, en la
programaci�n, en la f�sica pura y marginalmente en ling��stica y psicolog�a.
El objetivo de este cap�tulo es aplicarla a la ling��stica de una manera
diferente a como se hab�a hecho hasta ahora.
A parte de las aplicaciones ling��sticas, que m�s adelante discutiremos, hay
otras disciplinas colaterales a la misma dentro de las cu�les la teor�a de
la informaci�n ha hecho sus aportaciones como en criptolog�a y en
psicolog�a. Dentro de la criptolog�a (aplicable al desciframiento de textos
antiguos) la teor�a de la informaci�n ha demostrado que la cantidad de
informaci�n por signo est� �ntimamente ligada a la posibilidad de descifrar
criptogramas: cuanto menor es esta cantidad m�s sencillo es el
desciframiento y se necesita menor cantidad de material para el
desciframiento. As� pues dentro de ciertos l�mites, la teor�a se vuelve
predictiva y cuantitativa, proporcionando los medios de calcular que
cantidad de textos deben interceptarse en cierta lengua con el objeto de
asegurar la existencia y la unicidad de una soluci�n al criptograma o texto
cifrado. Tambi�n los psic�logos han encontrado relaciones interesantes entre
la cantidad de informaci�n (cuantificada seg�n la f�rmula de Shannon)
contenida en un est�mulo y el tiempo de reacci�n al est�mulo. Por ejemplo,
en un experimento[2] se colocan cuatro luces y cuatro pulsadores asociados;
las luces se encienden y apagan al azar con probabilidades p1, p2, p3, p4 y
se pide a un individuo que apriete los botones correspondientes despu�s de
que una luz se apague, tan r�pidamente como sea posible. El resultado de
este experimento es que el tiempo medio de reacci�n requerido treac se
incrementa linealmente con la cantidad de informaci�n reportada por las
luces, es decir:
                               treac = t0 + a�IShannon

(siendo t0 y a n�meros constantes; IShannon : informaci�n computada por la
f�rmula de Shannon, es decir, Ishannon = -(p1ln p1+p2ln p2+p3ln p3+p4ln
p4) ). Este resultado sugiere una connexi�n intr�nseca entre al manera en
que los seres humanos procesan la informaci�n y la f�rmula te�rica de
Shannon; hecho crucial para la psicoling��stica de corte matem�tico.

Cuantificaci�n del cambio ling��stico mediante la teor�a de la informaci�n
En su art�culo original Shannon dedujo una f�rmula matem�tica que da una
medida de la cantidad de informaci�n o imprevisibilidad asociada a un
proceso de elecci�n entre posibilidades con diferentes probabilidades de
ocurrencia[3]. De esta manera podemos evaluar, por ejemplo, la cantidad de
informaci�n por fonema de un fragmento le�do a partir de las diversas
probabilidades de ocurrencia de los diferentes fonemas. Armados con esta
medida de la cantidad de informaci�n podemos abordar muy diversos problemas.
Dentro de la ling��stica la teor�a de la informaci�n s�lo se hab�a aplicado
a dos problemas: el estudio de la redundanciaen el lenguaje[4] (Shannon,
1951) y la ley de distribuci�n de frecuencias de las palabras[5][6] (Zipf,
1949; Mandelbrot, 1961).
En este cap�tulo se pretende aplicar la f�rmula de Shannon a la ling��stica
hist�rica de una manera que proporcione una medida efectiva del cambio
ling��stico. Ilustremos la idea b�sica con un caso concreto: supongamos, por
ejemplo, que tomamos dos lenguas rom�nicas como el franc�s y el rumano, y
pretendemos cuantificar su divergencia o disimilitud con respecto al lat�n.
Esto se conseguir�a midiendo la "latinicidad" (en los diferentes niveles:
fon�tico-fonol�gico, morfosint�ctico y l�xico-sem�ntico) del rumano y del
franc�s. El hecho importante aqu� es que la teor�a de la informaci�n nos
permite construir una medida razonable de la "latinicidad" de una lengua.
Las ideas claves para lograr esta medida son dos. Por una parte, una persona
que conozca el franc�s o el rumano puede aprovechar este conocimiento para
aprender el lat�n m�s f�cilmente; esto se debe a que hay ciertas
correlaciones entre la estructura de estas lenguas y la del lat�n. Por otra
parte, una persona que �nicamente hablase lat�n no podr�a comprender el
franc�s o el rumano, sin cierto entrenamiento previo; esto se debe a que de
alguna manera se han a�adido elementos nuevos que no son predictibles a
partir �nicamente del lat�n, es decir, se ha a�adido informaci�n nueva a la
base latina original. Ponderando convenientemente la informaci�n
correlacionada con la informaci�n nueva esbozaremos una medida de la
"latinicidad" de la siguiente manera: tomemos una muestra significativamente
grande de palabras latinas y de sus equivalentes en otra lengua rom�nica;
calculemos a continuaci�n, por ejemplo, mediante la f�rmula de Shannon las
cantidades de informaci�n por fonema IR (para la lengua rom�nica) y IL (para
el lat�n) adem�s de la informaci�n  no predictible a partir del lat�n de la
lengua rom�nica[7] que designaremos por IR|L. Es evidente que se cumplir�
que (m�s adelante daremos una demostraci�n) IR|L � IR, siendo tanto IR|L
tanto m�s alto cuanto menos pr�xima sea la lengua al lat�n. As� pues una
buena medida de la "latinicidad" a nivel fon�tico-fonol�gico Cfon ser�:




[1]Shanon, C. E. (1948): "The Mathematical Theory of Communication",
Univetisty of Illinois Press, pp. 3-28.
[2]Holzm�ller, W, (1984): Information in Biological Systems.
[3]Algunos autores, como Mackay, prefieren llamar imprevisibilidad a la
magnitud medida por la f�rmula de Shanon; est� muy claro que la
imprevisibilidad de una situaci�n es igual a la cantidad de informaci�n
necesaria para determinar por completo la elecci�n de una de las
posibilidades.
[4]Shanon, E. C. (1949): "Prediction and Entropy of Printed English", Bell
System Tech. J. 30, pp 50-64.
[5]Zipf, G. K. (1949): Human Behaviour and the Principle of Least Effort,
Addison-Wesley, Cambride, Massachusetts.
[6]Mandelbrot, B. (1961): "On the theory of word frecuencies and on related
markovian models of discurse", en Structure of language and its mathematical
aspects (volumen dirigido por  R. Jakobson), Providence, American
Mathematical Society.
[7]M�s adelante se dar�n las f�rmulas y procedimientos expl�citos para estos
c�lculos. Tambi�n discutiremos detalladamente los problemas t�cnicos y
conceptuales que se presentan, como por ejemplo, la no-equivalencia exacta
de formas l�xicas, c�mo establecer las correspondencias entre lenguas no
emparentadas, etc.


--------------------------------------------------------------------
IdeoLengua - Lista de Ling�istica e Idiomas Artificiales
Suscr�base en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose tem�tico 
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.htm


 

Su uso de Yahoo! Grupos est� sujeto a las http://e1.docs.yahoo.com/info/utos.html

[ideoL] Entropia (Miguel)

Responder a