Buscando sobre distribuci�n de las palabras en los textos (algo que espero comprender
bien para aplicarlo a un proyecto de an�lisis de lengua ib�rica por ordenador), me
top� con un ejemplo terriblemente interesante: Se tomaban discursos de 6 pol�ticos de
la segunda guerra mundial: Churchill, Halifax; Stresemann, Hitler; Benes y Stalin. Se
analiz� una serie de palabras clave relacionadas con los discursos pol�ticos (patria,
trabajador, igualdad, .) y se analizaron cuantas de estas palabras con significaci�n
pol�tica eran usadas solo por uno de ellos, por solo dos de ellos, por tres de ellos,
. o por todos ellos. El resultado es interesante y mediante un test estad�stico pude
determinoarse que pol�ticos tienen un discurso m�s at�pico o m�s alejado de la media y
decirnos si la divergencia respecto al grupo es o no estad�sticamente significativa.
Lo curioso del estudio es que revela que de esos pol�ticos: 2 brit�nicos, 2 alemanes,
1 checo y 1 ruso, los m�s at�picos eran precisamente Hitler y Stalin! (aunque ambos
por diferentes razones como se explica m�s adelante).
Los datos del estudio eran los siguientes:
1 2 3 4 5 6
Stalin 146 79 59 38 43 47
Benes 113 88 69 63 57 47
Halifax 114 90 82 64 59 47
Churchill 154 94 77 64 57 47
Stresemann 152 101 71 64 59 47
Hitler 228 92 86 66 60 47
1: n�mero de t�rminos que usan exclusivamente ellos
2: n�mero de t�rminos que usan solo dos pol�ticos de la lista
3: n�mero de t�rminos que usan solo tres pol�ticos de la lista
.
6: n�mero de t�rminos que los seis pol�ticos de la lista lo usan
Si se suman los totales y dividiendo por 6 se obtiene un modelo promedio, respecto al
cual se puede ver cuales son los pol�ticos que m�s se alejan de �l (Como el n�mero de
t�rminos para cada pol�tico es diferente tendr�amos que ecualizar cada columna por un
factor). Si ahora comparamos el promedio con el valor ecualizado para cada pol�tico
podemos aplicar por ejemplo un test chi-cuadrado simple.
Ese test nos revela que Hitler y Stalin son los m�s at�picos:
(a) Hitler habla de muchos temas que no hablan otros pol�ticos, aunque habla tambi�n
de t�rminos que los otros mencionan (es decir, un pol�tico que incorpora al discurso
pol�tico innovaciones ideol�gicas que no comparten los otros pol�ticos)
(b) Stalin es at�pico por el factor contrario, s�lo habla de cosas que hablan los
dem�s pero como puede verse en las columnas 3, 4 y 5 tiene menor conectividad con los
dem�s, es decir, que omite o no habla de algunos temas que s� hablan los otros (se
deja por mencionar algunas cosas digamos!).
A modo de ejemplo pongo aqu� los resulados de la comparaci�n para Churchill
(probablemente el pol�tico m�s protot�pico de la muestra) y para Hitler (test
chi-cuadrado = X^2):
1 2 3 4 5 X^2
Hitler* 184,9 74,6 69,8 53,5 48,7 11,970
Churchill* 149,0 91,0 74,8 61,9 55,2 0,945
Promedio 151,2 90,7 74 59,8 55,8
(*: valores ecualizados)
Para aceptar que un pol�tico es realmente divergente de la media con un nivel de
significaci�n del 0,05 tenemos que la columna de X^2 debemos aceptar que el n�mero
debe ser mayor a 9,49, con lo cual podemos ver que la divergencia de los discursos de
Hitler s� es estad�sticamente significativa mientras que la discrepancia entre
Churchill y el promedio es mero azar y por tanto no puede ser considerada
estad�sticamente significativa.
David S�nchez
[Se han eliminado los trozos de este mensaje que no conten�an texto]
--------------------------------------------------------------------
IdeoLengua - Lista de Ling�istica e Idiomas Artificiales
Suscr�base en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose tem�tico
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.htm
Su uso de Yahoo! Grupos est� sujeto a las http://e1.docs.yahoo.com/info/utos.html