Buscando sobre distribución de las palabras en los textos (algo que espero comprender bien para aplicarlo a un proyecto de análisis de lengua ibérica por ordenador), me topé con un ejemplo terriblemente interesante: Se tomaban discursos de 6 políticos de la segunda guerra mundial: Churchill, Halifax; Stresemann, Hitler; Benes y Stalin. Se analizó una serie de palabras clave relacionadas con los discursos políticos (patria, trabajador, igualdad, .) y se analizaron cuantas de estas palabras con significación política eran usadas solo por uno de ellos, por solo dos de ellos, por tres de ellos, . o por todos ellos. El resultado es interesante y mediante un test estadístico pude determinoarse que políticos tienen un discurso más atípico o más alejado de la media y decirnos si la divergencia respecto al grupo es o no estadísticamente significativa. Lo curioso del estudio es que revela que de esos políticos: 2 británicos, 2 alemanes, 1 checo y 1 ruso, los más atípicos eran precisamente Hitler y Stalin! (aunque ambos por diferentes razones como se explica más adelante). Los datos del estudio eran los siguientes: 1 2 3 4 5 6 Stalin 146 79 59 38 43 47 Benes 113 88 69 63 57 47 Halifax 114 90 82 64 59 47 Churchill 154 94 77 64 57 47 Stresemann 152 101 71 64 59 47 Hitler 228 92 86 66 60 47 1: número de términos que usan exclusivamente ellos 2: número de términos que usan solo dos políticos de la lista 3: número de términos que usan solo tres políticos de la lista . 6: número de términos que los seis políticos de la lista lo usan Si se suman los totales y dividiendo por 6 se obtiene un modelo promedio, respecto al cual se puede ver cuales son los políticos que más se alejan de él (Como el número de términos para cada político es diferente tendríamos que ecualizar cada columna por un factor). Si ahora comparamos el promedio con el valor ecualizado para cada político podemos aplicar por ejemplo un test chi-cuadrado simple. Ese test nos revela que Hitler y Stalin son los más atípicos: (a) Hitler habla de muchos temas que no hablan otros políticos, aunque habla también de términos que los otros mencionan (es decir, un político que incorpora al discurso político innovaciones ideológicas que no comparten los otros políticos) (b) Stalin es atípico por el factor contrario, sólo habla de cosas que hablan los demás pero como puede verse en las columnas 3, 4 y 5 tiene menor conectividad con los demás, es decir, que omite o no habla de algunos temas que sí hablan los otros (se deja por mencionar algunas cosas digamos!). A modo de ejemplo pongo aquí los resulados de la comparación para Churchill (probablemente el político más prototípico de la muestra) y para Hitler (test chi-cuadrado = X^2): 1 2 3 4 5 X^2 Hitler* 184,9 74,6 69,8 53,5 48,7 11,970 Churchill* 149,0 91,0 74,8 61,9 55,2 0,945 Promedio 151,2 90,7 74 59,8 55,8 (*: valores ecualizados) Para aceptar que un político es realmente divergente de la media con un nivel de significación del 0,05 tenemos que la columna de X^2 debemos aceptar que el número debe ser mayor a 9,49, con lo cual podemos ver que la divergencia de los discursos de Hitler sí es estadísticamente significativa mientras que la discrepancia entre Churchill y el promedio es mero azar y por tanto no puede ser considerada estadísticamente significativa.
David Sánchez [Se han eliminado los trozos de este mensaje que no contenían texto] -------------------------------------------------------------------- IdeoLengua - Lista de Lingüistica e Idiomas Artificiales Suscríbase en [EMAIL PROTECTED] Informacion en http://ideolengua.cjb.net Desglose temático http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.htm Su uso de Yahoo! Grupos está sujeto a las http://e1.docs.yahoo.com/info/utos.html