[ideoL] =?Windows-1252?Q?Diferenciaci=F3n_del_lat=EDn_mediante_ACP_=28parte_I=29?=

Davius Sanctex Thu, 31 Mar 2005 09:22:18 -0800

El problema de clasificación de las lenguas románicas y sobre qué tipo de
teoría wellenstheorie (teoría de ondas) o Stammbaumtheorie (árbol
genealógico) puede resultar más útil para agrupar los subgrupos de lenguas
románicas según su parentesco dentro del conjunto de lenguas románicas (de
alguna manera se trata de identificar los parientes más próximos entre sí).
En este mensaje se usa la técnica del Análisis de Componentes Principales
(ACP) [ver por ejemplo mensaje: ] para estudiar cuales son los factores
subyacentes que explican por ejemplo porqué dentro de la Romanía portugués y
castellano se encuentran entre las lenguas más cercanas o también el
occitano y el catalán, mientras que francés y portugués aparecen como
relativamente lejanos (aunque ambos presentan desarrollos paralelos pero
independientes como el tener vocales nasales en oposición fonológica). El
análisis por ACP debe entenderse dentro del grupo de wellenstheorien donde
cada factor o componente principal parece coincidir más o menos con un área
o centro difusor de innovaciones, la superposición de todas estas
innovaciones es lo que daría la variedad interna dentro de las lenguas
románicas ya que cada lengua habría sido alcanzada por un número diferente
de “olas” o componentes principales.


El punto de partida de este estudio son 147 términos léxicos del vocabulario
básico o derivado (excluyendo cultismos) que no son formas léxicas
pan-románicas, es decir, son palabras que NO aparecen en todas las lenguas
romances sino sólo en unas pocas de ellas. El ACP trata de ver cuales son
los factores subyacentes que hacen que una determinada palabra (que puede
ser una forma léxica innovadora difundida desde cierto foco difusor) esté en
determinado grupo de lenguas. Si hubiéramos usado léxico pan-románico no
habríamos observado diferenciación alguna, de ahí que necesitemos léxico en
el que no todas las lenguas coinciden, el número de estos términos en las
lenguas románicas está entorno al 20% del total de formas léxicas latinas
heredadas. A continuación se presentan los datos del porcentaje de
coincidencias en estas 147 formas léxicas de 7 lenguas románicas: aragonés
(ar), castellano (cs), catalán (ct), francés (fr), italiano (sur-central)
(it), occitano (oc) y portugués (pt) [hubiera sido deseable tomar también
hablas italianas septentrionales o lenguas retorrománicas ya que constituyen
excelentes ejemplos de transición entre las lenguas galo-romances y el
italiano central estándar; y también habría sido deseable tomar datos del
mozárabe y el asturiano-leonés para analizar posibles sub-agrupaciones
dentro de las lenguas ibero-romances]. Los porcentajes tomados de una
referencia estándar [1] son los siguientes:

Portugués (pt) con: cs 85,7%, ar 53,7%, ct 21,0%, oc 15,6%, it 26,5%, fr
5,1%
Castellano (cs) con: ar 59,1%, ct 27,2%, oc 14,2%, it 25,1%, fr <2%
Aragonés (ar) con: ct 62,5%, oc 48,9%, it 31,9%, fr 29%
Catalán (ct) con: oc 74,8%, it 33,3%, fr 41,4%
Occitano (oc) con: it 50,3%, fr 73,4%
Italiano (it) con fr 53,7%

[nota: los porcentajes son simétricos y necesariamente la relación de X con
Y es un porcentaje idéntico a la relación de Y con X]. Con estos datos
expresados en tanto por 1 se puede construir una matriz de coeficientes de
correlación (por problemas con el formato sólo texto no se da aquí).
Esa matriz de coeficientes de correlación rápidamente ya permite ver cuales
son las lenguas más próximas entre sí (las que tienen un coeficiente de
correlación más cercano a +1). También puede observarse que el catalán y el
aragonés son las lenguas menos divergentes del conjunto, es decir, las que
pueden considerarse más representativas del conjunto y que el francés es la
más divergente de todas.
El ACP procede encontrando los autovalores y auto-vector de la anterior
matriz de coeficientes de correlación (cada auto-vector sirve para
identificar uno de los componentes principales que explicaría las
correlaciones). El auto-valor correspondiente a auto-valor divido entre la
suma total de los autovalores da el peso relativo del factor componente
principal como factor explicativo. El análisis identifica 7 componentes
explicativos, aunque en general sólo los primeros los de mayor peso pueden
ser identificados y correlacionados positivamente con algo interpretable
históricamente o lingüísticamente. A continuación se dan los pesos relativos
de cada factor y entre paréntesis el peso relativo acumulado de todos los
factores de los primeros n factores:

F1 48,9% (48,9%)
F2 25,3% (74,2%)
F3 11,7% (85,9%)
F4   5,9% (91,8%)
F5   4,3% (96,1%)
F6   2,2% (98,3%)
F7   1,7% (100,0%)

Como puede verse los 3 primeros factores identificados F1, F2 y F3 tomados
en conjunto explican el 85,9% de la variación observada en el léxico
diferencial no pan-románico. Como veremos estos 3 factores son fácilmente
correlacionables con regiones concretas y posibles centros difusores
(también comentaremos la dificultad de interpretación de F4, F5, F6 y F7 que
no parecen fuertemente correlacionados con ningún factor histórico conocido,
ni con ninguna lengua o grupo de lenguas en particular, además de ser
estadísticamente no significativos para explicar la variación).



--------------------------------------------------------------------
IdeoLengua - Lista de Lingüistica e Idiomas Artificiales
Suscríbase en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose temático 
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html


 
Enlaces de Yahoo! Grupos

<*> Para visitar tu grupo en Internet, ve a:
    http://espanol.groups.yahoo.com/group/ideolengua/

<*> Para cancelar tu suscripción a este grupo, envía un mensaje a:
    [EMAIL PROTECTED]

<*> El uso de Yahoo! Grupos está sujeto a las:
    http://e1.docs.yahoo.com/info/utos.html

[ideoL] =?Windows-1252?Q?Diferenciaci=F3n_del_lat=EDn_mediante_ACP_=28parte_I=29?=

Responder a