El problema de clasificación de las lenguas románicas y sobre qué tipo de teoría wellenstheorie (teoría de ondas) o Stammbaumtheorie (árbol genealógico) puede resultar más útil para agrupar los subgrupos de lenguas románicas según su parentesco dentro del conjunto de lenguas románicas (de alguna manera se trata de identificar los parientes más próximos entre sí). En este mensaje se usa la técnica del Análisis de Componentes Principales (ACP) [ver por ejemplo mensaje: ] para estudiar cuales son los factores subyacentes que explican por ejemplo porqué dentro de la Romanía portugués y castellano se encuentran entre las lenguas más cercanas o también el occitano y el catalán, mientras que francés y portugués aparecen como relativamente lejanos (aunque ambos presentan desarrollos paralelos pero independientes como el tener vocales nasales en oposición fonológica). El análisis por ACP debe entenderse dentro del grupo de wellenstheorien donde cada factor o componente principal parece coincidir más o menos con un área o centro difusor de innovaciones, la superposición de todas estas innovaciones es lo que daría la variedad interna dentro de las lenguas románicas ya que cada lengua habría sido alcanzada por un número diferente de “olas” o componentes principales.
El punto de partida de este estudio son 147 términos léxicos del vocabulario básico o derivado (excluyendo cultismos) que no son formas léxicas pan-románicas, es decir, son palabras que NO aparecen en todas las lenguas romances sino sólo en unas pocas de ellas. El ACP trata de ver cuales son los factores subyacentes que hacen que una determinada palabra (que puede ser una forma léxica innovadora difundida desde cierto foco difusor) esté en determinado grupo de lenguas. Si hubiéramos usado léxico pan-románico no habríamos observado diferenciación alguna, de ahí que necesitemos léxico en el que no todas las lenguas coinciden, el número de estos términos en las lenguas románicas está entorno al 20% del total de formas léxicas latinas heredadas. A continuación se presentan los datos del porcentaje de coincidencias en estas 147 formas léxicas de 7 lenguas románicas: aragonés (ar), castellano (cs), catalán (ct), francés (fr), italiano (sur-central) (it), occitano (oc) y portugués (pt) [hubiera sido deseable tomar también hablas italianas septentrionales o lenguas retorrománicas ya que constituyen excelentes ejemplos de transición entre las lenguas galo-romances y el italiano central estándar; y también habría sido deseable tomar datos del mozárabe y el asturiano-leonés para analizar posibles sub-agrupaciones dentro de las lenguas ibero-romances]. Los porcentajes tomados de una referencia estándar [1] son los siguientes: Portugués (pt) con: cs 85,7%, ar 53,7%, ct 21,0%, oc 15,6%, it 26,5%, fr 5,1% Castellano (cs) con: ar 59,1%, ct 27,2%, oc 14,2%, it 25,1%, fr <2% Aragonés (ar) con: ct 62,5%, oc 48,9%, it 31,9%, fr 29% Catalán (ct) con: oc 74,8%, it 33,3%, fr 41,4% Occitano (oc) con: it 50,3%, fr 73,4% Italiano (it) con fr 53,7% [nota: los porcentajes son simétricos y necesariamente la relación de X con Y es un porcentaje idéntico a la relación de Y con X]. Con estos datos expresados en tanto por 1 se puede construir una matriz de coeficientes de correlación (por problemas con el formato sólo texto no se da aquí). Esa matriz de coeficientes de correlación rápidamente ya permite ver cuales son las lenguas más próximas entre sí (las que tienen un coeficiente de correlación más cercano a +1). También puede observarse que el catalán y el aragonés son las lenguas menos divergentes del conjunto, es decir, las que pueden considerarse más representativas del conjunto y que el francés es la más divergente de todas. El ACP procede encontrando los autovalores y auto-vector de la anterior matriz de coeficientes de correlación (cada auto-vector sirve para identificar uno de los componentes principales que explicaría las correlaciones). El auto-valor correspondiente a auto-valor divido entre la suma total de los autovalores da el peso relativo del factor componente principal como factor explicativo. El análisis identifica 7 componentes explicativos, aunque en general sólo los primeros los de mayor peso pueden ser identificados y correlacionados positivamente con algo interpretable históricamente o lingüísticamente. A continuación se dan los pesos relativos de cada factor y entre paréntesis el peso relativo acumulado de todos los factores de los primeros n factores: F1 48,9% (48,9%) F2 25,3% (74,2%) F3 11,7% (85,9%) F4 5,9% (91,8%) F5 4,3% (96,1%) F6 2,2% (98,3%) F7 1,7% (100,0%) Como puede verse los 3 primeros factores identificados F1, F2 y F3 tomados en conjunto explican el 85,9% de la variación observada en el léxico diferencial no pan-románico. Como veremos estos 3 factores son fácilmente correlacionables con regiones concretas y posibles centros difusores (también comentaremos la dificultad de interpretación de F4, F5, F6 y F7 que no parecen fuertemente correlacionados con ningún factor histórico conocido, ni con ninguna lengua o grupo de lenguas en particular, además de ser estadísticamente no significativos para explicar la variación). -------------------------------------------------------------------- IdeoLengua - Lista de Lingüistica e Idiomas Artificiales Suscríbase en [EMAIL PROTECTED] Informacion en http://ideolengua.cjb.net Desglose temático http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html Enlaces de Yahoo! Grupos <*> Para visitar tu grupo en Internet, ve a: http://espanol.groups.yahoo.com/group/ideolengua/ <*> Para cancelar tu suscripción a este grupo, envía un mensaje a: [EMAIL PROTECTED] <*> El uso de Yahoo! Grupos está sujeto a las: http://e1.docs.yahoo.com/info/utos.html