Amigos de la lista; Les envio aqui la reciente ponencia del Prof. Ivan Guzman de Rojas en Asuncion Paraguay acerca de Atamiri. Una version pdf de este documento, con imágenes, pueden bajarlo de
aymara.org/biblio/igr/multilinguality.pdf Jorge Pedraza Arpasi ******************************************************************************** Un aporte tecnológico para resolver el problema de multilinguismo en el Internet Iván Guzmán de Rojas [EMAIL PROTECTED] Consultor en Informática, Investigador en Ingeniería del Lenguaje miembro de número de la Academia Nacional de Ciencias de Bolivia Ponencia en el taller sobre La normalización lingüística y las industrias de la lengua, realizado durante el 2do. Seminario Interamericano sobre la Gestión de las Lenguas, Asunción, Paraguay (4 al 6 de junio de 2003) Un nuevo ámbito de comunicación plurilingüe Este año celebramos la primera década de operación de esa maravillosa red mundial de comunicación: Internet, o también designada como la web, en la avasallante jerga del ciberespacio. Sin duda, en ese corto tiempo, el Internet se ha convertido en el ámbito más grande de comunicación multilingüe. Sin embargo, está aún lejos de constituir un espacio genuinamente plurilingüe, en el que no solamente estén presentes varias lenguas del mundo, sino que también "se comuniquen" entre ellas. Cuando nació el Internet, su primer uso fue el fácil acceso a la información tecnológica. Actualmente el ciberespacio ya no es solamente un inmenso réservoir de toda clase de información, instantáneamente accesible, es además un lugar de encuentro, en el que la comunicación inmediata entre personas o grupos de interés común adquiere cada vez mayor preponderancia. Los servicios de comunicación disponibles en la red, desde el tan utilizado correo electrónico, hasta los salones de chat, los mensajeros, las comunidades virtuales o foros y las reuniones de trabajo virtual, constituyen formidables oportunidades para las relaciones humanas, ya sea como un mero entretenimiento o como un intercambio de opiniones de carácter profesional o también político. El sistema educativo y las formas de plasmar una democracia participativa tienen en estos servicios un formidable desafío para aprovechar las ventajas de un mundo globalizado evitando ser víctimas de sus secuelas aplastantes. Actualmente, en el directorio del popular buscador Google, ver: http://directory.google.com/Top/World/ a la fecha, fuera del inglés, están registrados 70 idiomas con más el dato de sus respectivos números de páginas web en que se leen. Entre ellos, sobresalen, de lejos, el alemán (343,832), español (136,581), francés (125,056) e italiano (115,244) con más de 100,000 páginas web. En el grupo intermedio, con una presencia de más de 10,000 páginas, se encuentran los siguientes 14 idiomas: catalán (27,958), chino (14,508), checo (10,000), danés (35,209), japonés (49,485), coreano (12,187), holandés (59,607), noruego (14,465), polaco (83,162), portugués (12,632), rumano (10,000), ruso (20,301), sueco (44,182) y turco (14,270). Si bien es cierto que el incremento de la presencia de las lenguas del mundo en el Internet es impresionante, sobre todo si se considera el rol predominante que juega el inglés, por otro lado no debemos olvidar que en el planeta se hablan aproximadamente cinco mil idiomas. Es poco plausible que en los próximos diez años, el número de lenguas con contenidos publicados en el Internet sobrepase el centenar. También debemos aclarar que la importancia de los idiomas presentes en el Internet no se mide por su número de hablantes, sino por el número de páginas web que tienen contenidos en esa lengua. Así se explica que en el directorio de Google no figuren lenguas que tienen millones de hablantes en más de un país, como por ejemplo el aymara, el qhechwa o el guaraní, que actualmente no tienen presencia en Internet. En cambio, lenguas como el eusquera, con menos de un millón de hablantes, gracias al apoyo institucional que recibe, ya tiene casi 5,000 páginas web. Lo que cuenta en el Internet es la generación de contenidos por parte de los hablantes de una lengua. La gestión de las lenguas en la perspectiva plurilingüe El multilingüismo en la red se caracteriza actualmente por islas lingüísticas aisladas unas de otras, con muy pocas posibilidades de intercomunicación entre ellas. En una perspectiva genuinamente plurilingüe, quizás en una utopía a la que deberíamos procurar acercarnos, un hablante de alguna de las lenguas debe poder comunicarse con cualquier hablante de alguna de las otras lenguas. La misma necesidad existe en cuanto al acceso de páginas web; dicho de modo simple, todos deberíamos poder leer todo lo publicado en cualquier idioma. En un ciberespacio con N lenguas presentes se hacen necesarias N(N-1) direcciones de traducción; es decir, ¡ahora para N=70 ya se requieren atender 4,830 direcciones de traducción! Por el modo interactivo en que se navega en el web y por la manera instantánea de intercomunicación en los servicios de mensajes, chat, foros y comunidades virtuales, cuando decimos "traducción", inevitablemente nos referimos a la traducción automática, con todas las deficiencias de las que esta tecnología todavía adolece. Los sistemas de traducción que ofrecen servicios en el web, son de carácter comercial, y apenas cubren una pequeña fracción de esas 4,830 direcciones de traducción requeridas. El sistema que ofrece servicios con más pares de programas de traducción es el clásico SYSTRAN, creado por Peter Thoma en el año 1954 para el par EN <-> RU. Las direcciones de traducción que actualmente ofrece SYSTRAN son: EN -> CHs, CHt, DA, NL, FI, FR, DE, GR, IT, JA, KO, NO, PT, RU, ES, SV 16 EN <- CHs, CHt, NL, FR, DE, GR, IT, JA, KO, PO, PT, RU, ES 13 FR -> NL, DE, GR, IT, PT, ES 6 FR <- NL, DE, GR, IT, PT, ES 6 Los programas de este sistema traductor sólo atienden 41 de las 240 direcciones de traducción posibles con ese juego de 16 idiomas. En 29 pares el inglés actúa ya sea como lenguaje fuente, o como meta. En los restantes pares es el francés el que así actúa. No se ofrece la traducción en direcciones transversales, como por ejemplo: PT <-> ES. Es comprensible que las empresas desarrolladoras de sistemas de traducción automática hayan priorizado los pares de idiomas mas interesantes desde el punto de vista del mercado de traducción. Los costos de desarrollo de estos sistemas son enormes, sobrepasan los dos millones de dólares por dirección de traducción. ¿Qué esperanza habría de obtener el retorno a la inversión para el desarrollo de 4,830 programas y juegos de diccionarios? Por otro lado, las inversiones en I&D para traducción automática son de alto riesgo, muchos proyectos multimillonarios han fracasado en el intento sin haber logrado alcanzar sus metas. El caso más dramático ha sido el sonado proyecto EUROTRA de la Unión Europea que en la década de los 80, en un esfuerzo multinacional, ha insumido más de 50 millones de Euros. Estos hechos de la realidad del multilingüismo en el Internet nos muestran que la tecnología de traducción automática por pares de idiomas conspira contra el proyecto plurilingüe, ya que es excluyente de las lenguas minoritarias, sin que esta haya sido necesariamente la intención, y además, privilegia un lenguaje dominante. La meta de una red de intercomunicación mundial plurilingüe genera nuevas necesidades instrumentales que plantean un gran desafío a las industrias de la lengua con dos difíciles exigencias tecnológicas: Ingeniería del lenguaje genuinamente multilingüe capaz de ofrecer servicios de traducción en todas las direcciones que se requieran a costos razonables, proporcionales al número N de idiomas implantados en lugar de la actual proporcionalidad al número N(N-1) de direcciones de traducción. Desarrollo de analizadores y sintetizadores morfosintácticos que permitan manejar bajo un modelo lingüístico universal todas las variantes estructurales de los idiomas con propiedades aglutinantes, y no solamente las gramáticas que siguen el modelo de las lenguas europeas más utilizadas. Además, para los defensores y promotores de las lenguas "minoritarias", hoy excluidas del Internet, se hace indispensable una tercera exigencia de carácter lingüístico, no tan fácil de cumplir: Desarrollo de léxico y terminología equivalente para atender los requerimientos de traducción desde y hacia aquellos idiomas que ofrecen los mayores contenidos en el Internet y que ejercen una actividad de comunicación importante. En nuestro mundo actual, tan intensamente intercomunicado, son muy poco útiles las declaraciones de "idiomas oficiales" de un estado u organismo regional, si al mismo tiempo estas lenguas permanecen desprovistas de los instrumentos necesarios para hacerse presentes en el Internet, con niveles mínimos de equivalencia lexicológica respecto a los idiomas "importantes". Aquí me atrevo a pronosticar que aquellas lenguas que en la próxima década no logren afianzarse en la red mundial de comunicación, entrarán en una acelerada e implacable espiral de extinción. La lógica de esta afirmación es sencilla: los jóvenes, que son los portadores de su lengua hacia el futuro, cada vez irán fortaleciendo más su capacidad de comunicación, especialmente la escrita, en el ciberespacio, en sus actividades de formación profesional, comunicación con amigos y grupos de interés, y hasta en entretenimiento. Si no pueden realizar estas actividades en su idioma, lo harán en otro idioma que les sea útil. Su mundo interesante ya no será el de su propia lengua. El aporte tecnológico del sistema multilingüe ATAMIRI En marzo de 1985, invitado por la Organización de Estados Americanos, presenté en Washington el primer prototipo del sistema traductor multilingüe, llamado ATAMIRI, que venía desarrollando en La Paz, desde comienzos de los años 80. Después de esa presentación y con esa versión inicial del sistema comenzamos una operación de traducción de documentos técnicos del inglés al español en la Comisión del Canal de Panamá. A pesar de los resultados exitosos, la operación tuvo que ser interrumpida en 1988 debido a que los equipos VS Wang que utilizábamos fueron discontinuados. Desde entonces aprendimos las duras lecciones de tener que ir migrando el sistema a diferentes plataformas operativas a medida que estas evolucionaban al ritmo tormentoso de la década de los 90. Los interesados en conocer la historia de ATAMIRI y los conceptos de su diseño pueden visitar: www.atamiri.cc El año 2001 en Paris, en la UNESCO, presentamos los resultados de la operación piloto de implantación del idioma rumano en el sistema ATAMIRI, experimento que llevamos a cabo en La Paz con nuestro pequeño grupo de Ingeniería del Lenguaje, compuesto por Gladys Dávalos Arze y Marcel Guzmán de Rojas, bajo los auspicios y apoyo técnico de la Unión Latina de París y de la empresa NEOTEC de La Paz, con la colaboración de la Academia de Ciencias de Rumania. Con esta operación piloto quedó demostrada la capacidad multilingüe del sistema que hizo factible que con la introducción de diccionario y reglas gramaticales del rumano, inmediatamente quedaba habilitada la funcionalidad de traducción del rumano desde y hacia los otros idiomas ya implantados anteriormente en el sistema. Las pruebas se realizaron en base a un léxico elemental de 3,200 entradas, y con las tablas de conjugación y declinación del rumano, así como con las reglas sintácticas más frecuentemente utilizadas. Al año siguiente, también en Paris y bajo los mismos auspicios, presentamos en Internet el servicio de mensajero QOPUCHAWI, con traducción simultánea de los mensajes, en las 30 direcciones de traducción activas para el inglés y los cinco idiomas latinos: ES, FR, PT, IT y RO. La calidad de las traducciones en algunas direcciones todavía no es satisfactoria, se requieren aún ajustes en los algoritmos gramaticales del sistema, y sobre todo, más léxico, incluyendo fraseología típica de los mensajes por Internet. Sin embargo, el servicio, que es gratis, es utilizado por más de 6,000 usuarios registrados desde más de 50 países. Aproximadamente el 40% del intercambio de mensajes se efectúa en las direcciones transversales, en las que no interviene el inglés. Entre ellas, las más frecuentes son, ES<->FR y ES<->PT. Para terminar, a continuación muestro dos pantallas del sistema, para ilustrar su utilización con los idiomas latinos: Esta traducción de un trozo de texto en rumano, simultáneamente al castellano, al francés y al portugués, nos muestra cómo el analizador morfosintáctico del sistema desagrega la cadena <teritoriul> en <teritoriu> y el sufijo de articulación <-ul> para efectuar la búsqueda y después el sintetizador en los otros idiomas ordena correctamente el artículo. Si bien las traducciones son aún algo deficientes, son perfectamente inteligibles y más útiles que el texto sin traducir, pese a cierta similitud entre los idiomas latinos. La siguiente pantalla nos muestra el acceso por Internet a la base de datos lexicográfica ARUNQERA del sistema ATAMIRI, se trata de un módulo que está a prueba para poder consultar e ingresar léxico desde cualquier lugar. La búsqueda se hizo a partir de la sílaba "way" en aymara, especificando el castellano como idioma para mostrar las equivalencias. Activando el icono >> se obtienen las siguientes 20 entradas de la lista lexicológica. Se puede activar cualquiera de las entradas lexicológicas del idioma de búsqueda en la columna izquierda, y así se obtienen las equivalencias en los otros idiomas para dicha entrada. Para quienes tengan el registro y contraseña de ingreso, se ofrecen otras pantallas de trabajo que permiten ingresar nuevos términos o efectuar modificaciones a determinadas entradas en el idioma para el que esa persona está autorizada. El sistema lleva una bitácora de los trabajos realizados en la base de datos. Actualmente ARUNQERA es una pequeña base de datos lexicográfica que le permite realizar al motor de traducción ATAMIRI las pruebas necesarias para el proceso de implantación de idiomas en el sistema. En algunos idiomas se tiene ya suficiente léxico como para efectuar traducciones de buena calidad en ciertos campos temáticos técnicos. Al 20 de diciembre de 2002, el número de entradas lexicológicas en ARUNQERA, por cada idioma introducido, se agrupaba del siguiente modo: Número de entradas Idioma y su código interno 27,205 Español (Castellano C) 21,250 Francés (Française F) 10,509 Portugués (Portuguese P) 12,002 Italiano (Italiano I) 3,204 Rumano (Romanian O) 26,351 Inglés (English E) 15,443 Alemán (Deutsch D) 11,478 Holandés (Nederlands N) 9,816 Ruso (Ruskiy R) 2,643 Sueco (Svenska S) 6,148 Aymara antiguo (A) 1,032 Húngaro (Magyarul M) 166 Turco (Türk T) 18 Finlandés (Suomala U) 67 Japonés (Nippon J) El último grupo es el de los idiomas en investigación. Los tres últimos idiomas se encuentran en una etapa muy preliminar. Los idiomas con más de 10,000 lexemas ya se prestan para servir como idiomas fuente o meta en traducciones de textos con una exigencia terminológica restringida. Gracias a la capacidad multilingüe del sistema ATAMIRI, una vez que se haya completado la implantación de cada uno de estos 15 idiomas, el sistema podrá operar en un ambiente multilingüe con 240 direcciones de traducción. La implantación de un idioma en el sistema consiste en: Un estudio preliminar de las características lingüísticas del idioma a implantarse y la planificación del trabajo. Introducción en ARUNQERA del léxico básico de palabras más frecuentes y la terminología que aparece en los textos a utilizase en las pruebas. Introducción en la tabla TUKUNQA los sufijos y prefijos de la morfosintaxis del idioma. Pruebas preliminares de conjugación y declinación. Introducción de sintagmas en la tabla ARKANAKU. Pruebas preliminares de construcción sintáctica. Pruebas de traducción al idioma que se implanta, partiendo del inglés y del español como lenguajes fuente. Pruebas de traducción del idioma que se implementa, al inglés y el español como lenguajes meta. Análisis de la fraseología requerida e introducción de frases. Evaluación de la calidad de traducción al y desde el idioma que se implementa, clasificación de anomalías. Evaluación de la calidad de traducción utilizando el idioma implementado, como lenguaje fuente y meta en un ambiente multilingüe, con los otros idiomas anteriormente implementados. Ajustes de tablas y algoritmos para mejorar la calidad de traducción a un nivel apropiado para prestar servicios. Mantenimiento permanente de la base de datos lexicográfica con introducción de terminología, y parámetros complementarios para resolver casos frecuentes de polisemia. Estas actividades, hasta las pruebas de traducción para verificar la factibilidad de una implantación servible, pueden tomar de tres a seis meses, dependiendo de los recursos humanos con que se cuente. Las demás actividades, hasta que el idioma pueda ser utilizado en ambiente de productividad, a un ritmo de trabajo normal, con recursos razonables, puede tomar entre 18 y 24 meses. La experiencia ha mostrado que la primera etapa hasta las pruebas de traducción tiene costos del orden de 80,000 Euros, con un nivel lexicográfico de unas 15,000 entradas. De ahí para adelante, los costos dependerán del tamaño y complejidad de la base de datos lexicográfica que se quiera construir. En todo caso, con unos 120,000 Euros adicionales debería ser posible alcanzar un buen nivel de operabilidad en ambiente de producción. Después de la información aquí proporcionada sobre los logros alcanzados con esta tecnología desarrollada en Bolivia, y el potencial que aún tiene, ruego se me permita hacer un comentario final: considero que ATAMIRI es una tecnología desaprovechada en este mundo en que la problemática del multilinguismo en el Internet se ha hecho tan crítica. _____________________________________________ Lista de discusión Aymara http://aymara.org/lista/lista.php _____________________________________________