Sar tar vedú a todos (ése era un saludo atlante en una obra de teatro que hicimos una vez en el colegio):
Con un amigo (ingeniero, igual que yo) llegamos al consenso de que para aprender idiomas conviene optimizar el aprendizaje de vocabulario, y para eso, lo mejor es tener un ránking de la frecuencia de las palabras en ese idioma para aprender primero las más útiles o necesarias. Por supuesto que el resultado dependerá del corpus que se utilice y de otros factores, pero nos parece un buen comienzo. Ahora bien, para obtener mejores resultados, es razonable usar un corpus más grande, y para hacerlo más rápido, usar herramientas computacionales. Eso trae un problema a la hora de contar palabras que cambian su grafía por la función gramatical (verbos conjugados, sustantivos declinados, etc.). A raíz de eso, iniciamos una discusión sobre cómo mejorar el conteo en esos casos (de tal manera que siga siendo automático). Reproduzco aquí la discusión, porque me parece que es el lugar más adecuado para sacar de ella algún provecho (¡cualquier acotación será muy bienvenida!) ---- Yo había pensado algo como esto: - de cant-ar se derivan cant-o -as -a -amos -áis -an (y un largo etc.) - de com-er, com-o -es -e -emos -éis -en Lo más fácil es decir que cualquier palabra terminada en -o es un potencial verbo -ar y -er conjugado: canto <-- (cantar, *canter); solo <-- (solar, soler); bolígrafo <-- (*bolígrafar | *bolígrafer) Ahora, como no toda palabra -o es un verbo, mejor que sólo la agrupe si el corpus contiene el respectivo verbo en infinitivo (eso elimina el problema del canto y del bolígrafo, pero no el de "solo", de hecho "solar" y "soler" existen (aunque uno no sea verbo y el otro no admita esa conjugación); pero crea un problema cuando el infinitivo no esté en el corpus. A pesar de los pesares, creo que eso mejora bastante el resultado. Luego, para casos como asir-->él ase, asar-->que yo ase, lo más fácil es contar la palabra dos veces. El caso de "como" se puede resolver contando además los verbos conjugados como palabras invariantes: "comiese" no va a afectar la parte alta del ránking, mientras que "yo como" a lo más va a inflar un poco al adjetivo demostrativo "como", pero no va a hacer bajar a "comer" que es mucho más preocupante. Si quisiéramos hacer algo mucho más científico, habría que aplicar inteligencia artificial como la del traductor de google, para asegurarse de que la palabra leída sea un sustantivo, verbo, adjetivo, pronombre, etc., pero por supuesto que eso es mucho más lento y caro de programar (y de todas formas se equivoca, aunque mucho menos)... Recibo comentarios. Sar tar sidé. -------------------------------------------------------------------- IdeoLengua - Lista de Lingüistica e Idiomas Artificiales Suscríbase en [EMAIL PROTECTED] Informacion en http://ideolengua.cjb.net Desglose temático http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html Enlaces a Yahoo! Grupos <*> Para visitar tu grupo en la web, ve a: http://espanol.groups.yahoo.com/group/ideolengua/ <*> La configuración de tu correo: Mensajes individuales | Tradicional <*> Para modificar la configuración desde la Web, visita: http://espanol.groups.yahoo.com/group/ideolengua/join (ID de Yahoo! obligatoria) <*> Para modificar la configuración mediante el correo: mailto:[EMAIL PROTECTED] mailto:[EMAIL PROTECTED] <*> Para cancelar tu suscripción en este grupo, envía un mensaje en blanco a: [EMAIL PROTECTED] <*> El uso que hagas de Yahoo! Grupos está sujeto a las Condiciones del servicio de Yahoo!: http://e1.docs.yahoo.com/info/utos.html
