Sar tar vedú a todos (ése era un saludo atlante en una obra de teatro que
hicimos una vez en el colegio):

Con un amigo (ingeniero, igual que yo) llegamos al consenso de que para
aprender idiomas conviene optimizar el aprendizaje de vocabulario, y para
eso, lo mejor es tener un ránking de la frecuencia de las palabras en ese
idioma para aprender primero las más útiles o necesarias. Por supuesto que
el resultado dependerá del corpus que se utilice y de otros factores, pero
nos parece un buen comienzo.

Ahora bien, para obtener mejores resultados, es razonable usar un corpus
más grande, y para hacerlo más rápido, usar herramientas computacionales.
Eso trae un problema a la hora de contar palabras que cambian su grafía
por la función gramatical (verbos conjugados, sustantivos declinados,
etc.). A raíz de eso, iniciamos una discusión sobre cómo mejorar el conteo
en esos casos (de tal manera que siga siendo automático).

Reproduzco aquí la discusión, porque me parece que es el lugar más
adecuado para sacar de ella algún provecho (¡cualquier acotación será muy
bienvenida!)

----
Yo había pensado algo como esto:

- de cant-ar se derivan cant-o -as -a -amos -áis -an (y un largo etc.)
- de com-er, com-o -es -e -emos -éis -en

Lo más fácil es decir que cualquier palabra terminada en -o es un
potencial verbo -ar y -er conjugado: canto <-- (cantar, *canter); solo <--
(solar, soler); bolígrafo <-- (*bolígrafar | *bolígrafer)

Ahora, como no toda palabra -o es un verbo, mejor que sólo la agrupe si el
corpus contiene el respectivo verbo en infinitivo (eso elimina el problema
del canto y del bolígrafo, pero no el de "solo", de hecho "solar" y
"soler" existen (aunque uno no sea verbo y el otro no admita esa
conjugación); pero crea un problema cuando el infinitivo no esté en el
corpus. A pesar de los pesares, creo que eso mejora bastante el resultado.

Luego, para casos como asir-->él ase, asar-->que yo ase, lo más fácil es
contar la palabra dos veces.

El caso de "como" se puede resolver contando además los verbos conjugados
como palabras invariantes: "comiese" no va a afectar la parte alta del
ránking, mientras que "yo como" a lo más va a inflar un poco al adjetivo
demostrativo "como", pero no va a hacer bajar a "comer" que es mucho más
preocupante.

Si quisiéramos hacer algo mucho más científico, habría que aplicar
inteligencia artificial como la del traductor de google, para asegurarse
de que la palabra leída sea un sustantivo, verbo, adjetivo, pronombre,
etc., pero por supuesto que eso es mucho más lento y caro de programar (y
de todas formas se equivoca, aunque mucho menos)...

Recibo comentarios.

Sar tar sidé.



--------------------------------------------------------------------
IdeoLengua - Lista de Lingüistica e Idiomas Artificiales
Suscríbase en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose temático 
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html


 
Enlaces a Yahoo! Grupos

<*> Para visitar tu grupo en la web, ve a:
    http://espanol.groups.yahoo.com/group/ideolengua/

<*> La configuración de tu correo:
    Mensajes individuales  | Tradicional

<*> Para modificar la configuración desde la Web, visita:
    http://espanol.groups.yahoo.com/group/ideolengua/join
    (ID de Yahoo! obligatoria)

<*> Para modificar la configuración mediante el correo:
    mailto:[EMAIL PROTECTED] 
    mailto:[EMAIL PROTECTED]

<*> Para cancelar tu suscripción en este grupo, envía 
    un mensaje en blanco a:
    [EMAIL PROTECTED]

<*> El uso que hagas de Yahoo! Grupos está sujeto a
    las Condiciones del servicio de Yahoo!:
    http://e1.docs.yahoo.com/info/utos.html
 

Responder a