Lo suyo es que te hagas con un lemario flexionado, en el que aparecen
los lemas y todas sus formas posibles (plurales, femeninos,
conjugaciones, etc.)

En realidad, para obtener el resultado que quieres necesitarás
recopilar muchos textos y pasarlos por un POS-Tagger o etiquetador
morfosintáctico (te recomiendo FreeLing). Cuando tengas las formas
raíces ya solo te quedará sumar el número de veces que aparecen y así
tener tu primera lista de frecuencias.

Ojo con los textos que uses, ya que pueden desvirtuar la estadística.
Por ejemplo, si incluyes textos de México, "carro" o "alberca" son
términos poco usados en España pero muy frecuentes allí (se usan como
sustitutos de "coche" y "piscina").

Por último ¿te has dado una vuelta por
http://www.corpusdelespanol.org? Creo recordar que ahí podías obtener
frecuencias. También están los corpus CREA y CORDE de la RAE.

Saludos,

Antonio

--- En [email protected], "Rafael Delpiano" <[EMAIL PROTECTED]>
escribió:
>
> Sar tar vedú a todos (ése era un saludo atlante en una obra de
teatro que
> hicimos una vez en el colegio):
> 
> Con un amigo (ingeniero, igual que yo) llegamos al consenso de que para
> aprender idiomas conviene optimizar el aprendizaje de vocabulario, y
para
> eso, lo mejor es tener un ránking de la frecuencia de las palabras
en ese
> idioma para aprender primero las más útiles o necesarias. Por
supuesto que
> el resultado dependerá del corpus que se utilice y de otros
factores, pero
> nos parece un buen comienzo.
> 
> Ahora bien, para obtener mejores resultados, es razonable usar un corpus
> más grande, y para hacerlo más rápido, usar herramientas
computacionales.
> Eso trae un problema a la hora de contar palabras que cambian su grafía
> por la función gramatical (verbos conjugados, sustantivos declinados,
> etc.). A raíz de eso, iniciamos una discusión sobre cómo mejorar el
conteo
> en esos casos (de tal manera que siga siendo automático).
> 
> Reproduzco aquí la discusión, porque me parece que es el lugar más
> adecuado para sacar de ella algún provecho (¡cualquier acotación
será muy
> bienvenida!)
> 
> ----
> Yo había pensado algo como esto:
> 
> - de cant-ar se derivan cant-o -as -a -amos -áis -an (y un largo etc.)
> - de com-er, com-o -es -e -emos -éis -en
> 
> Lo más fácil es decir que cualquier palabra terminada en -o es un
> potencial verbo -ar y -er conjugado: canto <-- (cantar, *canter);
solo <--
> (solar, soler); bolígrafo <-- (*bolígrafar | *bolígrafer)
> 
> Ahora, como no toda palabra -o es un verbo, mejor que sólo la agrupe
si el
> corpus contiene el respectivo verbo en infinitivo (eso elimina el
problema
> del canto y del bolígrafo, pero no el de "solo", de hecho "solar" y
> "soler" existen (aunque uno no sea verbo y el otro no admita esa
> conjugación); pero crea un problema cuando el infinitivo no esté en el
> corpus. A pesar de los pesares, creo que eso mejora bastante el
resultado.
> 
> Luego, para casos como asir-->él ase, asar-->que yo ase, lo más fácil es
> contar la palabra dos veces.
> 
> El caso de "como" se puede resolver contando además los verbos
conjugados
> como palabras invariantes: "comiese" no va a afectar la parte alta del
> ránking, mientras que "yo como" a lo más va a inflar un poco al adjetivo
> demostrativo "como", pero no va a hacer bajar a "comer" que es mucho más
> preocupante.
> 
> Si quisiéramos hacer algo mucho más científico, habría que aplicar
> inteligencia artificial como la del traductor de google, para asegurarse
> de que la palabra leída sea un sustantivo, verbo, adjetivo, pronombre,
> etc., pero por supuesto que eso es mucho más lento y caro de
programar (y
> de todas formas se equivoca, aunque mucho menos)...
> 
> Recibo comentarios.
> 
> Sar tar sidé.
>




--------------------------------------------------------------------
IdeoLengua - Lista de Lingüistica e Idiomas Artificiales
Suscríbase en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose temático 
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html


 
Enlaces a Yahoo! Grupos

<*> Para visitar tu grupo en la web, ve a:
    http://espanol.groups.yahoo.com/group/ideolengua/

<*> La configuración de tu correo:
    Mensajes individuales  | Tradicional

<*> Para modificar la configuración desde la Web, visita:
    http://espanol.groups.yahoo.com/group/ideolengua/join
    (ID de Yahoo! obligatoria)

<*> Para modificar la configuración mediante el correo:
    mailto:[EMAIL PROTECTED] 
    mailto:[EMAIL PROTECTED]

<*> Para cancelar tu suscripción en este grupo, envía 
    un mensaje en blanco a:
    [EMAIL PROTECTED]

<*> El uso que hagas de Yahoo! Grupos está sujeto a
    las Condiciones del servicio de Yahoo!:
    http://e1.docs.yahoo.com/info/utos.html
 

Responder a