Lo suyo es que te hagas con un lemario flexionado, en el que aparecen los lemas y todas sus formas posibles (plurales, femeninos, conjugaciones, etc.)
En realidad, para obtener el resultado que quieres necesitarás recopilar muchos textos y pasarlos por un POS-Tagger o etiquetador morfosintáctico (te recomiendo FreeLing). Cuando tengas las formas raíces ya solo te quedará sumar el número de veces que aparecen y así tener tu primera lista de frecuencias. Ojo con los textos que uses, ya que pueden desvirtuar la estadística. Por ejemplo, si incluyes textos de México, "carro" o "alberca" son términos poco usados en España pero muy frecuentes allí (se usan como sustitutos de "coche" y "piscina"). Por último ¿te has dado una vuelta por http://www.corpusdelespanol.org? Creo recordar que ahí podías obtener frecuencias. También están los corpus CREA y CORDE de la RAE. Saludos, Antonio --- En [email protected], "Rafael Delpiano" <[EMAIL PROTECTED]> escribió: > > Sar tar vedú a todos (ése era un saludo atlante en una obra de teatro que > hicimos una vez en el colegio): > > Con un amigo (ingeniero, igual que yo) llegamos al consenso de que para > aprender idiomas conviene optimizar el aprendizaje de vocabulario, y para > eso, lo mejor es tener un ránking de la frecuencia de las palabras en ese > idioma para aprender primero las más útiles o necesarias. Por supuesto que > el resultado dependerá del corpus que se utilice y de otros factores, pero > nos parece un buen comienzo. > > Ahora bien, para obtener mejores resultados, es razonable usar un corpus > más grande, y para hacerlo más rápido, usar herramientas computacionales. > Eso trae un problema a la hora de contar palabras que cambian su grafía > por la función gramatical (verbos conjugados, sustantivos declinados, > etc.). A raíz de eso, iniciamos una discusión sobre cómo mejorar el conteo > en esos casos (de tal manera que siga siendo automático). > > Reproduzco aquí la discusión, porque me parece que es el lugar más > adecuado para sacar de ella algún provecho (¡cualquier acotación será muy > bienvenida!) > > ---- > Yo había pensado algo como esto: > > - de cant-ar se derivan cant-o -as -a -amos -áis -an (y un largo etc.) > - de com-er, com-o -es -e -emos -éis -en > > Lo más fácil es decir que cualquier palabra terminada en -o es un > potencial verbo -ar y -er conjugado: canto <-- (cantar, *canter); solo <-- > (solar, soler); bolígrafo <-- (*bolígrafar | *bolígrafer) > > Ahora, como no toda palabra -o es un verbo, mejor que sólo la agrupe si el > corpus contiene el respectivo verbo en infinitivo (eso elimina el problema > del canto y del bolígrafo, pero no el de "solo", de hecho "solar" y > "soler" existen (aunque uno no sea verbo y el otro no admita esa > conjugación); pero crea un problema cuando el infinitivo no esté en el > corpus. A pesar de los pesares, creo que eso mejora bastante el resultado. > > Luego, para casos como asir-->él ase, asar-->que yo ase, lo más fácil es > contar la palabra dos veces. > > El caso de "como" se puede resolver contando además los verbos conjugados > como palabras invariantes: "comiese" no va a afectar la parte alta del > ránking, mientras que "yo como" a lo más va a inflar un poco al adjetivo > demostrativo "como", pero no va a hacer bajar a "comer" que es mucho más > preocupante. > > Si quisiéramos hacer algo mucho más científico, habría que aplicar > inteligencia artificial como la del traductor de google, para asegurarse > de que la palabra leída sea un sustantivo, verbo, adjetivo, pronombre, > etc., pero por supuesto que eso es mucho más lento y caro de programar (y > de todas formas se equivoca, aunque mucho menos)... > > Recibo comentarios. > > Sar tar sidé. > -------------------------------------------------------------------- IdeoLengua - Lista de Lingüistica e Idiomas Artificiales Suscríbase en [EMAIL PROTECTED] Informacion en http://ideolengua.cjb.net Desglose temático http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html Enlaces a Yahoo! Grupos <*> Para visitar tu grupo en la web, ve a: http://espanol.groups.yahoo.com/group/ideolengua/ <*> La configuración de tu correo: Mensajes individuales | Tradicional <*> Para modificar la configuración desde la Web, visita: http://espanol.groups.yahoo.com/group/ideolengua/join (ID de Yahoo! obligatoria) <*> Para modificar la configuración mediante el correo: mailto:[EMAIL PROTECTED] mailto:[EMAIL PROTECTED] <*> Para cancelar tu suscripción en este grupo, envía un mensaje en blanco a: [EMAIL PROTECTED] <*> El uso que hagas de Yahoo! Grupos está sujeto a las Condiciones del servicio de Yahoo!: http://e1.docs.yahoo.com/info/utos.html
