Es curioso esto de las frecuencias, recuerdo que en el
IEC (Institut d'estudis catalans) se drenaron unos
cuantos millones de palabras de libros catalanes de
distintas disciplinas (no solo novela), y a parte de
curiosidades como que una autora muy bien considerada
de la literatura catalana solo usaba un total de 1500
palabras en toda su obra, salió una de aún más
sorprendente, como que la palabra "telèfon" es de las
raras en textos escritos en catalán (hablo de hace
unos 8 años atrás, más o menos), cuando teléfono es
una palabra muy usada en el habla. Por lo que habría
que saber donde buscar realmente esta frecuencia de
palabras.
Un saludo
Marc Ignasi
--- Rafael Delpiano <[EMAIL PROTECTED]> wrote:
> Sar tar vedú a todos (ése era un saludo atlante en
> una obra de teatro que
> hicimos una vez en el colegio):
>
> Con un amigo (ingeniero, igual que yo) llegamos al
> consenso de que para
> aprender idiomas conviene optimizar el aprendizaje
> de vocabulario, y para
> eso, lo mejor es tener un ránking de la frecuencia
> de las palabras en ese
> idioma para aprender primero las más útiles o
> necesarias. Por supuesto que
> el resultado dependerá del corpus que se utilice y
> de otros factores, pero
> nos parece un buen comienzo.
>
> Ahora bien, para obtener mejores resultados, es
> razonable usar un corpus
> más grande, y para hacerlo más rápido, usar
> herramientas computacionales.
> Eso trae un problema a la hora de contar palabras
> que cambian su grafía
> por la función gramatical (verbos conjugados,
> sustantivos declinados,
> etc.). A raíz de eso, iniciamos una discusión sobre
> cómo mejorar el conteo
> en esos casos (de tal manera que siga siendo
> automático).
>
> Reproduzco aquí la discusión, porque me parece que
> es el lugar más
> adecuado para sacar de ella algún provecho
> (¡cualquier acotación será muy
> bienvenida!)
>
> ----
> Yo había pensado algo como esto:
>
> - de cant-ar se derivan cant-o -as -a -amos -áis -an
> (y un largo etc.)
> - de com-er, com-o -es -e -emos -éis -en
>
> Lo más fácil es decir que cualquier palabra
> terminada en -o es un
> potencial verbo -ar y -er conjugado: canto <--
> (cantar, *canter); solo <--
> (solar, soler); bolígrafo <-- (*bolígrafar |
> *bolígrafer)
>
> Ahora, como no toda palabra -o es un verbo, mejor
> que sólo la agrupe si el
> corpus contiene el respectivo verbo en infinitivo
> (eso elimina el problema
> del canto y del bolígrafo, pero no el de "solo", de
> hecho "solar" y
> "soler" existen (aunque uno no sea verbo y el otro
> no admita esa
> conjugación); pero crea un problema cuando el
> infinitivo no esté en el
> corpus. A pesar de los pesares, creo que eso mejora
> bastante el resultado.
>
> Luego, para casos como asir-->él ase, asar-->que yo
> ase, lo más fácil es
> contar la palabra dos veces.
>
> El caso de "como" se puede resolver contando además
> los verbos conjugados
> como palabras invariantes: "comiese" no va a afectar
> la parte alta del
> ránking, mientras que "yo como" a lo más va a inflar
> un poco al adjetivo
> demostrativo "como", pero no va a hacer bajar a
> "comer" que es mucho más
> preocupante.
>
> Si quisiéramos hacer algo mucho más científico,
> habría que aplicar
> inteligencia artificial como la del traductor de
> google, para asegurarse
> de que la palabra leída sea un sustantivo, verbo,
> adjetivo, pronombre,
> etc., pero por supuesto que eso es mucho más lento y
> caro de programar (y
> de todas formas se equivoca, aunque mucho menos)...
>
> Recibo comentarios.
>
> Sar tar sidé.
>
>
___________________________________________________________
Yahoo! Answers - Got a question? Someone out there knows the answer. Try it
now.
http://uk.answers.yahoo.com/
--------------------------------------------------------------------
IdeoLengua - Lista de Lingüistica e Idiomas Artificiales
Suscríbase en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose temático
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html
Enlaces a Yahoo! Grupos
<*> Para visitar tu grupo en la web, ve a:
http://espanol.groups.yahoo.com/group/ideolengua/
<*> La configuración de tu correo:
Mensajes individuales | Tradicional
<*> Para modificar la configuración desde la Web, visita:
http://espanol.groups.yahoo.com/group/ideolengua/join
(ID de Yahoo! obligatoria)
<*> Para modificar la configuración mediante el correo:
mailto:[EMAIL PROTECTED]
mailto:[EMAIL PROTECTED]
<*> Para cancelar tu suscripción en este grupo, envía
un mensaje en blanco a:
[EMAIL PROTECTED]
<*> El uso que hagas de Yahoo! Grupos está sujeto a
las Condiciones del servicio de Yahoo!:
http://e1.docs.yahoo.com/info/utos.html