Rafael:
Hace un tiempo conversábamos aquí (¿o no fue aquí?) que es
usual que las palabras maaaaaás frecuentes son las menos relevantes.
Son por ejemplo, las conjunciones o preposiciones del español, que
están a la orden del día y son meras ayudantes de tu mensaje. Si
hablas "a lo Tarzán" prescinde de ellas y con sólo pronombres, verbos,
sustantivos y adjetivos te las puedes componer para hacer que te
comprendan. Entonces, habría que filtrar las más usuales pero no tan
útiles y luego contar las restantes.
Saludos.
Roberto.
--- En [email protected], marc ignasi corral <[EMAIL PROTECTED]>
escribió:
>
> Es curioso esto de las frecuencias, recuerdo que en el
> IEC (Institut d'estudis catalans) se drenaron unos
> cuantos millones de palabras de libros catalanes de
> distintas disciplinas (no solo novela), y a parte de
> curiosidades como que una autora muy bien considerada
> de la literatura catalana solo usaba un total de 1500
> palabras en toda su obra, salió una de aún más
> sorprendente, como que la palabra "telèfon" es de las
> raras en textos escritos en catalán (hablo de hace
> unos 8 años atrás, más o menos), cuando teléfono es
> una palabra muy usada en el habla. Por lo que habría
> que saber donde buscar realmente esta frecuencia de
> palabras.
> Un saludo
> Marc Ignasi
>
> --- Rafael Delpiano <[EMAIL PROTECTED]> wrote:
>
> > Sar tar vedú a todos (ése era un saludo atlante en
> > una obra de teatro que
> > hicimos una vez en el colegio):
> >
> > Con un amigo (ingeniero, igual que yo) llegamos al
> > consenso de que para
> > aprender idiomas conviene optimizar el aprendizaje
> > de vocabulario, y para
> > eso, lo mejor es tener un ránking de la frecuencia
> > de las palabras en ese
> > idioma para aprender primero las más útiles o
> > necesarias. Por supuesto que
> > el resultado dependerá del corpus que se utilice y
> > de otros factores, pero
> > nos parece un buen comienzo.
> >
> > Ahora bien, para obtener mejores resultados, es
> > razonable usar un corpus
> > más grande, y para hacerlo más rápido, usar
> > herramientas computacionales.
> > Eso trae un problema a la hora de contar palabras
> > que cambian su grafía
> > por la función gramatical (verbos conjugados,
> > sustantivos declinados,
> > etc.). A raíz de eso, iniciamos una discusión sobre
> > cómo mejorar el conteo
> > en esos casos (de tal manera que siga siendo
> > automático).
> >
> > Reproduzco aquí la discusión, porque me parece que
> > es el lugar más
> > adecuado para sacar de ella algún provecho
> > (¡cualquier acotación será muy
> > bienvenida!)
> >
> > ----
> > Yo había pensado algo como esto:
> >
> > - de cant-ar se derivan cant-o -as -a -amos -áis -an
> > (y un largo etc.)
> > - de com-er, com-o -es -e -emos -éis -en
> >
> > Lo más fácil es decir que cualquier palabra
> > terminada en -o es un
> > potencial verbo -ar y -er conjugado: canto <--
> > (cantar, *canter); solo <--
> > (solar, soler); bolígrafo <-- (*bolígrafar |
> > *bolígrafer)
> >
> > Ahora, como no toda palabra -o es un verbo, mejor
> > que sólo la agrupe si el
> > corpus contiene el respectivo verbo en infinitivo
> > (eso elimina el problema
> > del canto y del bolígrafo, pero no el de "solo", de
> > hecho "solar" y
> > "soler" existen (aunque uno no sea verbo y el otro
> > no admita esa
> > conjugación); pero crea un problema cuando el
> > infinitivo no esté en el
> > corpus. A pesar de los pesares, creo que eso mejora
> > bastante el resultado.
> >
> > Luego, para casos como asir-->él ase, asar-->que yo
> > ase, lo más fácil es
> > contar la palabra dos veces.
> >
> > El caso de "como" se puede resolver contando además
> > los verbos conjugados
> > como palabras invariantes: "comiese" no va a afectar
> > la parte alta del
> > ránking, mientras que "yo como" a lo más va a inflar
> > un poco al adjetivo
> > demostrativo "como", pero no va a hacer bajar a
> > "comer" que es mucho más
> > preocupante.
> >
> > Si quisiéramos hacer algo mucho más científico,
> > habría que aplicar
> > inteligencia artificial como la del traductor de
> > google, para asegurarse
> > de que la palabra leída sea un sustantivo, verbo,
> > adjetivo, pronombre,
> > etc., pero por supuesto que eso es mucho más lento y
> > caro de programar (y
> > de todas formas se equivoca, aunque mucho menos)...
> >
> > Recibo comentarios.
> >
> > Sar tar sidé.
> >
> >
>
>
>
> ___________________________________________________________
> Yahoo! Answers - Got a question? Someone out there knows the answer.
Try it
> now.
> http://uk.answers.yahoo.com/
>
--------------------------------------------------------------------
IdeoLengua - Lista de Lingüistica e Idiomas Artificiales
Suscríbase en [EMAIL PROTECTED]
Informacion en http://ideolengua.cjb.net
Desglose temático
http://groups.yahoo.com/group/ideolengua/files/Administracion/top-ideol.html
Enlaces a Yahoo! Grupos
<*> Para visitar tu grupo en la web, ve a:
http://espanol.groups.yahoo.com/group/ideolengua/
<*> La configuración de tu correo:
Mensajes individuales | Tradicional
<*> Para modificar la configuración desde la Web, visita:
http://espanol.groups.yahoo.com/group/ideolengua/join
(ID de Yahoo! obligatoria)
<*> Para modificar la configuración mediante el correo:
mailto:[EMAIL PROTECTED]
mailto:[EMAIL PROTECTED]
<*> Para cancelar tu suscripción en este grupo, envía
un mensaje en blanco a:
[EMAIL PROTECTED]
<*> El uso que hagas de Yahoo! Grupos está sujeto a
las Condiciones del servicio de Yahoo!:
http://e1.docs.yahoo.com/info/utos.html