Hola Miriam,

Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés 
que salgan muchas palabras comunes entre los tópicos, así que a tu pregunta

¿incluiríais estas palabras como stopwords?

Yo te diría que sí, o alternativamente que utilices un filtrado por 
tf-idf que te quitará esas palabras demasiado comunes entre documentos.

Y ante la pregunta de si quieres que salgan más diferencias entre topics 
hay muchas alternativas. Entre ellas:

- utilizar bigramas (o n-gramas, con un grado creciente de complejidad)

- aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos 
documentos / vocabulario estás analizando?

También está la estrategia de "tunear" los parámetros de LDA...

Saludos,

Pedro


El 28/4/20 a las 12:00, [email protected] escribió:
> [R-es] Stopwords: Topic modelling con LDA
-- 
*Pedro Concejero
E-mail: [email protected] 
<mailto:[email protected]>
skype: pedro.concejero
twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es>
eRReRo feliz, me puedes encontrar en gRupo R madRid 
<http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13> *

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a