Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-30 Por tema miriam . alzate
De acuerdo, muchas gracias! El Jue, 30 de Abril de 2020, 14:45, Carlos Ortega escribió: > Hola Miriam, > > No he visto que se use un filtro por defecto para el valor de tf-idf. > > En tu caso, tendrás que ver cúal es ese punto de corte que te revela > señal, > justo de los términos que te interesan

Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-30 Por tema Carlos Ortega
Hola Miriam, No he visto que se use un filtro por defecto para el valor de tf-idf. En tu caso, tendrás que ver cúal es ese punto de corte que te revela señal, justo de los términos que te interesan. Mira la distribución de palabras y su valor de tf-idf y selecciona tu corte. Gracias, Carlos. www

Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-29 Por tema miriam . alzate
Hola, Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o tf-idf que se considerara como umbral para establecer que una palabra es muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los de tf-idf ente 0 y 0.07. Un saludo El Mar, 28 de Abril de 2020, 12:53, C

Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Gracias Carlos! Apunto tu sugerencia. El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió: > Hola, > Yo de primeras los quitaría para qué otros topics aparecen. > > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que > desaparecen como relevantes esas palabras comunes, será