[R-es] Instalar paquetes no disponibles para la versión actual
Buenas tardes. Tenía la versión 3.6.0 de R. Quería instalar el paquete edarf, pero decía que no estaba disponible para esa versión. Actualicé R a la versión 4.0.0, que creo que es la última, pero al tratar de reinstalar forestFloor, me dice que no está disponible para la versión 4.0.0. He abierto R 3.6.0 directamente, cliqueo install.packages("forestfloor") y ahora me dice que no está disponible para esa versión. A ver si me podéis echar una mano, Gracias, Manuel [[alternative HTML version deleted]] ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA
De acuerdo, muchas gracias! El Jue, 30 de Abril de 2020, 14:45, Carlos Ortega escribió: > Hola Miriam, > > No he visto que se use un filtro por defecto para el valor de tf-idf. > > En tu caso, tendrás que ver cúal es ese punto de corte que te revela > señal, > justo de los términos que te interesan. > Mira la distribución de palabras y su valor de tf-idf y selecciona tu > corte. > > Gracias, > Carlos. > www.qualityexcellence.es > > > El mié., 29 abr. 2020 a las 14:00, escribió: > >> Hola, >> >> Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o >> tf-idf que se considerara como umbral para establecer que una palabra es >> muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los >> de tf-idf ente 0 y 0.07. >> >> Un saludo >> >> El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió: >> > Hola, >> > Yo de primeras los quitaría para qué otros topics aparecen. >> > >> > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que >> > desaparecen como relevantes esas palabras comunes, será otra forma de >> > confirmar que es buena la decisión de hacer el análisis eliminandolas. >> > >> > Saludos, >> > Carlos Ortega >> > >> https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8=http%3a%2f%2fwww.qualityecellence.es >> > >> > El mar., 28 abr. 2020 a las 11:44, >> escribió: >> > >> >> Buenos días, >> >> >> >> Estoy realizando un análisis de topic models con el método LDA. En >> >> principio, he quitado del análisis las palabras "stopwords" >> universales. >> >> A >> >> la hora de ver los topics y sus palabras más frecuentes encuentro que >> >> son >> >> muy similares y hay palabras que aparecen en todos los topics. Los >> >> textos >> >> que estoy analizando son opiniones de consumidores sobre una >> categoría >> >> concreta de cosméticos, por lo que la temática es muy concreta y >> puede >> >> ser >> >> que en todas las opiniones se hable de cosas similares. >> >> >> >> Mi pregunta es, incluiríais estas palabras que me aparecen en todos >> los >> >> topics o casi todos como stopwords? Hay alguna forma de refinar más >> el >> >> análisis y que haya más diferencias entre topics? >> >> >> >> Este es el código que estoy usando: >> >> >> >> Reviews_dtm <-text_df12star %>% >> >> unnest_tokens(word, text) %>% >> >> anti_join(stop_words)%>% >> >> count(Brand, word) %>% >> >> cast_dtm(Brand, word, n) >> >> >> >> >> >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = >> 2016)) >> >> >> >> Un saludo >> >> >> >> Miriam >> >> >> >> ___ >> >> R-help-es mailing list >> >> R-help-es@r-project.org >> >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> >> >> > >> > >> > -- >> > Saludos, >> > Carlos Ortega >> > www.qualityexcellence.es >> > >> > >> >> >> > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es > ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA
Hola Miriam, No he visto que se use un filtro por defecto para el valor de tf-idf. En tu caso, tendrás que ver cúal es ese punto de corte que te revela señal, justo de los términos que te interesan. Mira la distribución de palabras y su valor de tf-idf y selecciona tu corte. Gracias, Carlos. www.qualityexcellence.es El mié., 29 abr. 2020 a las 14:00, escribió: > Hola, > > Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o > tf-idf que se considerara como umbral para establecer que una palabra es > muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los > de tf-idf ente 0 y 0.07. > > Un saludo > > El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió: > > Hola, > > Yo de primeras los quitaría para qué otros topics aparecen. > > > > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que > > desaparecen como relevantes esas palabras comunes, será otra forma de > > confirmar que es buena la decisión de hacer el análisis eliminandolas. > > > > Saludos, > > Carlos Ortega > > > https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8=http%3a%2f%2fwww.qualityecellence.es > > > > El mar., 28 abr. 2020 a las 11:44, escribió: > > > >> Buenos días, > >> > >> Estoy realizando un análisis de topic models con el método LDA. En > >> principio, he quitado del análisis las palabras "stopwords" universales. > >> A > >> la hora de ver los topics y sus palabras más frecuentes encuentro que > >> son > >> muy similares y hay palabras que aparecen en todos los topics. Los > >> textos > >> que estoy analizando son opiniones de consumidores sobre una categoría > >> concreta de cosméticos, por lo que la temática es muy concreta y puede > >> ser > >> que en todas las opiniones se hable de cosas similares. > >> > >> Mi pregunta es, incluiríais estas palabras que me aparecen en todos los > >> topics o casi todos como stopwords? Hay alguna forma de refinar más el > >> análisis y que haya más diferencias entre topics? > >> > >> Este es el código que estoy usando: > >> > >> Reviews_dtm <-text_df12star %>% > >> unnest_tokens(word, text) %>% > >> anti_join(stop_words)%>% > >> count(Brand, word) %>% > >> cast_dtm(Brand, word, n) > >> > >> > >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016)) > >> > >> Un saludo > >> > >> Miriam > >> > >> ___ > >> R-help-es mailing list > >> R-help-es@r-project.org > >> https://stat.ethz.ch/mailman/listinfo/r-help-es > >> > > > > > > -- > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es > > > > > > > -- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]] ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es