Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-30 Por tema miriam . alzate
De acuerdo, muchas gracias!
El Jue, 30 de Abril de 2020, 14:45, Carlos Ortega escribió:
> Hola Miriam,
>
> No he visto que se use un filtro por defecto para el valor de tf-idf.
>
> En tu caso, tendrás que ver cúal es ese punto de corte que te revela
> señal,
> justo de los términos que te interesan.
> Mira la distribución de palabras y su valor de tf-idf y selecciona tu
> corte.
>
> Gracias,
> Carlos.
> www.qualityexcellence.es
>
>
> El mié., 29 abr. 2020 a las 14:00,  escribió:
>
>> Hola,
>>
>> Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o
>> tf-idf que se considerara como umbral para establecer que una palabra es
>> muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los
>> de tf-idf ente 0 y 0.07.
>>
>> Un saludo
>>
>> El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:
>> > Hola,
>> > Yo de primeras los quitaría para qué otros topics aparecen.
>> >
>> > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que
>> > desaparecen como relevantes esas palabras comunes, será otra forma de
>> > confirmar que es buena la decisión de hacer el análisis eliminandolas.
>> >
>> > Saludos,
>> > Carlos Ortega
>> >
>> https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8=http%3a%2f%2fwww.qualityecellence.es
>> >
>> > El mar., 28 abr. 2020 a las 11:44, 
>> escribió:
>> >
>> >> Buenos días,
>> >>
>> >> Estoy realizando un análisis de topic models con el método LDA. En
>> >> principio, he quitado del análisis las palabras "stopwords"
>> universales.
>> >> A
>> >> la hora de ver los topics y sus palabras más frecuentes encuentro que
>> >> son
>> >> muy similares y hay palabras que aparecen en todos los topics. Los
>> >> textos
>> >> que estoy analizando son opiniones de consumidores sobre una
>> categoría
>> >> concreta de cosméticos, por lo que la temática es muy concreta y
>> puede
>> >> ser
>> >> que en todas las opiniones se hable de cosas similares.
>> >>
>> >> Mi pregunta es,  incluiríais estas palabras que me aparecen en todos
>> los
>> >> topics o casi todos como stopwords?  Hay alguna forma de refinar más
>> el
>> >> análisis y que haya más diferencias entre topics?
>> >>
>> >> Este es el código que estoy usando:
>> >>
>> >> Reviews_dtm <-text_df12star %>%
>> >>   unnest_tokens(word, text) %>%
>> >>   anti_join(stop_words)%>%
>> >>   count(Brand, word) %>%
>> >>   cast_dtm(Brand, word, n)
>> >>
>> >>
>> >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed =
>> 2016))
>> >>
>> >> Un saludo
>> >>
>> >> Miriam
>> >>
>> >> ___
>> >> R-help-es mailing list
>> >> R-help-es@r-project.org
>> >> https://stat.ethz.ch/mailman/listinfo/r-help-es
>> >>
>> >
>> >
>> > --
>> > Saludos,
>> > Carlos Ortega
>> > www.qualityexcellence.es
>> >
>> >
>>
>>
>>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-30 Por tema Carlos Ortega
Hola Miriam,

No he visto que se use un filtro por defecto para el valor de tf-idf.

En tu caso, tendrás que ver cúal es ese punto de corte que te revela señal,
justo de los términos que te interesan.
Mira la distribución de palabras y su valor de tf-idf y selecciona tu corte.

Gracias,
Carlos.
www.qualityexcellence.es


El mié., 29 abr. 2020 a las 14:00,  escribió:

> Hola,
>
> Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o
> tf-idf que se considerara como umbral para establecer que una palabra es
> muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los
> de tf-idf ente 0 y 0.07.
>
> Un saludo
>
> El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:
> > Hola,
> > Yo de primeras los quitaría para qué otros topics aparecen.
> >
> > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que
> > desaparecen como relevantes esas palabras comunes, será otra forma de
> > confirmar que es buena la decisión de hacer el análisis eliminandolas.
> >
> > Saludos,
> > Carlos Ortega
> >
> https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8=http%3a%2f%2fwww.qualityecellence.es
> >
> > El mar., 28 abr. 2020 a las 11:44,  escribió:
> >
> >> Buenos días,
> >>
> >> Estoy realizando un análisis de topic models con el método LDA. En
> >> principio, he quitado del análisis las palabras "stopwords" universales.
> >> A
> >> la hora de ver los topics y sus palabras más frecuentes encuentro que
> >> son
> >> muy similares y hay palabras que aparecen en todos los topics. Los
> >> textos
> >> que estoy analizando son opiniones de consumidores sobre una categoría
> >> concreta de cosméticos, por lo que la temática es muy concreta y puede
> >> ser
> >> que en todas las opiniones se hable de cosas similares.
> >>
> >> Mi pregunta es,  incluiríais estas palabras que me aparecen en todos los
> >> topics o casi todos como stopwords?  Hay alguna forma de refinar más el
> >> análisis y que haya más diferencias entre topics?
> >>
> >> Este es el código que estoy usando:
> >>
> >> Reviews_dtm <-text_df12star %>%
> >>   unnest_tokens(word, text) %>%
> >>   anti_join(stop_words)%>%
> >>   count(Brand, word) %>%
> >>   cast_dtm(Brand, word, n)
> >>
> >>
> >> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))
> >>
> >> Un saludo
> >>
> >> Miriam
> >>
> >> ___
> >> R-help-es mailing list
> >> R-help-es@r-project.org
> >> https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>
> >
> >
> > --
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
> >
> >
>
>
>

-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-29 Por tema miriam . alzate
Hola,

Acabo de calcular tf-idf y me surge una duda. ¿Habría un valor de idf o
tf-idf que se considerara como umbral para establecer que una palabra es
muy común o no? Los valores de idf en mis datos van entre 0 y 3.78 y los
de tf-idf ente 0 y 0.07.

Un saludo

El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:
> Hola,
> Yo de primeras los quitaría para qué otros topics aparecen.
>
> Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que
> desaparecen como relevantes esas palabras comunes, será otra forma de
> confirmar que es buena la decisión de hacer el análisis eliminandolas.
>
> Saludos,
> Carlos Ortega
> https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8=http%3a%2f%2fwww.qualityecellence.es
>
> El mar., 28 abr. 2020 a las 11:44,  escribió:
>
>> Buenos días,
>>
>> Estoy realizando un análisis de topic models con el método LDA. En
>> principio, he quitado del análisis las palabras "stopwords" universales.
>> A
>> la hora de ver los topics y sus palabras más frecuentes encuentro que
>> son
>> muy similares y hay palabras que aparecen en todos los topics. Los
>> textos
>> que estoy analizando son opiniones de consumidores sobre una categoría
>> concreta de cosméticos, por lo que la temática es muy concreta y puede
>> ser
>> que en todas las opiniones se hable de cosas similares.
>>
>> Mi pregunta es,  incluiríais estas palabras que me aparecen en todos los
>> topics o casi todos como stopwords?  Hay alguna forma de refinar más el
>> análisis y que haya más diferencias entre topics?
>>
>> Este es el código que estoy usando:
>>
>> Reviews_dtm <-text_df12star %>%
>>   unnest_tokens(word, text) %>%
>>   anti_join(stop_words)%>%
>>   count(Brand, word) %>%
>>   cast_dtm(Brand, word, n)
>>
>>
>> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))
>>
>> Un saludo
>>
>> Miriam
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
>

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Gracias Carlos! Apunto tu sugerencia.

El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:
> Hola,
> Yo de primeras los quitaría para qué otros topics aparecen.
>
> Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que
> desaparecen como relevantes esas palabras comunes, será otra forma de
> confirmar que es buena la decisión de hacer el análisis eliminandolas.
>
> Saludos,
> Carlos Ortega
> https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8=http%3a%2f%2fwww.qualityecellence.es
>
> El mar., 28 abr. 2020 a las 11:44,  escribió:
>
>> Buenos días,
>>
>> Estoy realizando un análisis de topic models con el método LDA. En
>> principio, he quitado del análisis las palabras "stopwords" universales.
>> A
>> la hora de ver los topics y sus palabras más frecuentes encuentro que
>> son
>> muy similares y hay palabras que aparecen en todos los topics. Los
>> textos
>> que estoy analizando son opiniones de consumidores sobre una categoría
>> concreta de cosméticos, por lo que la temática es muy concreta y puede
>> ser
>> que en todas las opiniones se hable de cosas similares.
>>
>> Mi pregunta es,  incluiríais estas palabras que me aparecen en todos los
>> topics o casi todos como stopwords?  Hay alguna forma de refinar más el
>> análisis y que haya más diferencias entre topics?
>>
>> Este es el código que estoy usando:
>>
>> Reviews_dtm <-text_df12star %>%
>>   unnest_tokens(word, text) %>%
>>   anti_join(stop_words)%>%
>>   count(Brand, word) %>%
>>   cast_dtm(Brand, word, n)
>>
>>
>> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))
>>
>> Un saludo
>>
>> Miriam
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
>

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es