[R-es] problemas para abrir archivo RData- magic number

2020-04-28 Por tema Dario Manzoli
Hola a todos:

Les hago una consulta porque tengo problemas para abrir un archivo .RData
(se llama �parasitismo spp secuendarias.RData�), lo intento abrir como lo
hago habitualmente y me aparece el siguiente mensaje en la consola:

Error in load("~parasitismo spp secundarias.RData") :

  bad restore file magic number (file may be corrupted) -- no data loaded

In addition: Warning message:

file �parasitismo spp secundarias.RData� has magic number ''

  Use of save versions prior to 2 is deprecated



Tampoco puedo abrir el script que est� asociado a este RData.

Estos archivos fueron generados el 28 de enero de 2018, la �ltima vez que lo
abr� fue el 16 de abril de 2020 y lo guard� sin problemas (o al menos no
recuerdo que me haya aparecido un cartel de error o algo as�). He trabajado
bastante con ellos.

Algo que s� hice, fue abrir por error el archivo .RData (quer�a abrir solo
el script) en otro Workspace y en otra carpeta de la computadora.

La versi�n de R que tengo es 3.5.1 y de RStudio es 1.1.453, bajo Window 10.

�C�mo podr�a hacer para abrir estos archivos?



Desde ya muchas gracias, saludos

Dar�o Manzoli



--
El software de antivirus Avast ha analizado este correo electr�nico en busca de 
virus.
https://www.avast.com/antivirus

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Gracias Carlos! Apunto tu sugerencia.

El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió:
> Hola,
> Yo de primeras los quitaría para qué otros topics aparecen.
>
> Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que
> desaparecen como relevantes esas palabras comunes, será otra forma de
> confirmar que es buena la decisión de hacer el análisis eliminandolas.
>
> Saludos,
> Carlos Ortega
> https://protection.puc.rediris.es/fmlurlsvc/?fewReq=:B:JVI2PTg1Nip6MT0iPCplaDE8PTY8PSp/ZWtibXh5fmkxNW1qPG49bm09PzluaDtpPzk9aG5uPj89bm0/bj06bjpvOWk7PDtuaSp4MT05NDQ8Oz0+Pz4qfWVoMTw/X01+fFVmPD47OTg0ITw/X01+fFVgPD47OTg0Kn5vfHgxYWV+ZW1hIm1gdm14aUx5Ym16bX5+bSJpfypvMTU8=http%3a%2f%2fwww.qualityecellence.es
>
> El mar., 28 abr. 2020 a las 11:44,  escribió:
>
>> Buenos días,
>>
>> Estoy realizando un análisis de topic models con el método LDA. En
>> principio, he quitado del análisis las palabras "stopwords" universales.
>> A
>> la hora de ver los topics y sus palabras más frecuentes encuentro que
>> son
>> muy similares y hay palabras que aparecen en todos los topics. Los
>> textos
>> que estoy analizando son opiniones de consumidores sobre una categoría
>> concreta de cosméticos, por lo que la temática es muy concreta y puede
>> ser
>> que en todas las opiniones se hable de cosas similares.
>>
>> Mi pregunta es,  incluiríais estas palabras que me aparecen en todos los
>> topics o casi todos como stopwords?  Hay alguna forma de refinar más el
>> análisis y que haya más diferencias entre topics?
>>
>> Este es el código que estoy usando:
>>
>> Reviews_dtm <-text_df12star %>%
>>   unnest_tokens(word, text) %>%
>>   anti_join(stop_words)%>%
>>   count(Brand, word) %>%
>>   cast_dtm(Brand, word, n)
>>
>>
>> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))
>>
>> Un saludo
>>
>> Miriam
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
>

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Hola Pedro, muchas gracias por tu respuesta.

Estoy analizando 64.000 documentos con una media de 53 palabras cada uno.
Los 65.000 pertenecen a 41 productos diferentes.

Había elegido k=15 porque al ver el indice de perplexity entre 2 y 20 k´s
parece que era el óptimo, si bien quizá tenga que aumentar el número de
k´s para calcular la perplexity y ver realmente el número óptimo de
topics. Por ejemplo ver que pasa entre k=2 y k=200. ¿Cuál es tu consejo en
cuanto a identificar el número óptimo de k´s?

¿A qué te refieres con tunear los parámetros?

Muchas gracias


El Mar, 28 de Abril de 2020, 12:54, Pedro Concejero escribió:
> Hola Miriam,
>
> Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés
> que salgan muchas palabras comunes entre los tópicos, así que a tu
> pregunta
>
> ¿incluiríais estas palabras como stopwords?
>
> Yo te diría que sí, o alternativamente que utilices un filtrado por
> tf-idf que te quitará esas palabras demasiado comunes entre documentos.
>
> Y ante la pregunta de si quieres que salgan más diferencias entre topics
> hay muchas alternativas. Entre ellas:
>
> - utilizar bigramas (o n-gramas, con un grado creciente de complejidad)
>
> - aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos
> documentos / vocabulario estás analizando?
>
> También está la estrategia de "tunear" los parámetros de LDA...
>
> Saludos,
>
> Pedro
>
>
> El 28/4/20 a las 12:00, r-help-es-requ...@r-project.org escribió:
>> [R-es] Stopwords: Topic modelling con LDA
> --
> *Pedro Concejero
> E-mail: pedro.concejerocer...@gmail.com
> 
> skype: pedro.concejero
> twitter @ConcejeroPedro 
> linkedin pedroconcejero 
> eRReRo feliz, me puedes encontrar en gRupo R madRid
> 
> *
>

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema Pedro Concejero
Hola Miriam,

Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés 
que salgan muchas palabras comunes entre los tópicos, así que a tu pregunta

¿incluiríais estas palabras como stopwords?

Yo te diría que sí, o alternativamente que utilices un filtrado por 
tf-idf que te quitará esas palabras demasiado comunes entre documentos.

Y ante la pregunta de si quieres que salgan más diferencias entre topics 
hay muchas alternativas. Entre ellas:

- utilizar bigramas (o n-gramas, con un grado creciente de complejidad)

- aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos 
documentos / vocabulario estás analizando?

También está la estrategia de "tunear" los parámetros de LDA...

Saludos,

Pedro


El 28/4/20 a las 12:00, r-help-es-requ...@r-project.org escribió:
> [R-es] Stopwords: Topic modelling con LDA
-- 
*Pedro Concejero
E-mail: pedro.concejerocer...@gmail.com 

skype: pedro.concejero
twitter @ConcejeroPedro 
linkedin pedroconcejero 
eRReRo feliz, me puedes encontrar en gRupo R madRid 
 *

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema Carlos Ortega
Hola,
Yo de primeras los quitaría para qué otros topics aparecen.

Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que
desaparecen como relevantes esas palabras comunes, será otra forma de
confirmar que es buena la decisión de hacer el análisis eliminandolas.

Saludos,
Carlos Ortega
www.qualityecellence.es

El mar., 28 abr. 2020 a las 11:44,  escribió:

> Buenos días,
>
> Estoy realizando un análisis de topic models con el método LDA. En
> principio, he quitado del análisis las palabras "stopwords" universales. A
> la hora de ver los topics y sus palabras más frecuentes encuentro que son
> muy similares y hay palabras que aparecen en todos los topics. Los textos
> que estoy analizando son opiniones de consumidores sobre una categoría
> concreta de cosméticos, por lo que la temática es muy concreta y puede ser
> que en todas las opiniones se hable de cosas similares.
>
> Mi pregunta es, ¿incluiríais estas palabras que me aparecen en todos los
> topics o casi todos como stopwords? ¿Hay alguna forma de refinar más el
> análisis y que haya más diferencias entre topics?
>
> Este es el código que estoy usando:
>
> Reviews_dtm <-text_df12star %>%
>   unnest_tokens(word, text) %>%
>   anti_join(stop_words)%>%
>   count(Brand, word) %>%
>   cast_dtm(Brand, word, n)
>
>
> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))
>
> Un saludo
>
> Miriam
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


[R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Buenos días,

Estoy realizando un análisis de topic models con el método LDA. En
principio, he quitado del análisis las palabras "stopwords" universales. A
la hora de ver los topics y sus palabras más frecuentes encuentro que son
muy similares y hay palabras que aparecen en todos los topics. Los textos
que estoy analizando son opiniones de consumidores sobre una categoría
concreta de cosméticos, por lo que la temática es muy concreta y puede ser
que en todas las opiniones se hable de cosas similares.

Mi pregunta es, ¿incluiríais estas palabras que me aparecen en todos los
topics o casi todos como stopwords? ¿Hay alguna forma de refinar más el
análisis y que haya más diferencias entre topics?

Este es el código que estoy usando:

Reviews_dtm <-text_df12star %>%
  unnest_tokens(word, text) %>%
  anti_join(stop_words)%>%
  count(Brand, word) %>%
  cast_dtm(Brand, word, n)


Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))

Un saludo

Miriam

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es