Re: [R-es] STATA base de datos

2017-12-08 Por tema eric

  
  
Hola Antonio, solo como comentario ... tengo una maquina con
  windows 8 que nada mas iniciar el sistema ya tiene ocupados mas de
  1 GB de la RAM (~ 1.3 GB), cuanto ocupa la tuya ? por ese lado
  puede que estes perdiendo RAM ... mi maquina debian/linux que uso
  con R, arrancada con ICEWM como administrador de ventanas luego de
  arrancar tiene ocupados un poco menos de 300 MB, por ahi podrias
  ahorrarte RAM ... no se, es una idea.
Saludos !!

Eric.


On 12/08/2017 05:57 AM, Antonio
  Rodriguez Andres wrote:


  Carlos, Javier y demas usuarios que respondieron la duda

Uso Windows, y la version de R que uso es


R version 3.4.1 (2017-06-30) -- "Single Candle"
Copyright (C) 2017 The R Foundation for Statistical Computing
Platform: x86_64-w64-mingw32/x64 (64-bit)

La memoria Ram del ordenador es de 4 GB y usa Windows 8. Ayer use la 2
opcion, y borre los datos que tenia con rm () y
despues teclee gc(). Me demoro como dos minutos en ejecutar el script,
pero lo va haciendo.Otra opcion como dices es seleccionar una parte de
la muestra e ir trabajando con eso, y luego una vez que lo tengo claro
puedo ejecutar el script con todos los datos.

Por ultimo lo que yo tengo es un panel de datos, con individuos y la
variable tiempo. Tengo la variable year y el id que identifica los
individuos en el tiempo. Finalmente te pongo la distribucion del numero de
observaciones en el tiempo


  
tail(datos)   year idorg idzam id typ drvl zemea zemeb nace2

  
  1: 2006 18985 5 189855   14CZ  60
2: 2000 20620 5 206205   1965
3: 2006  4136   222  413600222   12CZ  74
4: 2005  7004 5  70045   17FR  74
5: 2005 11063 5 110635   1229
6: 2002  8682 5  86825   1464



  
table (datos$year)

  
 1998199920002001200220032004
 790355  822131  863246  928732 1013467 1082701 1168270
   20052006
1273828 1475725

Saludos y muchas gracias de antemano

Antonio



2017-12-06 22:32 GMT+01:00 Carlos Ortega :


  
Sí, estás un tanto al límite de la capacidad de tu ordenador.
Varias cosas que no has comentado:

   - ¿Qué versión de R usas?
   - ¿Usas una versión de 32bits ó 64bits?.
   - ¿Windows?, supongo.
  - En Windows puedes ver los recursos de tu máquina y confirmar que
  cuando tienes el conjunto cargado en R estás muy al límite de tu RAM.

Con todo esto cosas que puedes hacer:

   - Hacer un muestreo. Nada más cargar el conjunto puedes hacer algo
   como esto:

# De esta forma te quedas con un 75% de los datos.

datos_samp <- datos[ sample(1:nrow(datos), nrow(datos)*0.75) , ]

rm(datos)

Y a partir de aquí ya trabajas con datos_samp


   - ​Puedes convertir tus datos​ a data.table (no sé si lo has usado
   antes... que permite comprimir el data.frame. Lo harías así:


library(foreign)

​library(data.table)​

datos = as.data.
​table​
(read.dta("private98-06more_than9.dta"))


Y a partir ya trabajar con "datos" como data.table.


Saludos,
Carlos Ortega
www.qualityexcellence.es


El 6 de diciembre de 2017, 22:03, Javier Marcuzzi <
javier.ruben.marcu...@gmail.com> escribió:



  Estimados

Pienso que falta memoria, aparte de las sugerencias ya aportadas, de
pronto se podrían colocar algunos rm(liberar_de_memoria), para no tener
ocupado espacio que no es requerido porque ese paso ya fue realizado.

Javier Rubén Marcuzzi

El 6 de diciembre de 2017, 13:58, Antonio Rodriguez Andres <
antoniorodriguezandre...@gmail.com> escribió:


  
Carlos
He tecleado lo siguiente para leer el fichero de Stata

library(foreign)
datos = as.data.frame(read.dta("private98-06more_than9.dta"))
save(datos, file="data.RData")
load("data.RData")
dim(datos)
class(datos)

Tiene ese numero de filas y columnas que son las variables.

 dim(datos)[1] 9418455  28

Mi memoria RAM es 4GB, pero he conseguido leer los datos, y tambien
hacer un histograma de age, aunque es dificil ver algo por la cantidad
de individuos que hay en la base de datos.

hist(datos$age, main="Titulo", xlab="Age")

Ya cuando intento ver los valores perdidos con

is.na(datos) me sale error


Error: cannot allocate vector of size 1006.0 Mb

Saludos



2017-12-06 13:49 GMT+01:00 Carlos Ortega :



  OK.
Lee primero los datos, guarda el data.frame (.RData o en un .csv o lo


que


  quieras).
Sal de RStudio o incluso reinicia el ordenador para liberar el máximo


de


  memoria.

Y comienza una nueva sesión con RStudio cargando los datos con


"fread()".


  Por otro lado, este conjunto de datos ¿cómo es de grande (filas y
columnas)?.


Re: [R-es] STATA base de datos

2017-12-08 Por tema Antonio Rodriguez Andres
Carlos, Javier y demas usuarios que respondieron la duda

Uso Windows, y la version de R que uso es


R version 3.4.1 (2017-06-30) -- "Single Candle"
Copyright (C) 2017 The R Foundation for Statistical Computing
Platform: x86_64-w64-mingw32/x64 (64-bit)

La memoria Ram del ordenador es de 4 GB y usa Windows 8. Ayer use la 2
opcion, y borre los datos que tenia con rm () y
despues teclee gc(). Me demoro como dos minutos en ejecutar el script,
pero lo va haciendo.Otra opcion como dices es seleccionar una parte de
la muestra e ir trabajando con eso, y luego una vez que lo tengo claro
puedo ejecutar el script con todos los datos.

Por ultimo lo que yo tengo es un panel de datos, con individuos y la
variable tiempo. Tengo la variable year y el id que identifica los
individuos en el tiempo. Finalmente te pongo la distribucion del numero de
observaciones en el tiempo

> tail(datos)   year idorg idzam id typ drvl zemea zemeb nace2
1: 2006 18985 5 189855   14CZ  60
2: 2000 20620 5 206205   1965
3: 2006  4136   222  413600222   12CZ  74
4: 2005  7004 5  70045   17FR  74
5: 2005 11063 5 110635   1229
6: 2002  8682 5  86825   1464


> table (datos$year)
   1998199920002001200220032004
 790355  822131  863246  928732 1013467 1082701 1168270
   20052006
1273828 1475725

Saludos y muchas gracias de antemano

Antonio



2017-12-06 22:32 GMT+01:00 Carlos Ortega :

> Sí, estás un tanto al límite de la capacidad de tu ordenador.
> Varias cosas que no has comentado:
>
>- ¿Qué versión de R usas?
>- ¿Usas una versión de 32bits ó 64bits?.
>- ¿Windows?, supongo.
>   - En Windows puedes ver los recursos de tu máquina y confirmar que
>   cuando tienes el conjunto cargado en R estás muy al límite de tu RAM.
>
> Con todo esto cosas que puedes hacer:
>
>- Hacer un muestreo. Nada más cargar el conjunto puedes hacer algo
>como esto:
>
> # De esta forma te quedas con un 75% de los datos.
>
> datos_samp <- datos[ sample(1:nrow(datos), nrow(datos)*0.75) , ]
>
> rm(datos)
>
> Y a partir de aquí ya trabajas con datos_samp
>
>
>- ​Puedes convertir tus datos​ a data.table (no sé si lo has usado
>antes... que permite comprimir el data.frame. Lo harías así:
>
>
> library(foreign)
>
> ​library(data.table)​
>
> datos = as.data.
> ​table​
> (read.dta("private98-06more_than9.dta"))
>
>
> Y a partir ya trabajar con "datos" como data.table.
>
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
>
> El 6 de diciembre de 2017, 22:03, Javier Marcuzzi <
> javier.ruben.marcu...@gmail.com> escribió:
>
>> Estimados
>>
>> Pienso que falta memoria, aparte de las sugerencias ya aportadas, de
>> pronto se podrían colocar algunos rm(liberar_de_memoria), para no tener
>> ocupado espacio que no es requerido porque ese paso ya fue realizado.
>>
>> Javier Rubén Marcuzzi
>>
>> El 6 de diciembre de 2017, 13:58, Antonio Rodriguez Andres <
>> antoniorodriguezandre...@gmail.com> escribió:
>>
>>> Carlos
>>> He tecleado lo siguiente para leer el fichero de Stata
>>>
>>> library(foreign)
>>> datos = as.data.frame(read.dta("private98-06more_than9.dta"))
>>> save(datos, file="data.RData")
>>> load("data.RData")
>>> dim(datos)
>>> class(datos)
>>>
>>> Tiene ese numero de filas y columnas que son las variables.
>>>
>>>  dim(datos)[1] 9418455  28
>>>
>>> Mi memoria RAM es 4GB, pero he conseguido leer los datos, y tambien
>>> hacer un histograma de age, aunque es dificil ver algo por la cantidad
>>> de individuos que hay en la base de datos.
>>>
>>> hist(datos$age, main="Titulo", xlab="Age")
>>>
>>> Ya cuando intento ver los valores perdidos con
>>>
>>> is.na(datos) me sale error
>>>
>>>
>>> Error: cannot allocate vector of size 1006.0 Mb
>>>
>>> Saludos
>>>
>>>
>>>
>>> 2017-12-06 13:49 GMT+01:00 Carlos Ortega :
>>>
>>> > OK.
>>> > Lee primero los datos, guarda el data.frame (.RData o en un .csv o lo
>>> que
>>> > quieras).
>>> > Sal de RStudio o incluso reinicia el ordenador para liberar el máximo
>>> de
>>> > memoria.
>>> >
>>> > Y comienza una nueva sesión con RStudio cargando los datos con
>>> "fread()".
>>> > Por otro lado, este conjunto de datos ¿cómo es de grande (filas y
>>> > columnas)?.
>>> >
>>> > ¿Y qué máquina tienes?. ¿Cuanta RAM tienes?.
>>> >
>>> > Gracias,
>>> > Carlos.
>>> >
>>> >
>>> > El 6 de diciembre de 2017, 13:42, Antonio Rodriguez Andres <
>>> > antoniorodriguezandre...@gmail.com> escribió:
>>> >
>>> >> Carlos
>>> >>
>>> >> use library foreign, y read.dta. Consegui leer los datos. Pero demora
>>> >> mucho. explore los datos con head y tail, y con summary. Conseguis los
>>> >> resultados. Muy lento. Una cosa a. hacer es un histograma y ahi ya
>>> ponia
>>> >> cannot allocate memory.
>>> >>
>>> >> Pense que podria leer los datos de otra manera mas eficiente.
>>> >>
>>> >> El 

Re: [R-es] STATA base de datos

2017-12-07 Por tema Fernando Arce via R-help-es
En mi experiencia R es terriblemente ineficiente a la hora de liberar memoria, 
incluso con el garbage collector que no sirve para mucho en ki experiencia (el 
código creo que es gc() ). En uno de los ordenadores sufro de estos problemas, 
y lo que hago es escribir el script y ejecutarlo a trozos, cerrando R y 
reiniciándolo cada paso. Primero decido que quiero hacer con una submuestra de 
los datos y después voy a saco con todo mientras como o me tomo un café...Es 
muy poco elegante y tosco a más no poder, pero a falta de ram buenos son los 
reinicios
Saludos!
Fer


Sent from my Delorean in 1789 using my iPhone

On Thursday, December 7, 2017, 8:03 am, Javier Marcuzzi 
 wrote:

Estimados

Pienso que falta memoria, aparte de las sugerencias ya aportadas, de pronto
se podrían colocar algunos rm(liberar_de_memoria), para no tener ocupado
espacio que no es requerido porque ese paso ya fue realizado.

Javier Rubén Marcuzzi

El 6 de diciembre de 2017, 13:58, Antonio Rodriguez Andres <
antoniorodriguezandre...@gmail.com> escribió:

> Carlos
> He tecleado lo siguiente para leer el fichero de Stata
>
> library(foreign)
> datos = as.data.frame(read.dta("private98-06more_than9.dta"))
> save(datos, file="data.RData")
> load("data.RData")
> dim(datos)
> class(datos)
>
> Tiene ese numero de filas y columnas que son las variables.
>
>  dim(datos)[1] 9418455      28
>
> Mi memoria RAM es 4GB, pero he conseguido leer los datos, y tambien
> hacer un histograma de age, aunque es dificil ver algo por la cantidad
> de individuos que hay en la base de datos.
>
> hist(datos$age, main="Titulo", xlab="Age")
>
> Ya cuando intento ver los valores perdidos con
>
> is.na(datos) me sale error
>
>
> Error: cannot allocate vector of size 1006.0 Mb
>
> Saludos
>
>
>
> 2017-12-06 13:49 GMT+01:00 Carlos Ortega :
>
> > OK.
> > Lee primero los datos, guarda el data.frame (.RData o en un .csv o lo que
> > quieras).
> > Sal de RStudio o incluso reinicia el ordenador para liberar el máximo de
> > memoria.
> >
> > Y comienza una nueva sesión con RStudio cargando los datos con "fread()".
> > Por otro lado, este conjunto de datos ¿cómo es de grande (filas y
> > columnas)?.
> >
> > ¿Y qué máquina tienes?. ¿Cuanta RAM tienes?.
> >
> > Gracias,
> > Carlos.
> >
> >
> > El 6 de diciembre de 2017, 13:42, Antonio Rodriguez Andres <
> > antoniorodriguezandre...@gmail.com> escribió:
> >
> >> Carlos
> >>
> >> use library foreign, y read.dta. Consegui leer los datos. Pero demora
> >> mucho. explore los datos con head y tail, y con summary. Conseguis los
> >> resultados. Muy lento. Una cosa a. hacer es un histograma y ahi ya ponia
> >> cannot allocate memory.
> >>
> >> Pense que podria leer los datos de otra manera mas eficiente.
> >>
> >> El 6/12/2017 13:32, "Carlos Ortega" 
> escribió:
> >>
> >>> Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido
> >>> de Stata a csv o algún otro formato que con el que puedas trabajar en
> >>> RStudio?.
> >>> ¿O ahora el problema es que has convertido el fichero pero no puedes
> >>> hacer ningún tipo de análisis porque tu equipo no tiene suficientes
> >>> recursos?...
> >>>
> >>> Gracias,
> >>> Carlos.
> >>>
> >>> El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <
> >>> antoniorodriguezandre...@gmail.com> escribió:
> >>>
>  He llegado hacer un summary o algo asi. Despues de leerlo pero tarda
>  mucho.
>  Y si hago un histograma de una variable edad, hay colapsa.
> 
>  El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
>  antoniorodriguezandre...@gmail.com> escribió:
> 
>  > Freddy
>  >
>  > el archivo lo leo en segundos en Stata. puedo probar el paquete
>  heaven.
>  > Pero si recuerdo me dio problemas en RStudio
>  >
>  > El 6/12/2017 13:03, "Freddy Omar López Quintero" <
>  freddy.vat...@gmail.com>
>  > escribió:
>  >
>  >> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres
>  escribió:
>  >>
>  >> me sale problema
>  >> de memoria.
>  >>
>  >>
>  >> Pregunta posiblemente tonta: ¿tienes suficiente memoria para
>  procesar un
>  >> archivo de tales dimensiones? Puede que ni aún cambiando la manera
>  de leer
>  >> el archivo realmente lo puedas procesar.
>  >>
>  >>
>  >> Entonces, una solucion es intentar pasar de STATA a CSV y luego
> usar
>  el
>  >> comando fread, y finalmente cargar los datos como RData
>  >>
>  >>
>  >> ¿Has probado el paquete haven y específicamente su función
> read_dta?
>  >> Parece que es bastante más eficiente que la de foreign y preserva
> más
>  >> características que trae el formato de stata.
>  >>
>  >> ¡Ojalá algo sirva!
>  >>
>  >> ¡Salud!
>  >>
>  >> --
>  >>
>  >> «...homines autem hominum causa esse generatos...»
>  >>
>  >> Cicero
>  >>
>  >
> 
>    

Re: [R-es] STATA base de datos

2017-12-06 Por tema Carlos Ortega
Sí, estás un tanto al límite de la capacidad de tu ordenador.
Varias cosas que no has comentado:

   - ¿Qué versión de R usas?
   - ¿Usas una versión de 32bits ó 64bits?.
   - ¿Windows?, supongo.
  - En Windows puedes ver los recursos de tu máquina y confirmar que
  cuando tienes el conjunto cargado en R estás muy al límite de tu RAM.

Con todo esto cosas que puedes hacer:

   - Hacer un muestreo. Nada más cargar el conjunto puedes hacer algo como
   esto:

# De esta forma te quedas con un 75% de los datos.

datos_samp <- datos[ sample(1:nrow(datos), nrow(datos)*0.75) , ]

rm(datos)

Y a partir de aquí ya trabajas con datos_samp


   - ​Puedes convertir tus datos​ a data.table (no sé si lo has usado
   antes... que permite comprimir el data.frame. Lo harías así:


library(foreign)

​library(data.table)​

datos = as.data.
​table​
(read.dta("private98-06more_than9.dta"))


Y a partir ya trabajar con "datos" como data.table.


Saludos,
Carlos Ortega
www.qualityexcellence.es


El 6 de diciembre de 2017, 22:03, Javier Marcuzzi <
javier.ruben.marcu...@gmail.com> escribió:

> Estimados
>
> Pienso que falta memoria, aparte de las sugerencias ya aportadas, de
> pronto se podrían colocar algunos rm(liberar_de_memoria), para no tener
> ocupado espacio que no es requerido porque ese paso ya fue realizado.
>
> Javier Rubén Marcuzzi
>
> El 6 de diciembre de 2017, 13:58, Antonio Rodriguez Andres <
> antoniorodriguezandre...@gmail.com> escribió:
>
>> Carlos
>> He tecleado lo siguiente para leer el fichero de Stata
>>
>> library(foreign)
>> datos = as.data.frame(read.dta("private98-06more_than9.dta"))
>> save(datos, file="data.RData")
>> load("data.RData")
>> dim(datos)
>> class(datos)
>>
>> Tiene ese numero de filas y columnas que son las variables.
>>
>>  dim(datos)[1] 9418455  28
>>
>> Mi memoria RAM es 4GB, pero he conseguido leer los datos, y tambien
>> hacer un histograma de age, aunque es dificil ver algo por la cantidad
>> de individuos que hay en la base de datos.
>>
>> hist(datos$age, main="Titulo", xlab="Age")
>>
>> Ya cuando intento ver los valores perdidos con
>>
>> is.na(datos) me sale error
>>
>>
>> Error: cannot allocate vector of size 1006.0 Mb
>>
>> Saludos
>>
>>
>>
>> 2017-12-06 13:49 GMT+01:00 Carlos Ortega :
>>
>> > OK.
>> > Lee primero los datos, guarda el data.frame (.RData o en un .csv o lo
>> que
>> > quieras).
>> > Sal de RStudio o incluso reinicia el ordenador para liberar el máximo de
>> > memoria.
>> >
>> > Y comienza una nueva sesión con RStudio cargando los datos con
>> "fread()".
>> > Por otro lado, este conjunto de datos ¿cómo es de grande (filas y
>> > columnas)?.
>> >
>> > ¿Y qué máquina tienes?. ¿Cuanta RAM tienes?.
>> >
>> > Gracias,
>> > Carlos.
>> >
>> >
>> > El 6 de diciembre de 2017, 13:42, Antonio Rodriguez Andres <
>> > antoniorodriguezandre...@gmail.com> escribió:
>> >
>> >> Carlos
>> >>
>> >> use library foreign, y read.dta. Consegui leer los datos. Pero demora
>> >> mucho. explore los datos con head y tail, y con summary. Conseguis los
>> >> resultados. Muy lento. Una cosa a. hacer es un histograma y ahi ya
>> ponia
>> >> cannot allocate memory.
>> >>
>> >> Pense que podria leer los datos de otra manera mas eficiente.
>> >>
>> >> El 6/12/2017 13:32, "Carlos Ortega" 
>> escribió:
>> >>
>> >>> Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido
>> >>> de Stata a csv o algún otro formato que con el que puedas trabajar en
>> >>> RStudio?.
>> >>> ¿O ahora el problema es que has convertido el fichero pero no puedes
>> >>> hacer ningún tipo de análisis porque tu equipo no tiene suficientes
>> >>> recursos?...
>> >>>
>> >>> Gracias,
>> >>> Carlos.
>> >>>
>> >>> El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <
>> >>> antoniorodriguezandre...@gmail.com> escribió:
>> >>>
>>  He llegado hacer un summary o algo asi. Despues de leerlo pero tarda
>>  mucho.
>>  Y si hago un histograma de una variable edad, hay colapsa.
>> 
>>  El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
>>  antoniorodriguezandre...@gmail.com> escribió:
>> 
>>  > Freddy
>>  >
>>  > el archivo lo leo en segundos en Stata. puedo probar el paquete
>>  heaven.
>>  > Pero si recuerdo me dio problemas en RStudio
>>  >
>>  > El 6/12/2017 13:03, "Freddy Omar López Quintero" <
>>  freddy.vat...@gmail.com>
>>  > escribió:
>>  >
>>  >> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres
>>  escribió:
>>  >>
>>  >> me sale problema
>>  >> de memoria.
>>  >>
>>  >>
>>  >> Pregunta posiblemente tonta: ¿tienes suficiente memoria para
>>  procesar un
>>  >> archivo de tales dimensiones? Puede que ni aún cambiando la manera
>>  de leer
>>  >> el archivo realmente lo puedas procesar.
>>  >>
>>  >>
>>  >> Entonces, una solucion es intentar pasar de STATA a CSV y luego
>> usar
>>  el
>>  >> comando 

Re: [R-es] STATA base de datos

2017-12-06 Por tema Javier Marcuzzi
Estimados

Pienso que falta memoria, aparte de las sugerencias ya aportadas, de pronto
se podrían colocar algunos rm(liberar_de_memoria), para no tener ocupado
espacio que no es requerido porque ese paso ya fue realizado.

Javier Rubén Marcuzzi

El 6 de diciembre de 2017, 13:58, Antonio Rodriguez Andres <
antoniorodriguezandre...@gmail.com> escribió:

> Carlos
> He tecleado lo siguiente para leer el fichero de Stata
>
> library(foreign)
> datos = as.data.frame(read.dta("private98-06more_than9.dta"))
> save(datos, file="data.RData")
> load("data.RData")
> dim(datos)
> class(datos)
>
> Tiene ese numero de filas y columnas que son las variables.
>
>  dim(datos)[1] 9418455  28
>
> Mi memoria RAM es 4GB, pero he conseguido leer los datos, y tambien
> hacer un histograma de age, aunque es dificil ver algo por la cantidad
> de individuos que hay en la base de datos.
>
> hist(datos$age, main="Titulo", xlab="Age")
>
> Ya cuando intento ver los valores perdidos con
>
> is.na(datos) me sale error
>
>
> Error: cannot allocate vector of size 1006.0 Mb
>
> Saludos
>
>
>
> 2017-12-06 13:49 GMT+01:00 Carlos Ortega :
>
> > OK.
> > Lee primero los datos, guarda el data.frame (.RData o en un .csv o lo que
> > quieras).
> > Sal de RStudio o incluso reinicia el ordenador para liberar el máximo de
> > memoria.
> >
> > Y comienza una nueva sesión con RStudio cargando los datos con "fread()".
> > Por otro lado, este conjunto de datos ¿cómo es de grande (filas y
> > columnas)?.
> >
> > ¿Y qué máquina tienes?. ¿Cuanta RAM tienes?.
> >
> > Gracias,
> > Carlos.
> >
> >
> > El 6 de diciembre de 2017, 13:42, Antonio Rodriguez Andres <
> > antoniorodriguezandre...@gmail.com> escribió:
> >
> >> Carlos
> >>
> >> use library foreign, y read.dta. Consegui leer los datos. Pero demora
> >> mucho. explore los datos con head y tail, y con summary. Conseguis los
> >> resultados. Muy lento. Una cosa a. hacer es un histograma y ahi ya ponia
> >> cannot allocate memory.
> >>
> >> Pense que podria leer los datos de otra manera mas eficiente.
> >>
> >> El 6/12/2017 13:32, "Carlos Ortega" 
> escribió:
> >>
> >>> Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido
> >>> de Stata a csv o algún otro formato que con el que puedas trabajar en
> >>> RStudio?.
> >>> ¿O ahora el problema es que has convertido el fichero pero no puedes
> >>> hacer ningún tipo de análisis porque tu equipo no tiene suficientes
> >>> recursos?...
> >>>
> >>> Gracias,
> >>> Carlos.
> >>>
> >>> El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <
> >>> antoniorodriguezandre...@gmail.com> escribió:
> >>>
>  He llegado hacer un summary o algo asi. Despues de leerlo pero tarda
>  mucho.
>  Y si hago un histograma de una variable edad, hay colapsa.
> 
>  El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
>  antoniorodriguezandre...@gmail.com> escribió:
> 
>  > Freddy
>  >
>  > el archivo lo leo en segundos en Stata. puedo probar el paquete
>  heaven.
>  > Pero si recuerdo me dio problemas en RStudio
>  >
>  > El 6/12/2017 13:03, "Freddy Omar López Quintero" <
>  freddy.vat...@gmail.com>
>  > escribió:
>  >
>  >> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres
>  escribió:
>  >>
>  >> me sale problema
>  >> de memoria.
>  >>
>  >>
>  >> Pregunta posiblemente tonta: ¿tienes suficiente memoria para
>  procesar un
>  >> archivo de tales dimensiones? Puede que ni aún cambiando la manera
>  de leer
>  >> el archivo realmente lo puedas procesar.
>  >>
>  >>
>  >> Entonces, una solucion es intentar pasar de STATA a CSV y luego
> usar
>  el
>  >> comando fread, y finalmente cargar los datos como RData
>  >>
>  >>
>  >> ¿Has probado el paquete haven y específicamente su función
> read_dta?
>  >> Parece que es bastante más eficiente que la de foreign y preserva
> más
>  >> características que trae el formato de stata.
>  >>
>  >> ¡Ojalá algo sirva!
>  >>
>  >> ¡Salud!
>  >>
>  >> --
>  >>
>  >> «...homines autem hominum causa esse generatos...»
>  >>
>  >> Cicero
>  >>
>  >
> 
>  [[alternative HTML version deleted]]
> 
>  ___
>  R-help-es mailing list
>  R-help-es@r-project.org
>  https://stat.ethz.ch/mailman/listinfo/r-help-es
> 
> >>>
> >>>
> >>>
> >>> --
> >>> Saludos,
> >>> Carlos Ortega
> >>> www.qualityexcellence.es
> >>>
> >>
> >
> >
> > --
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
> >
>
>
>
> --
>
> Member, Editorial Committee, *The Economic and Labour Relations Review* (a
> SAGE journal)
>
> http://elr.sagepub.com/
>
> Member, Editorial Committee, African Journal of Economic and Management
> Studies
>
> http://emeraldgrouppublishing.com/products/journals/
> editorial_team.htm?id=ajems
>
> 

Re: [R-es] STATA base de datos

2017-12-06 Por tema Antonio Rodriguez Andres
Gracias Carlos. Voy a probar y te digo.

El 6/12/2017 13:49, "Carlos Ortega"  escribió:

> OK.
> Lee primero los datos, guarda el data.frame (.RData o en un .csv o lo que
> quieras).
> Sal de RStudio o incluso reinicia el ordenador para liberar el máximo de
> memoria.
>
> Y comienza una nueva sesión con RStudio cargando los datos con "fread()".
> Por otro lado, este conjunto de datos ¿cómo es de grande (filas y
> columnas)?.
>
> ¿Y qué máquina tienes?. ¿Cuanta RAM tienes?.
>
> Gracias,
> Carlos.
>
>
> El 6 de diciembre de 2017, 13:42, Antonio Rodriguez Andres <
> antoniorodriguezandre...@gmail.com> escribió:
>
>> Carlos
>>
>> use library foreign, y read.dta. Consegui leer los datos. Pero demora
>> mucho. explore los datos con head y tail, y con summary. Conseguis los
>> resultados. Muy lento. Una cosa a. hacer es un histograma y ahi ya ponia
>> cannot allocate memory.
>>
>> Pense que podria leer los datos de otra manera mas eficiente.
>>
>> El 6/12/2017 13:32, "Carlos Ortega"  escribió:
>>
>>> Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido
>>> de Stata a csv o algún otro formato que con el que puedas trabajar en
>>> RStudio?.
>>> ¿O ahora el problema es que has convertido el fichero pero no puedes
>>> hacer ningún tipo de análisis porque tu equipo no tiene suficientes
>>> recursos?...
>>>
>>> Gracias,
>>> Carlos.
>>>
>>> El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <
>>> antoniorodriguezandre...@gmail.com> escribió:
>>>
 He llegado hacer un summary o algo asi. Despues de leerlo pero tarda
 mucho.
 Y si hago un histograma de una variable edad, hay colapsa.

 El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
 antoniorodriguezandre...@gmail.com> escribió:

 > Freddy
 >
 > el archivo lo leo en segundos en Stata. puedo probar el paquete
 heaven.
 > Pero si recuerdo me dio problemas en RStudio
 >
 > El 6/12/2017 13:03, "Freddy Omar López Quintero" <
 freddy.vat...@gmail.com>
 > escribió:
 >
 >> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres
 escribió:
 >>
 >> me sale problema
 >> de memoria.
 >>
 >>
 >> Pregunta posiblemente tonta: ¿tienes suficiente memoria para
 procesar un
 >> archivo de tales dimensiones? Puede que ni aún cambiando la manera
 de leer
 >> el archivo realmente lo puedas procesar.
 >>
 >>
 >> Entonces, una solucion es intentar pasar de STATA a CSV y luego usar
 el
 >> comando fread, y finalmente cargar los datos como RData
 >>
 >>
 >> ¿Has probado el paquete haven y específicamente su función read_dta?
 >> Parece que es bastante más eficiente que la de foreign y preserva más
 >> características que trae el formato de stata.
 >>
 >> ¡Ojalá algo sirva!
 >>
 >> ¡Salud!
 >>
 >> --
 >>
 >> «...homines autem hominum causa esse generatos...»
 >>
 >> Cicero
 >>
 >

 [[alternative HTML version deleted]]

 ___
 R-help-es mailing list
 R-help-es@r-project.org
 https://stat.ethz.ch/mailman/listinfo/r-help-es

>>>
>>>
>>>
>>> --
>>> Saludos,
>>> Carlos Ortega
>>> www.qualityexcellence.es
>>>
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] STATA base de datos

2017-12-06 Por tema Carlos Ortega
OK.
Lee primero los datos, guarda el data.frame (.RData o en un .csv o lo que
quieras).
Sal de RStudio o incluso reinicia el ordenador para liberar el máximo de
memoria.

Y comienza una nueva sesión con RStudio cargando los datos con "fread()".
Por otro lado, este conjunto de datos ¿cómo es de grande (filas y
columnas)?.

¿Y qué máquina tienes?. ¿Cuanta RAM tienes?.

Gracias,
Carlos.


El 6 de diciembre de 2017, 13:42, Antonio Rodriguez Andres <
antoniorodriguezandre...@gmail.com> escribió:

> Carlos
>
> use library foreign, y read.dta. Consegui leer los datos. Pero demora
> mucho. explore los datos con head y tail, y con summary. Conseguis los
> resultados. Muy lento. Una cosa a. hacer es un histograma y ahi ya ponia
> cannot allocate memory.
>
> Pense que podria leer los datos de otra manera mas eficiente.
>
> El 6/12/2017 13:32, "Carlos Ortega"  escribió:
>
>> Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido de
>> Stata a csv o algún otro formato que con el que puedas trabajar en RStudio?.
>> ¿O ahora el problema es que has convertido el fichero pero no puedes
>> hacer ningún tipo de análisis porque tu equipo no tiene suficientes
>> recursos?...
>>
>> Gracias,
>> Carlos.
>>
>> El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <
>> antoniorodriguezandre...@gmail.com> escribió:
>>
>>> He llegado hacer un summary o algo asi. Despues de leerlo pero tarda
>>> mucho.
>>> Y si hago un histograma de una variable edad, hay colapsa.
>>>
>>> El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
>>> antoniorodriguezandre...@gmail.com> escribió:
>>>
>>> > Freddy
>>> >
>>> > el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
>>> > Pero si recuerdo me dio problemas en RStudio
>>> >
>>> > El 6/12/2017 13:03, "Freddy Omar López Quintero" <
>>> freddy.vat...@gmail.com>
>>> > escribió:
>>> >
>>> >> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres
>>> escribió:
>>> >>
>>> >> me sale problema
>>> >> de memoria.
>>> >>
>>> >>
>>> >> Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar
>>> un
>>> >> archivo de tales dimensiones? Puede que ni aún cambiando la manera de
>>> leer
>>> >> el archivo realmente lo puedas procesar.
>>> >>
>>> >>
>>> >> Entonces, una solucion es intentar pasar de STATA a CSV y luego usar
>>> el
>>> >> comando fread, y finalmente cargar los datos como RData
>>> >>
>>> >>
>>> >> ¿Has probado el paquete haven y específicamente su función read_dta?
>>> >> Parece que es bastante más eficiente que la de foreign y preserva más
>>> >> características que trae el formato de stata.
>>> >>
>>> >> ¡Ojalá algo sirva!
>>> >>
>>> >> ¡Salud!
>>> >>
>>> >> --
>>> >>
>>> >> «...homines autem hominum causa esse generatos...»
>>> >>
>>> >> Cicero
>>> >>
>>> >
>>>
>>> [[alternative HTML version deleted]]
>>>
>>> ___
>>> R-help-es mailing list
>>> R-help-es@r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] STATA base de datos

2017-12-06 Por tema eric

  
  
Hola Antonio, luego de instalar el paquete data.table tienes que
  cagar la libreria antes de poder usar fread(), para esto tienes
  que hacer:
library(data.table)
otro detalles es que si quieres usar data.table no debes usar
  as.data.frame(), es decir, la linea en que lees deberia ser:
datacz <- fread('output.csv')

Y es buena idea si despues de leer la BD usas setkey() para "ordenar" la BD y aprovechar el orden para hacer mas rapidos los calculos (aunque no estoy completamente seguro de esto ultimo, pero puedes leer al respecto y asegurarte).

Suerte con tu BD !!

Eric.




  


On 12/06/2017 08:55 AM, Antonio
  Rodriguez Andres wrote:


  Tengo una base de datos muy grande en formato Stata, (dta), he probado a
leerla con el paquete foreign, y el comando
read.dta, pero como tiene 28 variables y casi medio millon de individuos,
cuando pruebo a hacer graficas o algo, me sale problema
de memoria.

Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
comando fread, y finalmente cargar los datos como RData.

SIn embargo he intentado

setwd("C:/Users/and0096/Desktop/TREXIMA")
library ('foreign')
write.table(read.dta(file.choose('private98-06more_than9.dta')),
file="output.csv", quote = FALSE, sep = ",")




Pero de esta manera me demora mucho, se queda el computador como colgado,
hay alguna otra manera de hacerlo mas rapida. El fichero de Stata
tiene bastante peso (726, 625 bytes). Solo llego al fichero output.csv.
He instalado el paquete data.table
pero cuando tecleo

datacz = as.data.frame(fread('output.csv'))


Error in fread("output.csv") : could not find function "fread"



Entiendo que algo mal estoy haciendo. Alguna idea mejor de como leer ese
fichero de STATA

Saludos cordiales

Antonio





-- 
Forest Engineer
Master in Environmental and Natural Resource Economics
Ph.D. student in Sciences of Natural Resources at La Frontera University
Member in AguaDeTemu2030, citizen movement for Temuco with green city standards for living

Nota: Las tildes se han omitido para asegurar compatibilidad con algunos lectores de correo.

  


___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] STATA base de datos

2017-12-06 Por tema Antonio Rodriguez Andres
Carlos

use library foreign, y read.dta. Consegui leer los datos. Pero demora
mucho. explore los datos con head y tail, y con summary. Conseguis los
resultados. Muy lento. Una cosa a. hacer es un histograma y ahi ya ponia
cannot allocate memory.

Pense que podria leer los datos de otra manera mas eficiente.

El 6/12/2017 13:32, "Carlos Ortega"  escribió:

> Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido de
> Stata a csv o algún otro formato que con el que puedas trabajar en RStudio?.
> ¿O ahora el problema es que has convertido el fichero pero no puedes hacer
> ningún tipo de análisis porque tu equipo no tiene suficientes recursos?...
>
> Gracias,
> Carlos.
>
> El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <
> antoniorodriguezandre...@gmail.com> escribió:
>
>> He llegado hacer un summary o algo asi. Despues de leerlo pero tarda
>> mucho.
>> Y si hago un histograma de una variable edad, hay colapsa.
>>
>> El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
>> antoniorodriguezandre...@gmail.com> escribió:
>>
>> > Freddy
>> >
>> > el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
>> > Pero si recuerdo me dio problemas en RStudio
>> >
>> > El 6/12/2017 13:03, "Freddy Omar López Quintero" <
>> freddy.vat...@gmail.com>
>> > escribió:
>> >
>> >> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres
>> escribió:
>> >>
>> >> me sale problema
>> >> de memoria.
>> >>
>> >>
>> >> Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar
>> un
>> >> archivo de tales dimensiones? Puede que ni aún cambiando la manera de
>> leer
>> >> el archivo realmente lo puedas procesar.
>> >>
>> >>
>> >> Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
>> >> comando fread, y finalmente cargar los datos como RData
>> >>
>> >>
>> >> ¿Has probado el paquete haven y específicamente su función read_dta?
>> >> Parece que es bastante más eficiente que la de foreign y preserva más
>> >> características que trae el formato de stata.
>> >>
>> >> ¡Ojalá algo sirva!
>> >>
>> >> ¡Salud!
>> >>
>> >> --
>> >>
>> >> «...homines autem hominum causa esse generatos...»
>> >>
>> >> Cicero
>> >>
>> >
>>
>> [[alternative HTML version deleted]]
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] STATA base de datos

2017-12-06 Por tema Carlos Ortega
Pero entonces, ¿has leído ya el fichero en RStudio? ¿lo has convertido de
Stata a csv o algún otro formato que con el que puedas trabajar en RStudio?.
¿O ahora el problema es que has convertido el fichero pero no puedes hacer
ningún tipo de análisis porque tu equipo no tiene suficientes recursos?...

Gracias,
Carlos.

El 6 de diciembre de 2017, 13:09, Antonio Rodriguez Andres <
antoniorodriguezandre...@gmail.com> escribió:

> He llegado hacer un summary o algo asi. Despues de leerlo pero tarda mucho.
> Y si hago un histograma de una variable edad, hay colapsa.
>
> El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
> antoniorodriguezandre...@gmail.com> escribió:
>
> > Freddy
> >
> > el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
> > Pero si recuerdo me dio problemas en RStudio
> >
> > El 6/12/2017 13:03, "Freddy Omar López Quintero" <
> freddy.vat...@gmail.com>
> > escribió:
> >
> >> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres escribió:
> >>
> >> me sale problema
> >> de memoria.
> >>
> >>
> >> Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar un
> >> archivo de tales dimensiones? Puede que ni aún cambiando la manera de
> leer
> >> el archivo realmente lo puedas procesar.
> >>
> >>
> >> Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
> >> comando fread, y finalmente cargar los datos como RData
> >>
> >>
> >> ¿Has probado el paquete haven y específicamente su función read_dta?
> >> Parece que es bastante más eficiente que la de foreign y preserva más
> >> características que trae el formato de stata.
> >>
> >> ¡Ojalá algo sirva!
> >>
> >> ¡Salud!
> >>
> >> --
> >>
> >> «...homines autem hominum causa esse generatos...»
> >>
> >> Cicero
> >>
> >
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] STATA base de datos

2017-12-06 Por tema Antonio Rodriguez Andres
He llegado hacer un summary o algo asi. Despues de leerlo pero tarda mucho.
Y si hago un histograma de una variable edad, hay colapsa.

El 6/12/2017 13:05, "Antonio Rodriguez Andres" <
antoniorodriguezandre...@gmail.com> escribió:

> Freddy
>
> el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
> Pero si recuerdo me dio problemas en RStudio
>
> El 6/12/2017 13:03, "Freddy Omar López Quintero" 
> escribió:
>
>> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres escribió:
>>
>> me sale problema
>> de memoria.
>>
>>
>> Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar un
>> archivo de tales dimensiones? Puede que ni aún cambiando la manera de leer
>> el archivo realmente lo puedas procesar.
>>
>>
>> Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
>> comando fread, y finalmente cargar los datos como RData
>>
>>
>> ¿Has probado el paquete haven y específicamente su función read_dta?
>> Parece que es bastante más eficiente que la de foreign y preserva más
>> características que trae el formato de stata.
>>
>> ¡Ojalá algo sirva!
>>
>> ¡Salud!
>>
>> --
>>
>> «...homines autem hominum causa esse generatos...»
>>
>> Cicero
>>
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] STATA base de datos

2017-12-06 Por tema Antonio Rodriguez Andres
Freddy

el archivo lo leo en segundos en Stata. puedo probar el paquete heaven.
Pero si recuerdo me dio problemas en RStudio

El 6/12/2017 13:03, "Freddy Omar López Quintero" 
escribió:

> El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres escribió:
>
> me sale problema
> de memoria.
>
>
> Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar un
> archivo de tales dimensiones? Puede que ni aún cambiando la manera de leer
> el archivo realmente lo puedas procesar.
>
>
> Entonces, una solucion es intentar pasar de STATA a CSV y luego usar el
> comando fread, y finalmente cargar los datos como RData
>
>
> ¿Has probado el paquete haven y específicamente su función read_dta?
> Parece que es bastante más eficiente que la de foreign y preserva más
> características que trae el formato de stata.
>
> ¡Ojalá algo sirva!
>
> ¡Salud!
>
> --
>
> «...homines autem hominum causa esse generatos...»
>
> Cicero
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] STATA base de datos

2017-12-06 Por tema Freddy Omar López Quintero
El mié, 06-12-2017 a las 12:55 +0100, Antonio Rodriguez Andres
escribió:
> me sale problema
> de memoria.

Pregunta posiblemente tonta: ¿tienes suficiente memoria para procesar
un archivo de tales dimensiones? Puede que ni aún cambiando la manera
de leer el archivo realmente lo puedas procesar.
> Entonces, una solucion es intentar pasar de STATA a CSV y luego usar
> el
> comando fread, y finalmente cargar los datos como RData

¿Has probado el paquete haven y específicamente su función read_dta?
Parece que es bastante más eficiente que la de foreign y preserva más
características que trae el formato de stata.

¡Ojalá algo sirva!

¡Salud!


-- 
«...homines autem hominum causa esse generatos...»

Cicero
[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es