(Esto ya lo he comentado en la lista en una ocasión anterior, pero creo que es 
relevante insistir a propósito de esta consulta, que parece recurrente).
El dataset de retrasos de líneas aéreas es aprox. 10 GB y yo lo he leído bien 
desde máquinas relativamente poco potentes con bigmemory
https://www.google.es/search?q=airlines+bigmemory
El segundo enlace de esta búsqueda es de cybaea (Allan Engelhardt) y muestra no 
sólo cómo cargar los datos sino lo que se puede hacer con biganalytics. A mi me 
han funcionado perfectamente para varios proyectos, siempre que el tipo de 
datos de las tablas sea homogéneo (un requisito de los objetos bigmemory, que 
son matrices C).
Para 16 GB... no sé, sería cuestión de probar a trocear y pegar luego los 
objetos con bigmemory o con cualquiera de las otras alternativas. No lo he 
hecho nunca con bigmemory pero ahora mismo, por ejemplo, lo estoy haciendo con 
una conexión a base de datos. Si tienes el tiempo de montar una b.d. parece una 
buena manera de poder gestionar las consultas (por número de filas, por 
columnas).
Además de los enlaces proporcionados hay algo más aquí:
http://stackoverflow.com/questions/9352887/strategies-for-reading-in-csv-files-in-pieces

Por cierto, R (64 bit) sí que permite manejar espacios de trabajo mayores que 
la memoria física haciendo swap a disco. El procesador sigue funcionando pero 
se hace lentísimo. Mi experiencia con diferentes versiones R (previas a la 3) 
es que en sistemas unix, y siempre que tengas espacio suficiente en disco -y 
que te puedas quedar sin usar la máquina para nada más, puede ser cuestión de 
esperar -aunque nunca sabes si el algoritmo se ha quedado colgado. Pero en 
sistemas windows (hasta windows 7) casca. De cualquier modo no es nada deseable 
que suceda, pero, vamos, que R puede manejar más que la memoria física de una 
máquina.

------------------------------

Message: 4
Date: Tue, 3 Jun 2014 18:37:20 +0100 (BST)
From: laura tomé <[email protected]><mailto:[email protected]>
To: "[email protected]"<mailto:[email protected]> 
<[email protected]><mailto:[email protected]>
Subject: [R-es] Cargar csv de 16GB en R
Message-ID:
        
<[email protected]><mailto:[email protected]>
Content-Type: text/plain




Hola,

Estoy todavía dando mis primeros pasos en R y una de las cosas que tengo que 
hacer es trabajar con un csv de 16 GB. Consta de 10 columnas, 7 númericas
He probado varias cosas entre ellas  los paquetes  'colbycol', data.table, ff , 
etc,  pero nada, mi ordenador de queda frito. Por cierto, tiene 8GB de RAM y 
Windows 8

¿Debo trocear previamente el csv,me recomendais algún paquete en especial, etc 
para trabajar con un fichero tan pesado, otra solución?...


--
Pedro Concejero
BigData - Analytics @ Telefónica I+D<http://www.tid.es/es/Paginas/default.aspx>
E-mail: [email protected]<mailto:[email protected]>
skype: pedro.concejero
twitter: @ConcejeroPedro
linkedin <http://www.linkedin.com/in/pedroconcejero/es>
Únete a la lista R en 
español<https://stat.ethz.ch/mailman/listinfo/r-help-es#%21> y a tu gRupo local 
R, el mío es el gRupo R madRid 
<http://r-es.org/Grupo+de+Inter%C3%A9s+Local+de+Madrid+-+GIL+Madrid&structure=Comunidad>

________________________________

Este mensaje se dirige exclusivamente a su destinatario. Puede consultar 
nuestra política de envío y recepción de correo electrónico en el enlace 
situado más abajo.
This message is intended exclusively for its addressee. We only send and 
receive email on the basis of the terms set out at:
http://www.tid.es/ES/PAGINAS/disclaimer.aspx

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a