Hola, me sorprende leer tu opini�n ("R (puro) no es la herramienta ideal para
el manejo directo del 'big data'") cuando precisamente este pasado mes de abril
SparkR (ver descripci�n de su web m�s abajo) se ha integrado en Apache Spark y
todo el mundo que est� en "ese ajo" del "big data" (buzzword donde las haya) no
le quita ojo a la publicaci�n oficial este verano.
https://amplab-extras.github.io/SparkR-pkg/
SparkR is an R package that provides a light-weight frontend to use Apache
Spark from R. SparkR exposes the Spark API through the RDD class and allows
users to interactively run jobs from the R shell on a cluster.
NOTE: As of April 2015, SparkR has been officially merged into Apache Spark and
is shipping in an upcoming release (1.4) due early summer 2015.
(lo poqu�simo que s� de SparkR es que ya quien se tiene que pegar con
map-reduce no usa otra cosa; sobre todo junto con python).
Salud
Pedro
El 06/05/2015 a las 15:49,
[email protected]<mailto:[email protected]>
escribi�:
Env�e los mensajes para la lista R-help-es a
[email protected]<mailto:[email protected]>
Para subscribirse o anular su subscripci�n a trav�s de la WEB
https://stat.ethz.ch/mailman/listinfo/r-help-es
O por correo electr�nico, enviando un mensaje con el texto "help" en
el asunto (subject) o en el cuerpo a:
[email protected]<mailto:[email protected]>
Puede contactar con el responsable de la lista escribiendo a:
[email protected]<mailto:[email protected]>
Si responde a alg�n contenido de este mensaje, por favor, edite la
linea del asunto (subject) para que el texto sea mas especifico que:
"Re: Contents of R-help-es digest...". Adem�s, por favor, incluya en
la respuesta s�lo aquellas partes del mensaje a las que est�
respondiendo.
Asuntos del d�a:
1. Re: Muestreo de bases de datos (Freddy Omar L�pez Quintero)
----------------------------------------------------------------------
Message: 1
Date: Wed, 6 May 2015 10:48:49 -0300
From: Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]>
To: Patricio Fuenmayor Viteri
<[email protected]><mailto:[email protected]>,
[email protected]<mailto:[email protected]>,
[email protected]<mailto:[email protected]>,
Javier Marcuzzi
<[email protected]><mailto:[email protected]>,
Carlos Javier Gil
Bellosta <[email protected]><mailto:[email protected]>
Cc: r-help-es <[email protected]><mailto:[email protected]>
Subject: Re: [R-es] Muestreo de bases de datos
Message-ID:
<calcouqv1xp20u465rp6shr0++9hst2detmgb-jrkwkfuu85...@mail.gmail.com><mailto:calcouqv1xp20u465rp6shr0++9hst2detmgb-jrkwkfuu85...@mail.gmail.com>
Content-Type: text/plain; charset="UTF-8"
Gracias a todos por sus respuestas. Han enriquecido mi punto de vista.
Cuando deba, entonces garantizar� la representatividad de los individuos
ocupando los �ndices o hashes en la base de datos (el problema se traslada
ahora a hallar esa representatividad).
Personalmente pienso que R (puro) no es la herramienta ideal para el manejo
directo del 'big data' aunque algunos cuenten con los ordenadores con
capacidades que les permitan hacerlo directamente.
De todas formas, ya las ofertas de R integrado en base de datos est�n a la
orden del d�a (esta es la �ltima que supe:
http://www.oracle.com/technetwork/database/database-technologies/r/r-distribution/overview/index.html
).
Saludos a todos.
2015-05-05 13:11 GMT-03:00 Patricio Fuenmayor Viteri <
[email protected]<mailto:[email protected]>>:
Bueno ... voy a compartirles mi experiencia en esto.
Freddy, yo tuve la misma experiencia que su amigo, es mas, aun la sigo
teniendo... y en resumen y sin alargar el cuento ... me quedo con R.
Porque mi decisi�n... por varios temas:
1. Rapidez. Uno debe saber que es lo que se quiere hacer y que necesita
para eso. El uso adecuado de indices, hash, etc. que permitan y faciliten
al sistema trabajar eficientemente. R en mas r�pido que SAS en temas de
cruces de datos (yo uso data.table e indexaciones por hash).
2. Generalizado, centralizado y normalizado. El uso del concepto de
funciones con par�metros, y un solo esquema de lenguaje y la programaci�n
orientada a objetos, hace que se faciliten los temas. Programar los
procesos usando un flujo y reutilizando las funciones, permiten que a mas
de que el proceso sea escalable, su mantenimiento y la incorporaci�n de
nuevas funcionalidades, se implemente f�cilmente.
3. SAS facilita la conexi�n con diferentes bases de datos (siempre y
cuando se tenga licenciado el m�dulo). Es recomendable usar librer�as en R
que est�n programadas utilizando conectores nativos, tales como RMySQL,
RPostgres, y la nueva que estoy usando rsqlserver (en desarrollo en
github), las cuales son muy r�pidas en tiempos de respuesta.
4. Programaci�n modular e incorporaci�n de conceptos y tecnolog�as. Esto,
en mi caso, lo desarroll� por experiencia. Poder generalizar un proceso de
informaci�n, manejar un modelos de datos, para optimizar el almacenaje de
los datos y de los resultados, hacen que los tiempo de respuesta hacia el
usuario sean cada vez mejores.
5. Toda la gama de funciones desarrolladas por la comunidad, y los
estudios y an�lisis compartidos en blogs, libros, etc. permiten que la
curva de aprendizaje y de desarrollo sea mas corta, ademas uno puede
evidenciar y aprender de gente mas experimentada en temas de manejo de
informaci�n y de aplicaciones estad�sticas.
Bueno... esto es parte de mi experiencia... y no quiero cansarles mas ...
un abrazo ... !!!
--Archivo adjunto de mensaje reenviado--
From: [email protected]<mailto:[email protected]>
To: [email protected]<mailto:[email protected]>
Date: Tue, 5 May 2015 11:12:49 +0000
Subject: Re: [R-es] Muestreo de bases de datos
Hola
Desvi�ndome un poco de la cuesti�n que plantea Freddy, no estoy muy de acuerdo
con lo que comenta acerca de que "... R no est� dise�ado (operaciones en la
base de datos)..".
Precisamente la mayor parte de mi trabajo en R se realiza vinculadolo a un
servidor Microsoft SQL Server y lo cierto es que, hasta ahora, "se entienden"
muy bien entre ellos.
Cierto es que, en mi caso, la mayor parte del flujo de datos (con millones de
registros como norma general) va de R hacia el SQL, puesto que utilizo R para
descargar los datos, organizarlos y depurarlos antes de subirlos al SQL server.
Al principio me inquietaba mucho el tiempo (horas en alg�n caso) en el que la
consola de R se mostraba "pensando" hasta que se sub�an todos los datos al SQL
Server, as� que dise�e una funci�n que usando el paquete snowfall mostraba
una barra de progreso mientras se hacia la subida de datos.
Para el flujo de datos en sentido inverso, (de SQL Server a R) siempre me
aseguro de que la consulta SQL que "baja" los datos del SQL Server a un
dataframe o similar solo recupera los datos verdaderamente necesarios.
L�gicamente y dependiendo de lo que vayas a hacer luego con esos datos a veces
esto no es posible, pero en general eso de "bajarse todo" e intentar ejecutar
un proceso me parece un h�bito bastante pernicioso e improductivo.
-----Mensaje original-----
De: R-help-es [mailto:[email protected]] En nombre de r-
[email protected]<mailto:[email protected]>
Enviado el: martes, 05 de mayo de 2015 12:00
Para: [email protected]<mailto:[email protected]>
Asunto: Resumen de R-help-es, Vol 75, Env�o 4
Env�e los mensajes para la lista R-help-es a
[email protected]<mailto:[email protected]>
Para subscribirse o anular su subscripci�n a trav�s de la WEB
https://stat.ethz.ch/mailman/listinfo/r-help-es
O por correo electr�nico, enviando un mensaje con el texto "help" en el
asunto (subject) o en el cuerpo a:
[email protected]<mailto:[email protected]>
Puede contactar con el responsable de la lista escribiendo a:
[email protected]<mailto:[email protected]>
Si responde a alg�n contenido de este mensaje, por favor, edite la linea del
asunto (subject) para que el texto sea mas especifico que:
"Re: Contents of R-help-es digest...". Adem�s, por favor, incluya en la
respuesta s�lo aquellas partes del mensaje a las que est� respondiendo.
Asuntos del d�a:
1. Muestreo de bases de datos.- (Freddy Omar L�pez Quintero)
2. Re: Muestreo de bases de datos.- (Carlos J. Gil Bellosta )
3. Re: Muestreo de bases de datos.-
([email protected]<mailto:[email protected]>)
----------------------------------------------------------------------
Message: 1
Date: Mon, 4 May 2015 15:15:33 -0300
From: Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]>
To: "[email protected]"<mailto:[email protected]>
<[email protected]><mailto:[email protected]>
Subject: [R-es] Muestreo de bases de datos.-
Message-ID:
<CALCOUqu7nKupKdc47Q2ixvsfGVqAdOhgdLmNMfc8JvTS7hqX+Q@
mail.gmail.com><mailto:calcouqu7nkupkdc47q2ixvsfgvqadohgdlmnmfc8jvts7hq...@mail.gmail.com>
Content-Type: text/plain; charset="UTF-8"
�Hola!
Mi duda surge por la siguiente an�cdota: un amigo (empleado de una
enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba a
ejecutar las rutinas que hab�a traducido de SAS a R y luego de intentar
ejecutarlas nada le funcion� porque, ingenuamente, quer�a hacer cosas para
las cuales R no est� dise�ado (operaciones en la base de datos) y porque ley�
TODOS los datos de una consulta (millones de registros) e intent� correr
alg�n procedimiento (!). Me dijo que SAS corre todo lo que �l necesita y pues
qued� tristemente decepcionado.
Yo le dije que es corriente tomar una muestra de los datos para calibrar los
modelos que se van a necesitar y que no es necesario utilizar los millones de
registros enteros. Esto me hizo pensar �existen normas o buenas pr�cticas
para el muestreo de las bases de datos?�existen normativas?�lineamientos?
Es claro que mi primera respuesta ser�a ocupar los m�todos ya desarrollados
para encuestas, pero qui�n sabe.
Si existen: �tienen su contraparte en R?
Gracias y disculpen las molestias.
�Salud!
--
�No soy aquellas sombras tutelares
que honr� con versos que no olvida el tiempo.�
JL Borges
[[alternative HTML version deleted]]
------------------------------
Message: 2
Date: Mon, 4 May 2015 20:35:28 +0200
From: "Carlos J. Gil Bellosta "
<[email protected]><mailto:[email protected]>
To: Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]>
Cc: "[email protected]"<mailto:[email protected]>
<[email protected]><mailto:[email protected]>
Subject: Re: [R-es] Muestreo de bases de datos.-
Message-ID:
<CADg83efiwWEdwA6dyR4RUkwB5Qc5evOAmdLfBeg+yO0GngL0Aw
@mail.gmail.com>
Content-Type: text/plain; charset=UTF-8
Hola, �qu� tal?
La mejor manera de muestrear una tabla en una base de datos es a trav�s
del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si no, a
trav�s del m�dulo de un hash de alg�n identificador similar. Este
procedimiento tiene la ventaja de ser repetible:
consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de
tama�o similar completamente distinta de la anterior. El filtro se hace en el
where de la consulta a la base de datos (y la sintaxis cambia de una a otra).
Si los datos son grandes y est�n en una base de datos, es mejor manipularlos
dentro de ella previamente enviando consultas SQL desde R y solo descargar
los datos (debidamente filtrados y muestreados, es decir, peque�os y/o
manejables) al final.
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]> escribi�:
�Hola!
Mi duda surge por la siguiente an�cdota: un amigo (empleado de una
enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba
a ejecutar las rutinas que hab�a traducido de SAS a R y luego de
intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a
hacer cosas para las cuales R no est� dise�ado (operaciones en la base
de datos) y porque ley� TODOS los datos de una consulta (millones de
registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS
corre todo lo que �l necesita y pues qued� tristemente decepcionado.
Yo le dije que es corriente tomar una muestra de los datos para
calibrar los modelos que se van a necesitar y que no es necesario
utilizar los millones de registros enteros. Esto me hizo pensar
�existen normas o buenas pr�cticas para el muestreo de las bases de
datos?�existen normativas?�lineamientos? Es claro que mi primera
respuesta ser�a ocupar los m�todos ya desarrollados para encuestas, pero
qui�n sabe.
Si existen: �tienen su contraparte en R?
Gracias y disculpen las molestias.
�Salud!
--
�No soy aquellas sombras tutelares
que honr� con versos que no olvida el tiempo.�
JL Borges
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
------------------------------
Message: 3
Date: Mon, 4 May 2015 19:32:14 +0000
From: <[email protected]><mailto:[email protected]>
To: "=?utf-8?Q?Carlos_J._Gil_Bellosta?="
<[email protected]><mailto:[email protected]>,
Freddy L�pez <[email protected]><mailto:[email protected]>
Cc:
"[email protected]?="<mailto:[email protected]?=>
<[email protected]><mailto:[email protected]>
Subject: Re: [R-es] Muestreo de bases de datos.-
Message-ID:
<[email protected]><mailto:[email protected]>
Content-Type: text/plain; charset="UTF-8"
Estimado Freddy L�pez
Yo estoy de acuerdo con Carlos Gil Bellosta, no se si es apropiado para
millones del registros como los que usted comenta, pero R tiene sqldf, que
b�sicamente usa sqlite, esto posibilita usar una base de datos dentro de R sin
tener que preocuparnos demasiado, otra forma es utilizar data.table en lugar
de data.frame, dplyr, posiblemente su amigo no migro correctamente de SAS
a R (aunque tome con cuidado esto �ltimo, yo nunca use SAS).
Javier Rub�n Marcuzzi
De: Carlos J. Gil Bellosta
Enviado el: ?lunes?, ?04? de ?mayo? de ?2015 ?03?:?35? ?p.m.
Para: Freddy L�pez
CC: [email protected]<mailto:[email protected]>
Hola, �qu� tal?
La mejor manera de muestrear una tabla en una base de datos es a trav�s
del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si no, a
trav�s del m�dulo de un hash de alg�n identificador similar. Este
procedimiento tiene la ventaja de ser repetible:
consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de
tama�o similar completamente distinta de la anterior. El filtro se hace en el
where de la consulta a la base de datos (y la sintaxis cambia de una a otra).
Si los datos son grandes y est�n en una base de datos, es mejor manipularlos
dentro de ella previamente enviando consultas SQL desde R y solo descargar
los datos (debidamente filtrados y muestreados, es decir, peque�os y/o
manejables) al final.
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]> escribi�:
�Hola!
Mi duda surge por la siguiente an�cdota: un amigo (empleado de una
enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba
a ejecutar las rutinas que hab�a traducido de SAS a R y luego de
intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a
hacer cosas para las cuales R no est� dise�ado (operaciones en la base
de datos) y porque ley� TODOS los datos de una consulta (millones de
registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS
corre todo lo que �l necesita y pues qued� tristemente decepcionado.
Yo le dije que es corriente tomar una muestra de los datos para
calibrar los modelos que se van a necesitar y que no es necesario
utilizar los millones de registros enteros. Esto me hizo pensar
�existen normas o buenas pr�cticas para el muestreo de las bases de
datos?�existen normativas?�lineamientos? Es claro que mi primera
respuesta ser�a ocupar los m�todos ya desarrollados para encuestas, pero
qui�n sabe.
Si existen: �tienen su contraparte en R?
Gracias y disculpen las molestias.
�Salud!
--
�No soy aquellas sombras tutelares
que honr� con versos que no olvida el tiempo.�
JL Borges
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
[[alternative HTML version deleted]]
------------------------------
Subject: Pi� de p�gina del digest
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
------------------------------
Fin de Resumen de R-help-es, Vol 75, Env�o 4
********************************************
Jones Lang LaSalle Arquitectura, SLU
Registration number: B-61888715
Registered Office: P� de la Castellana, 51 - 5� ; 28046 Madrid
This e-mail is for the use of the intended recipient(s) only. If you have
received this e-mail in error, please notify the sender immediately and then
delete it. If you are not the intended recipient, you must not use, disclose or
distribute this e-mail without the author's prior permission. We have taken
precautions to minimise the risk of transmitting software viruses, but we
advise you to carry out your own virus checks on any attachment to this
message. We cannot accept liability for any loss or damage caused by software
viruses. If you are the intended recipient and you do not wish to receive
similar electronic messages from us in future then please respond to the sender
to this effect.
--Archivo adjunto de mensaje reenviado--
From:
[email protected]<mailto:[email protected]>
CC: [email protected]<mailto:[email protected]>
To: [email protected]<mailto:[email protected]>
Date: Tue, 5 May 2015 15:35:14 +0200
Subject: Re: [R-es] Muestreo de bases de datos
Hola,
Para m� el principal error de la an�cdota es intentar hacer una "traducci�n
literal" de lo que se tiene programado en SAS porque no se tiene ni idea de
c�mo funciona R. Muchas veces en SAS se hacen determinadas cosas
simplemente "porque se puede" sin pensar en si realmente son necesarias o
son una buena pr�ctica, como por ejemplo, lanzar una regresi�n log�stica
para un conjunto de 5 millones de registros con 3 variables. Lo hago porque
el comercial de SAS de turno me dijo que se pod�a y que era mucho mejor, y
era algo que otros programas no pod�an hacer, y vende muy bien decirlo...
Creo que cuando se trabaja con R hay que cambiar un poco el chip, y por
mucho que nos guste, asumir que tiene ciertas limitaciones a la hora de
procesar datos y que no pasa nada por combinarla con otras herramientas.
Cuando se mencionaba que "R no sirve para trabajar en la base de datos"
creo se refiere a hacer el procesamiento de los datos dentro de R, y que
esta confusi�n viene de que mucha gente utiliza "base de datos" como
sin�nimo de "conjunto de datos". Como apuntan algunos, R se lleva bastante
bien con muchas bases de datos, y creo que es una muy buena pr�ctica
delegar en la medida de lo posible el procesamiento a una bbdd. Si no
existe, pues la creas, es gratis. Yo he trabajado en varios proyectos
montando una mysql y R con mucho �xito. Toda la manipulaci�n de datos que
puedo la delego en mysql, y el rendimiento es MUY bueno si tienes espacio
en disco suficiente para crear algunos �ndices. Utilizo R para generar las
consultas un poco al estilo de c�mo funcionan las macros de SAS. Como
grandes ventajas, es un c�digo que es muy f�cil portar a otros sistemas
(includo SAS, via proc sql). La mayor�a de los modelos que generaras pueden
traducirse en f�rmulas que se pueden implementar perfectamente en sql
tambi�n y permitir�n generar un "c�digo de scoring" puramente SQL. A R solo
llevo lo absolutamente imprescindible para hacer el an�lisis o modelo que
toque. En el peor de los casos, con casos complicados que puedan requerir
algunos conjuntos de datos m�s grandes, comprar una m�quina con 64-128GB de
ram probablemente sea mucho m�s barato que las licencias de SAS necesarias
para hacerlo en una m�quina menos potente. Aqu� tambi�n hace falta mucho
cambio de chip de las empresas que parece que tienen alergia a hacer
esto...
Si la cosa se complica m�s y sigues necesitando procesar conjuntos de datos
mucho m�s grandes, probablemente sea mejor opci�n pasarse al mundo big data
(Hadoop-HIVE, Spark...). (Qu� s�, que ahora SAS tambi�n hace big data, pero
a qu� precio... )
Saludos.
Fer.
El 5 de mayo de 2015, 13:12, Gilsanz, Jose Luis <
[email protected]<mailto:[email protected]>> escribi�:
Hola
Desvi�ndome un poco de la cuesti�n que plantea Freddy, no estoy muy de
acuerdo con lo que comenta acerca de que "... R no est� dise�ado
(operaciones en la base de datos)..".
Precisamente la mayor parte de mi trabajo en R se realiza vinculadolo a un
servidor Microsoft SQL Server y lo cierto es que, hasta ahora, "se
entienden" muy bien entre ellos.
Cierto es que, en mi caso, la mayor parte del flujo de datos (con millones
de registros como norma general) va de R hacia el SQL, puesto que utilizo R
para descargar los datos, organizarlos y depurarlos antes de subirlos al
SQL server.
Al principio me inquietaba mucho el tiempo (horas en alg�n caso) en el
que la consola de R se mostraba "pensando" hasta que se sub�an todos los
datos al SQL Server, as� que dise�e una funci�n que usando el paquete
snowfall mostraba una barra de progreso mientras se hacia la subida de
datos.
Para el flujo de datos en sentido inverso, (de SQL Server a R) siempre me
aseguro de que la consulta SQL que "baja" los datos del SQL Server a un
dataframe o similar solo recupera los datos verdaderamente necesarios.
L�gicamente y dependiendo de lo que vayas a hacer luego con esos datos a
veces esto no es posible, pero en general eso de "bajarse todo" e intentar
ejecutar un proceso me parece un h�bito bastante pernicioso e improductivo.
-----Mensaje original-----
De: R-help-es [mailto:[email protected]] En nombre de r-
[email protected]<mailto:[email protected]>
Enviado el: martes, 05 de mayo de 2015 12:00
Para: [email protected]<mailto:[email protected]>
Asunto: Resumen de R-help-es, Vol 75, Env�o 4
Env�e los mensajes para la lista R-help-es a
[email protected]<mailto:[email protected]>
Para subscribirse o anular su subscripci�n a trav�s de la WEB
https://stat.ethz.ch/mailman/listinfo/r-help-es
O por correo electr�nico, enviando un mensaje con el texto "help" en el
asunto (subject) o en el cuerpo a:
[email protected]<mailto:[email protected]>
Puede contactar con el responsable de la lista escribiendo a:
[email protected]<mailto:[email protected]>
Si responde a alg�n contenido de este mensaje, por favor, edite la linea
del
asunto (subject) para que el texto sea mas especifico que:
"Re: Contents of R-help-es digest...". Adem�s, por favor, incluya en la
respuesta s�lo aquellas partes del mensaje a las que est� respondiendo.
Asuntos del d�a:
1. Muestreo de bases de datos.- (Freddy Omar L�pez Quintero)
2. Re: Muestreo de bases de datos.- (Carlos J. Gil Bellosta )
3. Re: Muestreo de bases de datos.-
([email protected]<mailto:[email protected]>)
----------------------------------------------------------------------
Message: 1
Date: Mon, 4 May 2015 15:15:33 -0300
From: Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]>
To: "[email protected]"<mailto:[email protected]>
<[email protected]><mailto:[email protected]>
Subject: [R-es] Muestreo de bases de datos.-
Message-ID:
<CALCOUqu7nKupKdc47Q2ixvsfGVqAdOhgdLmNMfc8JvTS7hqX+Q@
mail.gmail.com><mailto:calcouqu7nkupkdc47q2ixvsfgvqadohgdlmnmfc8jvts7hq...@mail.gmail.com>
Content-Type: text/plain; charset="UTF-8"
�Hola!
Mi duda surge por la siguiente an�cdota: un amigo (empleado de una
enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba a
ejecutar las rutinas que hab�a traducido de SAS a R y luego de intentar
ejecutarlas nada le funcion� porque, ingenuamente, quer�a hacer cosas
para
las cuales R no est� dise�ado (operaciones en la base de datos) y porque
ley�
TODOS los datos de una consulta (millones de registros) e intent� correr
alg�n procedimiento (!). Me dijo que SAS corre todo lo que �l necesita y
pues
qued� tristemente decepcionado.
Yo le dije que es corriente tomar una muestra de los datos para calibrar
los
modelos que se van a necesitar y que no es necesario utilizar los
millones de
registros enteros. Esto me hizo pensar �existen normas o buenas pr�cticas
para el muestreo de las bases de datos?�existen normativas?�lineamientos?
Es claro que mi primera respuesta ser�a ocupar los m�todos ya
desarrollados
para encuestas, pero qui�n sabe.
Si existen: �tienen su contraparte en R?
Gracias y disculpen las molestias.
�Salud!
--
�No soy aquellas sombras tutelares
que honr� con versos que no olvida el tiempo.�
JL Borges
[[alternative HTML version deleted]]
------------------------------
Message: 2
Date: Mon, 4 May 2015 20:35:28 +0200
From: "Carlos J. Gil Bellosta "
<[email protected]><mailto:[email protected]>
To: Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]>
Cc: "[email protected]"<mailto:[email protected]>
<[email protected]><mailto:[email protected]>
Subject: Re: [R-es] Muestreo de bases de datos.-
Message-ID:
<CADg83efiwWEdwA6dyR4RUkwB5Qc5evOAmdLfBeg+yO0GngL0Aw
@mail.gmail.com>
Content-Type: text/plain; charset=UTF-8
Hola, �qu� tal?
La mejor manera de muestrear una tabla en una base de datos es a trav�s
del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si
no, a
trav�s del m�dulo de un hash de alg�n identificador similar. Este
procedimiento tiene la ventaja de ser repetible:
consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de
tama�o similar completamente distinta de la anterior. El filtro se hace
en el
where de la consulta a la base de datos (y la sintaxis cambia de una a
otra).
Si los datos son grandes y est�n en una base de datos, es mejor
manipularlos
dentro de ella previamente enviando consultas SQL desde R y solo
descargar
los datos (debidamente filtrados y muestreados, es decir, peque�os y/o
manejables) al final.
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]> escribi�:
�Hola!
Mi duda surge por la siguiente an�cdota: un amigo (empleado de una
enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba
a ejecutar las rutinas que hab�a traducido de SAS a R y luego de
intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a
hacer cosas para las cuales R no est� dise�ado (operaciones en la base
de datos) y porque ley� TODOS los datos de una consulta (millones de
registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS
corre todo lo que �l necesita y pues qued� tristemente decepcionado.
Yo le dije que es corriente tomar una muestra de los datos para
calibrar los modelos que se van a necesitar y que no es necesario
utilizar los millones de registros enteros. Esto me hizo pensar
�existen normas o buenas pr�cticas para el muestreo de las bases de
datos?�existen normativas?�lineamientos? Es claro que mi primera
respuesta ser�a ocupar los m�todos ya desarrollados para encuestas,
pero
qui�n sabe.
Si existen: �tienen su contraparte en R?
Gracias y disculpen las molestias.
�Salud!
--
�No soy aquellas sombras tutelares
que honr� con versos que no olvida el tiempo.�
JL Borges
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
------------------------------
Message: 3
Date: Mon, 4 May 2015 19:32:14 +0000
From: <[email protected]><mailto:[email protected]>
To: "=?utf-8?Q?Carlos_J._Gil_Bellosta?="
<[email protected]><mailto:[email protected]>,
Freddy L�pez <[email protected]><mailto:[email protected]>
Cc:
"[email protected]?="<mailto:[email protected]?=>
<[email protected]><mailto:[email protected]>
Subject: Re: [R-es] Muestreo de bases de datos.-
Message-ID:
<[email protected]><mailto:[email protected]>
Content-Type: text/plain; charset="UTF-8"
Estimado Freddy L�pez
Yo estoy de acuerdo con Carlos Gil Bellosta, no se si es apropiado para
millones del registros como los que usted comenta, pero R tiene sqldf,
que
b�sicamente usa sqlite, esto posibilita usar una base de datos dentro de
R sin
tener que preocuparnos demasiado, otra forma es utilizar data.table en
lugar
de data.frame, dplyr, posiblemente su amigo no migro correctamente de SAS
a R (aunque tome con cuidado esto �ltimo, yo nunca use SAS).
Javier Rub�n Marcuzzi
De: Carlos J. Gil Bellosta
Enviado el: ?lunes?, ?04? de ?mayo? de ?2015 ?03?:?35? ?p.m.
Para: Freddy L�pez
CC: [email protected]<mailto:[email protected]>
Hola, �qu� tal?
La mejor manera de muestrear una tabla en una base de datos es a trav�s
del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si
no, a
trav�s del m�dulo de un hash de alg�n identificador similar. Este
procedimiento tiene la ventaja de ser repetible:
consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de
tama�o similar completamente distinta de la anterior. El filtro se hace
en el
where de la consulta a la base de datos (y la sintaxis cambia de una a
otra).
Si los datos son grandes y est�n en una base de datos, es mejor
manipularlos
dentro de ella previamente enviando consultas SQL desde R y solo
descargar
los datos (debidamente filtrados y muestreados, es decir, peque�os y/o
manejables) al final.
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero
<[email protected]><mailto:[email protected]> escribi�:
�Hola!
Mi duda surge por la siguiente an�cdota: un amigo (empleado de una
enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba
a ejecutar las rutinas que hab�a traducido de SAS a R y luego de
intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a
hacer cosas para las cuales R no est� dise�ado (operaciones en la base
de datos) y porque ley� TODOS los datos de una consulta (millones de
registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS
corre todo lo que �l necesita y pues qued� tristemente decepcionado.
Yo le dije que es corriente tomar una muestra de los datos para
calibrar los modelos que se van a necesitar y que no es necesario
utilizar los millones de registros enteros. Esto me hizo pensar
�existen normas o buenas pr�cticas para el muestreo de las bases de
datos?�existen normativas?�lineamientos? Es claro que mi primera
respuesta ser�a ocupar los m�todos ya desarrollados para encuestas,
pero
qui�n sabe.
Si existen: �tienen su contraparte en R?
Gracias y disculpen las molestias.
�Salud!
--
�No soy aquellas sombras tutelares
que honr� con versos que no olvida el tiempo.�
JL Borges
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
[[alternative HTML version deleted]]
------------------------------
Subject: Pi� de p�gina del digest
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
------------------------------
Fin de Resumen de R-help-es, Vol 75, Env�o 4
********************************************
Jones Lang LaSalle Arquitectura, SLU
Registration number: B-61888715
Registered Office: P� de la Castellana, 51 - 5� ; 28046 Madrid
This e-mail is for the use of the intended recipient(s) only. If you have
received this e-mail in error, please notify the sender immediately and
then delete it. If you are not the intended recipient, you must not use,
disclose or distribute this e-mail without the author's prior permission.
We have taken precautions to minimise the risk of transmitting software
viruses, but we advise you to carry out your own virus checks on any
attachment to this message. We cannot accept liability for any loss or
damage caused by software viruses. If you are the intended recipient and
you do not wish to receive similar electronic messages from us in future
then please respond to the sender to this effect.
_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es
[[alternative HTML version deleted]]
--
Pedro Concejero
BI & Big Data - Internal Exploitation - Telef�nica I+D<http://www.tid.es>
E-mail:
[email protected]<mailto:[email protected]>
skype: pedro.concejero
twitter @ConcejeroPedro<https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero<http://www.linkedin.com/in/pedroconcejero/es>
Entusiasta R, me encontrar�is aqu� gRupo R madRid <http://madrid.r-es.org/>
________________________________
Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario, puede
contener informaci�n privilegiada o confidencial y es para uso exclusivo de la
persona o entidad de destino. Si no es usted. el destinatario indicado, queda
notificado de que la lectura, utilizaci�n, divulgaci�n y/o copia sin
autorizaci�n puede estar prohibida en virtud de la legislaci�n vigente. Si ha
recibido este mensaje por error, le rogamos que nos lo comunique inmediatamente
por esta misma v�a y proceda a su destrucci�n.
The information contained in this transmission is privileged and confidential
information intended only for the use of the individual or entity named above.
If the reader of this message is not the intended recipient, you are hereby
notified that any dissemination, distribution or copying of this communication
is strictly prohibited. If you have received this transmission in error, do not
read it. Please immediately reply to the sender that you have received this
communication in error and then delete it.
Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinat�rio, pode
conter informa��o privilegiada ou confidencial e � para uso exclusivo da pessoa
ou entidade de destino. Se n�o � vossa senhoria o destinat�rio indicado, fica
notificado de que a leitura, utiliza��o, divulga��o e/ou c�pia sem autoriza��o
pode estar proibida em virtude da legisla��o vigente. Se recebeu esta mensagem
por erro, rogamos-lhe que nos o comunique imediatamente por esta mesma via e
proceda a sua destrui��o
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es