Bueno ... voy a compartirles mi experiencia en esto.Freddy, yo tuve la misma experiencia que su amigo, es mas, aun la sigo teniendo... y en resumen y sin alargar el cuento ... me quedo con R.Porque mi decisi�n... por varios temas:1. Rapidez. Uno debe saber que es lo que se quiere hacer y que necesita para eso. El uso adecuado de indices, hash, etc. que permitan y faciliten al sistema trabajar eficientemente. R en mas r�pido que SAS en temas de cruces de datos (yo uso data.table e indexaciones por hash).2. Generalizado, centralizado y normalizado. El uso del concepto de funciones con par�metros, y un solo esquema de lenguaje y la programaci�n orientada a objetos, hace que se faciliten los temas. Programar los procesos usando un flujo y reutilizando las funciones, permiten que a mas de que el proceso sea escalable, su mantenimiento y la incorporaci�n de nuevas funcionalidades, se implemente f�cilmente.3. SAS facilita la conexi�n con diferentes bases de datos (siempre y cuando se tenga licenciado el m�dulo). Es recomendable usar librer�as en R que est�n programadas utilizando conectores nativos, tales como RMySQL, RPostgres, y la nueva que estoy usando rsqlserver (en desarrollo en github), las cuales son muy r�pidas en tiempos de respuesta.4. Programaci�n modular e incorporaci�n de conceptos y tecnolog�as. Esto, en mi caso, lo desarroll� por experiencia. Poder generalizar un proceso de informaci�n, manejar un modelos de datos, para optimizar el almacenaje de los datos y de los resultados, hacen que los tiempo de respuesta hacia el usuario sean cada vez mejores.5. Toda la gama de funciones desarrolladas por la comunidad, y los estudios y an�lisis compartidos en blogs, libros, etc. permiten que la curva de aprendizaje y de desarrollo sea mas corta, ademas uno puede evidenciar y aprender de gente mas experimentada en temas de manejo de informaci�n y de aplicaciones estad�sticas.Bueno... esto es parte de mi experiencia... y no quiero cansarles mas ... un abrazo ... !!!
--Archivo adjunto de mensaje reenviado-- From: jluis.gils...@tasacionesh.com To: r-help-es@r-project.org Date: Tue, 5 May 2015 11:12:49 +0000 Subject: Re: [R-es] Muestreo de bases de datos Hola Desvi�ndome un poco de la cuesti�n que plantea Freddy, no estoy muy de acuerdo con lo que comenta acerca de que "... R no est� dise�ado (operaciones en la base de datos)..". Precisamente la mayor parte de mi trabajo en R se realiza vinculadolo a un servidor Microsoft SQL Server y lo cierto es que, hasta ahora, "se entienden" muy bien entre ellos. Cierto es que, en mi caso, la mayor parte del flujo de datos (con millones de registros como norma general) va de R hacia el SQL, puesto que utilizo R para descargar los datos, organizarlos y depurarlos antes de subirlos al SQL server. Al principio me inquietaba mucho el tiempo (horas en alg�n caso) en el que la consola de R se mostraba "pensando" hasta que se sub�an todos los datos al SQL Server, as� que dise�e una funci�n que usando el paquete snowfall mostraba una barra de progreso mientras se hacia la subida de datos. Para el flujo de datos en sentido inverso, (de SQL Server a R) siempre me aseguro de que la consulta SQL que "baja" los datos del SQL Server a un dataframe o similar solo recupera los datos verdaderamente necesarios. L�gicamente y dependiendo de lo que vayas a hacer luego con esos datos a veces esto no es posible, pero en general eso de "bajarse todo" e intentar ejecutar un proceso me parece un h�bito bastante pernicioso e improductivo. > -----Mensaje original----- > De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de r- > help-es-requ...@r-project.org > Enviado el: martes, 05 de mayo de 2015 12:00 > Para: r-help-es@r-project.org > Asunto: Resumen de R-help-es, Vol 75, Env�o 4 > > Env�e los mensajes para la lista R-help-es a > r-help-es@r-project.org > > Para subscribirse o anular su subscripci�n a trav�s de la WEB > https://stat.ethz.ch/mailman/listinfo/r-help-es > > O por correo electr�nico, enviando un mensaje con el texto "help" en el > asunto (subject) o en el cuerpo a: > r-help-es-requ...@r-project.org > > Puede contactar con el responsable de la lista escribiendo a: > r-help-es-ow...@r-project.org > > Si responde a alg�n contenido de este mensaje, por favor, edite la linea del > asunto (subject) para que el texto sea mas especifico que: > "Re: Contents of R-help-es digest...". Adem�s, por favor, incluya en la > respuesta s�lo aquellas partes del mensaje a las que est� respondiendo. > > > Asuntos del d�a: > > 1. Muestreo de bases de datos.- (Freddy Omar L�pez Quintero) > 2. Re: Muestreo de bases de datos.- (Carlos J. Gil Bellosta ) > 3. Re: Muestreo de bases de datos.- (javier.ruben.marcu...@gmail.com) > > > ---------------------------------------------------------------------- > > Message: 1 > Date: Mon, 4 May 2015 15:15:33 -0300 > From: Freddy Omar L�pez Quintero <freddy.vat...@gmail.com> > To: "r-help-es@r-project.org" <r-help-es@r-project.org> > Subject: [R-es] Muestreo de bases de datos.- > Message-ID: > <CALCOUqu7nKupKdc47Q2ixvsfGVqAdOhgdLmNMfc8JvTS7hqX+Q@ > mail.gmail.com> > Content-Type: text/plain; charset="UTF-8" > > �Hola! > > Mi duda surge por la siguiente an�cdota: un amigo (empleado de una > enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba a > ejecutar las rutinas que hab�a traducido de SAS a R y luego de intentar > ejecutarlas nada le funcion� porque, ingenuamente, quer�a hacer cosas para > las cuales R no est� dise�ado (operaciones en la base de datos) y porque ley� > TODOS los datos de una consulta (millones de registros) e intent� correr > alg�n procedimiento (!). Me dijo que SAS corre todo lo que �l necesita y pues > qued� tristemente decepcionado. > > Yo le dije que es corriente tomar una muestra de los datos para calibrar los > modelos que se van a necesitar y que no es necesario utilizar los millones de > registros enteros. Esto me hizo pensar �existen normas o buenas pr�cticas > para el muestreo de las bases de datos?�existen normativas?�lineamientos? > Es claro que mi primera respuesta ser�a ocupar los m�todos ya desarrollados > para encuestas, pero qui�n sabe. > > Si existen: �tienen su contraparte en R? > > Gracias y disculpen las molestias. > > �Salud! > > -- > �No soy aquellas sombras tutelares > que honr� con versos que no olvida el tiempo.� > > JL Borges > > [[alternative HTML version deleted]] > > > > ------------------------------ > > Message: 2 > Date: Mon, 4 May 2015 20:35:28 +0200 > From: "Carlos J. Gil Bellosta " <c...@datanalytics.com> > To: Freddy Omar L�pez Quintero <freddy.vat...@gmail.com> > Cc: "r-help-es@r-project.org" <r-help-es@r-project.org> > Subject: Re: [R-es] Muestreo de bases de datos.- > Message-ID: > <CADg83efiwWEdwA6dyR4RUkwB5Qc5evOAmdLfBeg+yO0GngL0Aw > @mail.gmail.com> > Content-Type: text/plain; charset=UTF-8 > > Hola, �qu� tal? > > La mejor manera de muestrear una tabla en una base de datos es a trav�s > del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si no, a > trav�s del m�dulo de un hash de alg�n identificador similar. Este > procedimiento tiene la ventaja de ser repetible: > consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de > tama�o similar completamente distinta de la anterior. El filtro se hace en el > where de la consulta a la base de datos (y la sintaxis cambia de una a otra). > > Si los datos son grandes y est�n en una base de datos, es mejor manipularlos > dentro de ella previamente enviando consultas SQL desde R y solo descargar > los datos (debidamente filtrados y muestreados, es decir, peque�os y/o > manejables) al final. > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > > > El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero > <freddy.vat...@gmail.com> escribi�: > > �Hola! > > > > Mi duda surge por la siguiente an�cdota: un amigo (empleado de una > > enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba > > a ejecutar las rutinas que hab�a traducido de SAS a R y luego de > > intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a > > hacer cosas para las cuales R no est� dise�ado (operaciones en la base > > de datos) y porque ley� TODOS los datos de una consulta (millones de > > registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS > > corre todo lo que �l necesita y pues qued� tristemente decepcionado. > > > > Yo le dije que es corriente tomar una muestra de los datos para > > calibrar los modelos que se van a necesitar y que no es necesario > > utilizar los millones de registros enteros. Esto me hizo pensar > > �existen normas o buenas pr�cticas para el muestreo de las bases de > > datos?�existen normativas?�lineamientos? Es claro que mi primera > > respuesta ser�a ocupar los m�todos ya desarrollados para encuestas, pero > qui�n sabe. > > > > Si existen: �tienen su contraparte en R? > > > > Gracias y disculpen las molestias. > > > > �Salud! > > > > -- > > �No soy aquellas sombras tutelares > > que honr� con versos que no olvida el tiempo.� > > > > JL Borges > > > > [[alternative HTML version deleted]] > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > ------------------------------ > > Message: 3 > Date: Mon, 4 May 2015 19:32:14 +0000 > From: <javier.ruben.marcu...@gmail.com> > To: "=?utf-8?Q?Carlos_J._Gil_Bellosta?=" <c...@datanalytics.com>, > Freddy L�pez <freddy.vat...@gmail.com> > Cc: "=?utf-8?Q?R-help-es@r-project.org?=" <r-help-es@r-project.org> > Subject: Re: [R-es] Muestreo de bases de datos.- > Message-ID: <5547cad4.48958c0a.7228.2...@mx.google.com> > Content-Type: text/plain; charset="UTF-8" > > Estimado Freddy L�pez > > > Yo estoy de acuerdo con Carlos Gil Bellosta, no se si es apropiado para > millones del registros como los que usted comenta, pero R tiene sqldf, que > b�sicamente usa sqlite, esto posibilita usar una base de datos dentro de R sin > tener que preocuparnos demasiado, otra forma es utilizar data.table en lugar > de data.frame, dplyr, posiblemente su amigo no migro correctamente de SAS > a R (aunque tome con cuidado esto �ltimo, yo nunca use SAS). > > > Javier Rub�n Marcuzzi > > > > > > De: Carlos J. Gil Bellosta > Enviado el: ?lunes?, ?04? de ?mayo? de ?2015 ?03?:?35? ?p.m. > Para: Freddy L�pez > CC: R-help-es@r-project.org > > > > > > Hola, �qu� tal? > > La mejor manera de muestrear una tabla en una base de datos es a trav�s > del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si no, a > trav�s del m�dulo de un hash de alg�n identificador similar. Este > procedimiento tiene la ventaja de ser repetible: > consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de > tama�o similar completamente distinta de la anterior. El filtro se hace en el > where de la consulta a la base de datos (y la sintaxis cambia de una a otra). > > Si los datos son grandes y est�n en una base de datos, es mejor manipularlos > dentro de ella previamente enviando consultas SQL desde R y solo descargar > los datos (debidamente filtrados y muestreados, es decir, peque�os y/o > manejables) al final. > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > > > El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero > <freddy.vat...@gmail.com> escribi�: > > �Hola! > > > > Mi duda surge por la siguiente an�cdota: un amigo (empleado de una > > enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba > > a ejecutar las rutinas que hab�a traducido de SAS a R y luego de > > intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a > > hacer cosas para las cuales R no est� dise�ado (operaciones en la base > > de datos) y porque ley� TODOS los datos de una consulta (millones de > > registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS > > corre todo lo que �l necesita y pues qued� tristemente decepcionado. > > > > Yo le dije que es corriente tomar una muestra de los datos para > > calibrar los modelos que se van a necesitar y que no es necesario > > utilizar los millones de registros enteros. Esto me hizo pensar > > �existen normas o buenas pr�cticas para el muestreo de las bases de > > datos?�existen normativas?�lineamientos? Es claro que mi primera > > respuesta ser�a ocupar los m�todos ya desarrollados para encuestas, pero > qui�n sabe. > > > > Si existen: �tienen su contraparte en R? > > > > Gracias y disculpen las molestias. > > > > �Salud! > > > > -- > > �No soy aquellas sombras tutelares > > que honr� con versos que no olvida el tiempo.� > > > > JL Borges > > > > [[alternative HTML version deleted]] > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] > > > ------------------------------ > > Subject: Pi� de p�gina del digest > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > ------------------------------ > > Fin de Resumen de R-help-es, Vol 75, Env�o 4 > ******************************************** Jones Lang LaSalle Arquitectura, SLU Registration number: B-61888715 Registered Office: P� de la Castellana, 51 - 5� ; 28046 Madrid This e-mail is for the use of the intended recipient(s) only. If you have received this e-mail in error, please notify the sender immediately and then delete it. If you are not the intended recipient, you must not use, disclose or distribute this e-mail without the author's prior permission. We have taken precautions to minimise the risk of transmitting software viruses, but we advise you to carry out your own virus checks on any attachment to this message. We cannot accept liability for any loss or damage caused by software viruses. If you are the intended recipient and you do not wish to receive similar electronic messages from us in future then please respond to the sender to this effect. --Archivo adjunto de mensaje reenviado-- From: fernando.fernandez.gonza...@gmail.com CC: r-help-es@r-project.org To: jluis.gils...@tasacionesh.com Date: Tue, 5 May 2015 15:35:14 +0200 Subject: Re: [R-es] Muestreo de bases de datos Hola, Para m� el principal error de la an�cdota es intentar hacer una "traducci�n literal" de lo que se tiene programado en SAS porque no se tiene ni idea de c�mo funciona R. Muchas veces en SAS se hacen determinadas cosas simplemente "porque se puede" sin pensar en si realmente son necesarias o son una buena pr�ctica, como por ejemplo, lanzar una regresi�n log�stica para un conjunto de 5 millones de registros con 3 variables. Lo hago porque el comercial de SAS de turno me dijo que se pod�a y que era mucho mejor, y era algo que otros programas no pod�an hacer, y vende muy bien decirlo... Creo que cuando se trabaja con R hay que cambiar un poco el chip, y por mucho que nos guste, asumir que tiene ciertas limitaciones a la hora de procesar datos y que no pasa nada por combinarla con otras herramientas. Cuando se mencionaba que "R no sirve para trabajar en la base de datos" creo se refiere a hacer el procesamiento de los datos dentro de R, y que esta confusi�n viene de que mucha gente utiliza "base de datos" como sin�nimo de "conjunto de datos". Como apuntan algunos, R se lleva bastante bien con muchas bases de datos, y creo que es una muy buena pr�ctica delegar en la medida de lo posible el procesamiento a una bbdd. Si no existe, pues la creas, es gratis. Yo he trabajado en varios proyectos montando una mysql y R con mucho �xito. Toda la manipulaci�n de datos que puedo la delego en mysql, y el rendimiento es MUY bueno si tienes espacio en disco suficiente para crear algunos �ndices. Utilizo R para generar las consultas un poco al estilo de c�mo funcionan las macros de SAS. Como grandes ventajas, es un c�digo que es muy f�cil portar a otros sistemas (includo SAS, via proc sql). La mayor�a de los modelos que generaras pueden traducirse en f�rmulas que se pueden implementar perfectamente en sql tambi�n y permitir�n generar un "c�digo de scoring" puramente SQL. A R solo llevo lo absolutamente imprescindible para hacer el an�lisis o modelo que toque. En el peor de los casos, con casos complicados que puedan requerir algunos conjuntos de datos m�s grandes, comprar una m�quina con 64-128GB de ram probablemente sea mucho m�s barato que las licencias de SAS necesarias para hacerlo en una m�quina menos potente. Aqu� tambi�n hace falta mucho cambio de chip de las empresas que parece que tienen alergia a hacer esto... Si la cosa se complica m�s y sigues necesitando procesar conjuntos de datos mucho m�s grandes, probablemente sea mejor opci�n pasarse al mundo big data (Hadoop-HIVE, Spark...). (Qu� s�, que ahora SAS tambi�n hace big data, pero a qu� precio... ) Saludos. Fer. El 5 de mayo de 2015, 13:12, Gilsanz, Jose Luis < jluis.gils...@tasacionesh.com> escribi�: > Hola > > Desvi�ndome un poco de la cuesti�n que plantea Freddy, no estoy muy de > acuerdo con lo que comenta acerca de que "... R no est� dise�ado > (operaciones en la base de datos)..". > > Precisamente la mayor parte de mi trabajo en R se realiza vinculadolo a un > servidor Microsoft SQL Server y lo cierto es que, hasta ahora, "se > entienden" muy bien entre ellos. > Cierto es que, en mi caso, la mayor parte del flujo de datos (con millones > de registros como norma general) va de R hacia el SQL, puesto que utilizo R > para descargar los datos, organizarlos y depurarlos antes de subirlos al > SQL server. > Al principio me inquietaba mucho el tiempo (horas en alg�n caso) en el > que la consola de R se mostraba "pensando" hasta que se sub�an todos los > datos al SQL Server, as� que dise�e una funci�n que usando el paquete > snowfall mostraba una barra de progreso mientras se hacia la subida de > datos. > > Para el flujo de datos en sentido inverso, (de SQL Server a R) siempre me > aseguro de que la consulta SQL que "baja" los datos del SQL Server a un > dataframe o similar solo recupera los datos verdaderamente necesarios. > L�gicamente y dependiendo de lo que vayas a hacer luego con esos datos a > veces esto no es posible, pero en general eso de "bajarse todo" e intentar > ejecutar un proceso me parece un h�bito bastante pernicioso e improductivo. > > > > > > > > -----Mensaje original----- > > De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de r- > > help-es-requ...@r-project.org > > Enviado el: martes, 05 de mayo de 2015 12:00 > > Para: r-help-es@r-project.org > > Asunto: Resumen de R-help-es, Vol 75, Env�o 4 > > > > Env�e los mensajes para la lista R-help-es a > > r-help-es@r-project.org > > > > Para subscribirse o anular su subscripci�n a trav�s de la WEB > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > O por correo electr�nico, enviando un mensaje con el texto "help" en el > > asunto (subject) o en el cuerpo a: > > r-help-es-requ...@r-project.org > > > > Puede contactar con el responsable de la lista escribiendo a: > > r-help-es-ow...@r-project.org > > > > Si responde a alg�n contenido de este mensaje, por favor, edite la linea > del > > asunto (subject) para que el texto sea mas especifico que: > > "Re: Contents of R-help-es digest...". Adem�s, por favor, incluya en la > > respuesta s�lo aquellas partes del mensaje a las que est� respondiendo. > > > > > > Asuntos del d�a: > > > > 1. Muestreo de bases de datos.- (Freddy Omar L�pez Quintero) > > 2. Re: Muestreo de bases de datos.- (Carlos J. Gil Bellosta ) > > 3. Re: Muestreo de bases de datos.- (javier.ruben.marcu...@gmail.com) > > > > > > ---------------------------------------------------------------------- > > > > Message: 1 > > Date: Mon, 4 May 2015 15:15:33 -0300 > > From: Freddy Omar L�pez Quintero <freddy.vat...@gmail.com> > > To: "r-help-es@r-project.org" <r-help-es@r-project.org> > > Subject: [R-es] Muestreo de bases de datos.- > > Message-ID: > > <CALCOUqu7nKupKdc47Q2ixvsfGVqAdOhgdLmNMfc8JvTS7hqX+Q@ > > mail.gmail.com> > > Content-Type: text/plain; charset="UTF-8" > > > > �Hola! > > > > Mi duda surge por la siguiente an�cdota: un amigo (empleado de una > > enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba a > > ejecutar las rutinas que hab�a traducido de SAS a R y luego de intentar > > ejecutarlas nada le funcion� porque, ingenuamente, quer�a hacer cosas > para > > las cuales R no est� dise�ado (operaciones en la base de datos) y porque > ley� > > TODOS los datos de una consulta (millones de registros) e intent� correr > > alg�n procedimiento (!). Me dijo que SAS corre todo lo que �l necesita y > pues > > qued� tristemente decepcionado. > > > > Yo le dije que es corriente tomar una muestra de los datos para calibrar > los > > modelos que se van a necesitar y que no es necesario utilizar los > millones de > > registros enteros. Esto me hizo pensar �existen normas o buenas pr�cticas > > para el muestreo de las bases de datos?�existen normativas?�lineamientos? > > Es claro que mi primera respuesta ser�a ocupar los m�todos ya > desarrollados > > para encuestas, pero qui�n sabe. > > > > Si existen: �tienen su contraparte en R? > > > > Gracias y disculpen las molestias. > > > > �Salud! > > > > -- > > �No soy aquellas sombras tutelares > > que honr� con versos que no olvida el tiempo.� > > > > JL Borges > > > > [[alternative HTML version deleted]] > > > > > > > > ------------------------------ > > > > Message: 2 > > Date: Mon, 4 May 2015 20:35:28 +0200 > > From: "Carlos J. Gil Bellosta " <c...@datanalytics.com> > > To: Freddy Omar L�pez Quintero <freddy.vat...@gmail.com> > > Cc: "r-help-es@r-project.org" <r-help-es@r-project.org> > > Subject: Re: [R-es] Muestreo de bases de datos.- > > Message-ID: > > <CADg83efiwWEdwA6dyR4RUkwB5Qc5evOAmdLfBeg+yO0GngL0Aw > > @mail.gmail.com> > > Content-Type: text/plain; charset=UTF-8 > > > > Hola, �qu� tal? > > > > La mejor manera de muestrear una tabla en una base de datos es a trav�s > > del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si > no, a > > trav�s del m�dulo de un hash de alg�n identificador similar. Este > > procedimiento tiene la ventaja de ser repetible: > > consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de > > tama�o similar completamente distinta de la anterior. El filtro se hace > en el > > where de la consulta a la base de datos (y la sintaxis cambia de una a > otra). > > > > Si los datos son grandes y est�n en una base de datos, es mejor > manipularlos > > dentro de ella previamente enviando consultas SQL desde R y solo > descargar > > los datos (debidamente filtrados y muestreados, es decir, peque�os y/o > > manejables) al final. > > > > Un saludo, > > > > Carlos J. Gil Bellosta > > http://www.datanalytics.com > > > > > > > > El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero > > <freddy.vat...@gmail.com> escribi�: > > > �Hola! > > > > > > Mi duda surge por la siguiente an�cdota: un amigo (empleado de una > > > enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba > > > a ejecutar las rutinas que hab�a traducido de SAS a R y luego de > > > intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a > > > hacer cosas para las cuales R no est� dise�ado (operaciones en la base > > > de datos) y porque ley� TODOS los datos de una consulta (millones de > > > registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS > > > corre todo lo que �l necesita y pues qued� tristemente decepcionado. > > > > > > Yo le dije que es corriente tomar una muestra de los datos para > > > calibrar los modelos que se van a necesitar y que no es necesario > > > utilizar los millones de registros enteros. Esto me hizo pensar > > > �existen normas o buenas pr�cticas para el muestreo de las bases de > > > datos?�existen normativas?�lineamientos? Es claro que mi primera > > > respuesta ser�a ocupar los m�todos ya desarrollados para encuestas, > pero > > qui�n sabe. > > > > > > Si existen: �tienen su contraparte en R? > > > > > > Gracias y disculpen las molestias. > > > > > > �Salud! > > > > > > -- > > > �No soy aquellas sombras tutelares > > > que honr� con versos que no olvida el tiempo.� > > > > > > JL Borges > > > > > > [[alternative HTML version deleted]] > > > > > > _______________________________________________ > > > R-help-es mailing list > > > R-help-es@r-project.org > > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > > > > ------------------------------ > > > > Message: 3 > > Date: Mon, 4 May 2015 19:32:14 +0000 > > From: <javier.ruben.marcu...@gmail.com> > > To: "=?utf-8?Q?Carlos_J._Gil_Bellosta?=" <c...@datanalytics.com>, > > Freddy L�pez <freddy.vat...@gmail.com> > > Cc: "=?utf-8?Q?R-help-es@r-project.org?=" <r-help-es@r-project.org> > > Subject: Re: [R-es] Muestreo de bases de datos.- > > Message-ID: <5547cad4.48958c0a.7228.2...@mx.google.com> > > Content-Type: text/plain; charset="UTF-8" > > > > Estimado Freddy L�pez > > > > > > Yo estoy de acuerdo con Carlos Gil Bellosta, no se si es apropiado para > > millones del registros como los que usted comenta, pero R tiene sqldf, > que > > b�sicamente usa sqlite, esto posibilita usar una base de datos dentro de > R sin > > tener que preocuparnos demasiado, otra forma es utilizar data.table en > lugar > > de data.frame, dplyr, posiblemente su amigo no migro correctamente de SAS > > a R (aunque tome con cuidado esto �ltimo, yo nunca use SAS). > > > > > > Javier Rub�n Marcuzzi > > > > > > > > > > > > De: Carlos J. Gil Bellosta > > Enviado el: ?lunes?, ?04? de ?mayo? de ?2015 ?03?:?35? ?p.m. > > Para: Freddy L�pez > > CC: R-help-es@r-project.org > > > > > > > > > > > > Hola, �qu� tal? > > > > La mejor manera de muestrear una tabla en una base de datos es a trav�s > > del m�dulo de alg�n valor (t�picamente autonum�rico), como los ids. Si > no, a > > trav�s del m�dulo de un hash de alg�n identificador similar. Este > > procedimiento tiene la ventaja de ser repetible: > > consultas sucesivas pueden muestrear la misma subpoblaci�n u otra de > > tama�o similar completamente distinta de la anterior. El filtro se hace > en el > > where de la consulta a la base de datos (y la sintaxis cambia de una a > otra). > > > > Si los datos son grandes y est�n en una base de datos, es mejor > manipularlos > > dentro de ella previamente enviando consultas SQL desde R y solo > descargar > > los datos (debidamente filtrados y muestreados, es decir, peque�os y/o > > manejables) al final. > > > > Un saludo, > > > > Carlos J. Gil Bellosta > > http://www.datanalytics.com > > > > > > > > El d�a 4 de mayo de 2015, 20:15, Freddy Omar L�pez Quintero > > <freddy.vat...@gmail.com> escribi�: > > > �Hola! > > > > > > Mi duda surge por la siguiente an�cdota: un amigo (empleado de una > > > enorme consultora que tiene SAS) migr� a R y ansioso me cont� que iba > > > a ejecutar las rutinas que hab�a traducido de SAS a R y luego de > > > intentar ejecutarlas nada le funcion� porque, ingenuamente, quer�a > > > hacer cosas para las cuales R no est� dise�ado (operaciones en la base > > > de datos) y porque ley� TODOS los datos de una consulta (millones de > > > registros) e intent� correr alg�n procedimiento (!). Me dijo que SAS > > > corre todo lo que �l necesita y pues qued� tristemente decepcionado. > > > > > > Yo le dije que es corriente tomar una muestra de los datos para > > > calibrar los modelos que se van a necesitar y que no es necesario > > > utilizar los millones de registros enteros. Esto me hizo pensar > > > �existen normas o buenas pr�cticas para el muestreo de las bases de > > > datos?�existen normativas?�lineamientos? Es claro que mi primera > > > respuesta ser�a ocupar los m�todos ya desarrollados para encuestas, > pero > > qui�n sabe. > > > > > > Si existen: �tienen su contraparte en R? > > > > > > Gracias y disculpen las molestias. > > > > > > �Salud! > > > > > > -- > > > �No soy aquellas sombras tutelares > > > que honr� con versos que no olvida el tiempo.� > > > > > > JL Borges > > > > > > [[alternative HTML version deleted]] > > > > > > _______________________________________________ > > > R-help-es mailing list > > > R-help-es@r-project.org > > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > [[alternative HTML version deleted]] > > > > > > ------------------------------ > > > > Subject: Pi� de p�gina del digest > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > > ------------------------------ > > > > Fin de Resumen de R-help-es, Vol 75, Env�o 4 > > ******************************************** > > > Jones Lang LaSalle Arquitectura, SLU > Registration number: B-61888715 > Registered Office: P� de la Castellana, 51 - 5� ; 28046 Madrid > > > This e-mail is for the use of the intended recipient(s) only. If you have > received this e-mail in error, please notify the sender immediately and > then delete it. If you are not the intended recipient, you must not use, > disclose or distribute this e-mail without the author's prior permission. > We have taken precautions to minimise the risk of transmitting software > viruses, but we advise you to carry out your own virus checks on any > attachment to this message. We cannot accept liability for any loss or > damage caused by software viruses. If you are the intended recipient and > you do not wish to receive similar electronic messages from us in future > then please respond to the sender to this effect. > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] [[alternative HTML version deleted]]
_______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es