Re: [R-es] Alto rendimiento

javier.ruben.marcuzzi Tue, 11 Oct 2016 07:45:52 -0700

Estimado Carlos Gil Bellosta

¿Cómo está usted? En estos lados de América del sur comienza la primavera, 
desde la ventana miro la parra contando las posibles uvas, siempre aparece un 
ave que se arrima a la ventana o incluso llegan hasta la computadora como si 
supiesen usarla.


Ahora en R.

En ese esquema un modelo lineal tendría que ir con mlib que es aportada por 
sparklyr, en ese caso tendría toda la capacidad de proceso, pero no en un ml 
tradicional como modelo <- lm (y ~ var1 + var2).

En otras palabras http://spark.rstudio.com/mllib.html aporta beneficios, pero 
lo que está por fuera correría como el R de CRAN con un hilo del procesador.

Los otros días vi el video de la charla, no me quedo claro si Microsoft 
optimiza las librerías de sus repositorios al compilarlas o solo las de su 
propiedad.

Javier Rubén Marcuzzi

De: Carlos J. Gil Bellosta 
Enviado: martes, 11 de octubre de 2016 10:59
Para: Javier Marcuzzi
CC: r-help-es
Asunto: Re: [R-es] Alto rendimiento

Hola, ¿qué tal?

Spark correría en tantos hilos como estuviese configurado a utilizar (con 
límite en los existentes). La promesa de sparklyr es que se trata de una mera 
interfaz que delega el procesamiento de datos en Spark. Spark paralelizaría 
(que de eso trata).

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com



El 11 de octubre de 2016, 15:55, <javier.ruben.marcu...@gmail.com> escribió:
Estimados

En el sitio de https://www.rstudio.com/  hay un aviso sobre 
http://spark.rstudio.com/index.html ( sparklyr ).

Microsoft publico un artículo donde comparan el R Server que está dentro de SQL 
server (o por separado, depende un poco), o el Microsoft R, junto con algunas 
librerías que se pueden compilar y obtener lo mismo en Ubuntu.

Supongamos que tengo el dinero como para comprar por ejemplo 
http://www.intel.la/content/www/xl/es/processors/xeon/xeon-processor-e7-family.html
 uno de estos procesadores con 36 núcleos.

Supongamos que tengo aún más dinero y puedo comprar 4 computadoras y colocarlas 
de tal forma que puedan trabajar en conjunto.

Ahora mi pregunta, spark (sparklyr) utiliza mis cuatro computadoras pero ¿un 
solo núcleo o los 36? (java usa solo un núcleo)

La parte de Microsoft utiliza los 36 procesadores, pero las librerías que están 
en los repositorios de Microsoft (no las de CRAN) ¿están optimizadas para los 
36 procesadores?

O solo hay partes en spark como mlib o lo específico de R Microsoft optimizado, 
que puedan utilizar todos los núcleos y/o procesadores. Por ejemplo MCMCglmm 
¿tiene beneficios en cualquiera de estas tecnologías o solo utiliza lo mismo 
que puede procesar en una portátil?

O si compro los cuatro equipos con 36 núcleos, instalo la versión de Microsoft 
junto con sparklyr y: ¿tengo una capacidad de cálculo impresionante, o esa 
capacidad es solo en sectores de R siendo el resto procesado en forma 
tradicional?

¿Hay comentarios al respecto desde la experiencia de alguno del grupo?

Javier Rubén Marcuzzi


        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es



        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] Alto rendimiento

Responder a