Re: [R-es] SVM hadoop

Jorge Ayuso Rejas Fri, 11 Dec 2015 00:50:48 -0800

Hola Mª Luz,

Te cuento un poco mi visión:


Lo primero de todo es tener claro qué quiero hacer exactamente en paralelo,
se me ocurren 3 escenarios:

(1)  Aplicar un modelo en este caso SVM sobre unos datos muy grandes y por
eso necesito hadoop/spark
(2)  Realizar muchos modelos SVM sobre datos pequeños (por ejemplo uno por
usuario)  y por eso necesito hadoop/spark para parelilizar estos procesos
en muchas máquinas y acabar en un tiempo finito.
(3)  Con un modelo ya realizado en local sobre una muestra quiero hacer
predicciones "predict" sobre muchos datos y por eso necestio hadoop/spark
para hacer las predicciones ne paralelo.


Posibles soluciones:

(1) Lo más complicado de los 3 escenarios. Lo primero de todo es pensar si
con una muestra suficientemente grande y un único ordenador potente (32gb
64gb?) te puede valer. Si es el caso puedes usar R y cualquier paquete que
incluya SVM. Si esto no te vale y quieres hacerlo sobre el total de los
datos (En mi opinión esto no garantiza que vayas a conseguir mejores
resultados..). Por lo que estuve investigando (si me equivoco que alguien
me corrija!) los SVM no son de lo mejorcito para paralelizar, Spark como
comentó Carlos tiene implementado SVM lineal pero hoy por hoy no lo podrás
ejecutar desde R (si desde python). Otras opciones que te recomiendo es
probar con otros algoritmos, mira por ejemplo h2o (http://h2o.ai/)


(2) Con esto te vale perfectamente RHADOOP y cualquier svm implementado en
R ya que cada svm es 'pequeño' solo que tienes que hacer muchos

(3) Lo mismo que (2) puedes te vale con RHADOOP y hacer `predict` en
paralelo.


Un saludo,
Jorge A.










El 11 de diciembre de 2015, 8:49, MªLuz Morales <[email protected]>
escribió:

> Hola,
> cuando hablas de la opción Rstudio en Amazon, te refieres mediante hadoop?
> (esa es la idea que tengo, usar R con hadoop en amazon, pero necesito que
> el algoritmo svm sea paralelizable...
>
> Esto otro que mencionas:
> http://www.teraproc.com/front-page-posts/r-on-demand/
> que entorno de paralelización usa? conozco hadoop y spark,
>
>
> Gracias
> Un saludo
>
>
> El 10 de diciembre de 2015, 16:03, Carlos Ortega <[email protected]
> >
> escribió:
>
> > Hola,
> >
> > Puedes poner un RStudio en Amazon, poner "caret" y a correr....
> > No sé si tendrás suficiente con lo que te pueda ofrecer Amazon para tu
> > problema... creo que sí...  ;-)....
> >
> > O directamente hacerlo aquí, que toda esta instalación ya la tienen
> hecha:
> >
> > http://www.teraproc.com/front-page-posts/r-on-demand/
> >
> > Gracias,
> > Carlos.
> >
> > El 10 de diciembre de 2015, 14:43, MªLuz Morales <[email protected]>
> > escribió:
> >
> >> Hola,
> >>
> >> gracias por tu sugerencia, aunque creo que no será suficiente porque mi
> >> objetivo es trabajar con big data
> >>
> >> El 10 de diciembre de 2015, 13:23, Carlos Ortega <
> >> [email protected]> escribió:
> >>
> >>> Hola,
> >>>
> >>> ¿Y no te valdría el ejecutar tu código con "caret" y activar la opción
> >>> de paralelizar?.
> >>> El escenario "caret + paralelización + svm" funciona sin problemas.
> >>>
> >>> Adjunto una captura de pantalla del libro de "Kuhn" (Applied Predictive
> >>> Modeling) con los tiempos de ejecución que se obtienen al ejecutar
> >>> diferentes modelos (SVM, RF, LDA) sobre un mismo conjunto de datos y
> >>> utiilzando diferente número de "cores".
> >>>
> >>> Gracias,
> >>> Carlos Ortega
> >>> www.qualityexcellence.es
> >>>
> >>> El 10 de diciembre de 2015, 11:56, MªLuz Morales <[email protected]>
> >>> escribió:
> >>>
> >>>> Hola,
> >>>> gracias por vuestras respuestas anteriores.  Son interesantes aunque
> me
> >>>> han
> >>>> surgido algunas dudas. Por ejemplo, con respecto al paquete e1071. En
> >>>> este
> >>>> enlace parece que si lo usan para hacer máquina de soporte vector en
> >>>> hadoop.
> >>>>
> >>>>
> http://stackoverflow.com/questions/17731261/r-hadoop-rmr2-svm-model-conver-result-list-class-to-original-class-sv?rq=1
> >>>>
> >>>> Carlos, por qué decías que no correrán en paralelo los svm del paquete
> >>>> e1071??
> >>>>
> >>>> Gracias
> >>>> Un saludo
> >>>> MªLuz
> >>>>
> >>>> El 10 de diciembre de 2015, 2:35, Javier Marcuzzi <
> >>>> [email protected]> escribió:
> >>>>
> >>>> > Estimados
> >>>> >
> >>>> >
> >>>> >
> >>>> > Un día leí algo en el siguiente hipervínculo, pero nunca lo use.
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>>
> http://blog.revolutionanalytics.com/2015/06/using-hadoop-with-r-it-depends.html
> >>>> >
> >>>> >
> >>>> >
> >>>> > Javier Rubén Marcuzzi
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> > *De: *Carlos J. Gil Bellosta
> >>>> > *Enviado: *miércoles, 9 de diciembre de 2015 14:33
> >>>> > *Para: *MªLuz Morales
> >>>> > *CC: *r-help-es
> >>>> > *Asunto: *Re: [R-es] SVM hadoop
> >>>>
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> > No, no correrán en paralelo si usas los SVM de paquetes como e1071.
> >>>> >
> >>>> >
> >>>> >
> >>>> > No obstante, tienes, por un lado, los trucos habituales para hacer
> >>>> algo
> >>>> >
> >>>> > "parecido" a SVM o "basado" en SVM pero que no sea SVM. Si es que
> eso
> >>>> te
> >>>> >
> >>>> > vale.
> >>>> >
> >>>> >
> >>>> >
> >>>> > Puedes probar a hacerlo con mllib (sobre Spark), como aquí
> >>>> >
> >>>> > <
> >>>> >
> >>>>
> http://spark.apache.org/docs/latest/mllib-linear-methods.html#linear-support-vector-machines-svms
> >>>> > >.
> >>>> >
> >>>> > ¡Pero no lo he probado nunca!
> >>>> >
> >>>> >
> >>>> >
> >>>> > Un saludo,
> >>>> >
> >>>> >
> >>>> >
> >>>> > Carlos J. Gil Bellosta
> >>>> >
> >>>> > http://www.datanalytics.com
> >>>> >
> >>>> >
> >>>> >
> >>>> > El 9 de diciembre de 2015, 13:15, MªLuz Morales <[email protected]>
> >>>> >
> >>>> > escribió:
> >>>> >
> >>>> >
> >>>> >
> >>>> > > Buenos días,
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > alguien sabe si hay alguna manera de implementar una máquina de
> >>>> soporte
> >>>> >
> >>>> > > vectorial (svm) con R-hadoop??
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > Mi interés es hacer procesamiento big data con svm. Se que en R,
> >>>> existen
> >>>> >
> >>>> > > los paquetes {RtextTools} y {e1071} que permiten hacer svm. Pero
> no
> >>>> estoy
> >>>> >
> >>>> > > segura de que el algoritmo sea paralelizable, es decir, que pueda
> >>>> correr
> >>>> > en
> >>>> >
> >>>> > > paralelo a través de la plataforma R-hadoop.
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > Muchas gracias
> >>>> >
> >>>> > > Un saludo
> >>>> >
> >>>> > > MªLuz Morales
> >>>> >
> >>>> > >
> >>>> >
> >>>> > >         [[alternative HTML version deleted]]
> >>>> >
> >>>> > >
> >>>> >
> >>>> > > _______________________________________________
> >>>> >
> >>>> > > R-help-es mailing list
> >>>> >
> >>>> > > [email protected]
> >>>> >
> >>>> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>>> >
> >>>> > >
> >>>> >
> >>>> >
> >>>> >
> >>>> >                 [[alternative HTML version deleted]]
> >>>> >
> >>>> >
> >>>> >
> >>>> > _______________________________________________
> >>>> >
> >>>> > R-help-es mailing list
> >>>> >
> >>>> > [email protected]
> >>>> >
> >>>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>> >
> >>>>
> >>>>         [[alternative HTML version deleted]]
> >>>>
> >>>> _______________________________________________
> >>>> R-help-es mailing list
> >>>> [email protected]
> >>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>>>
> >>>
> >>>
> >>>
> >>> --
> >>> Saludos,
> >>> Carlos Ortega
> >>> www.qualityexcellence.es
> >>>
> >>
> >>
> >
> >
> > --
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
> >
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> [email protected]
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Jorge Ayuso Rejas

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] SVM hadoop

Responder a