Qué lindo participar desde la ventana de tu descubrimiento.

Te deseo que tengás un buen camino llevándolo adelante, por el bien de
tantos.

Hau idatzi du Manuel Mendoza (mmend...@fulbrightmail.org) erabiltzaileak
(2023 mai. 29(a), al. (11:19)):

> Gracias Carlos e Isidro, finalmente utilicé el propio XgBoost para
> seleccionar las variables con las que hacer el RF. Había 47, de las casi
> 55.000, que mostraban una ganancia superior que el resto, así que hice el
> RF con esas sin problema. La idea original era aplicar RF para seleccionar
> las variables más importantes por su contribución a la predicción,
> utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas
> 47. Resultó que con tan solo 5 genes puedo predecir la malignidad de
> tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo
> interesante.
> Gracias de nuevo,
> Manuel
>
> El dom, 28 may 2023 a las 21:58, Carlos Ortega (<c...@qualityexcellence.es
> >)
> escribió:
>
> > Hola Manuel,
> >
> > "ranger" paraleliza de forma automática, usando todos los cores que
> > tienes. Está bastante optimizado...
> >
> > El que se quede sin memoria, puede tener que ver, tanto por el número de
> > columnas que comentas, como que alguna de tus variables (o varias) si es
> > categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar
> > mucho ("ranger" hace un one-hot interno).
> >
> > Y si el problema son las columnas. ¿Tienes que usar todas las columnas?.
> > Puedes plantearte alguna alternativa para seleccionar las variables
> > importantes. El paquete "Boruta" es uno de ellos, pero también puedes
> hacer
> > diferentes modelos en modo "boostrap" seleccionado diferentes columnas
> para
> > ver con cuáles quedarte al final.
> >
> > Y otra alternativa cuando tienes problemas de memoria, es usar H2O....
> > Gestiona muy bien la memoria.
> >
> > Gracias,
> > Carlos.
> >
> > El dom, 28 may 2023 a las 13:29, Manuel Mendoza (<
> > mmend...@fulbrightmail.org>) escribió:
> >
> >> Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
> >> columnas y me quedo sin memoria. He probado con randomForest y con
> ranger,
> >> y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea
> >> comprarse
> >> un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de
> 2000
> >> veces  (unas 16 horas), para optimizar los hiperparámetros con una
> rejilla
> >> de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay
> >> forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier
> >> otra solución sería buena, claro.
> >> Gracias,
> >> Manuel
> >>
> >>         [[alternative HTML version deleted]]
> >>
> >> _______________________________________________
> >> R-help-es mailing list
> >> R-help-es@r-project.org
> >> https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>
> >
> >
> > --
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
> >
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Juan Abasolo, PhD

Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
Bilboko Hezkuntza Fakultatea
Euskal Herriko Unibertsitatea UPV/EHU

Sarriena auzoa z/g 48940 - Leioa (Bizkaia)

T       : (+34) 94 601 7567
Telegram: @JuanAbasolo
Skype   : abasolo72
Bloga   : juanabasolo.netlify.com

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a