Qué lindo participar desde la ventana de tu descubrimiento. Te deseo que tengás un buen camino llevándolo adelante, por el bien de tantos.
Hau idatzi du Manuel Mendoza (mmend...@fulbrightmail.org) erabiltzaileak (2023 mai. 29(a), al. (11:19)): > Gracias Carlos e Isidro, finalmente utilicé el propio XgBoost para > seleccionar las variables con las que hacer el RF. Había 47, de las casi > 55.000, que mostraban una ganancia superior que el resto, así que hice el > RF con esas sin problema. La idea original era aplicar RF para seleccionar > las variables más importantes por su contribución a la predicción, > utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas > 47. Resultó que con tan solo 5 genes puedo predecir la malignidad de > tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo > interesante. > Gracias de nuevo, > Manuel > > El dom, 28 may 2023 a las 21:58, Carlos Ortega (<c...@qualityexcellence.es > >) > escribió: > > > Hola Manuel, > > > > "ranger" paraleliza de forma automática, usando todos los cores que > > tienes. Está bastante optimizado... > > > > El que se quede sin memoria, puede tener que ver, tanto por el número de > > columnas que comentas, como que alguna de tus variables (o varias) si es > > categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar > > mucho ("ranger" hace un one-hot interno). > > > > Y si el problema son las columnas. ¿Tienes que usar todas las columnas?. > > Puedes plantearte alguna alternativa para seleccionar las variables > > importantes. El paquete "Boruta" es uno de ellos, pero también puedes > hacer > > diferentes modelos en modo "boostrap" seleccionado diferentes columnas > para > > ver con cuáles quedarte al final. > > > > Y otra alternativa cuando tienes problemas de memoria, es usar H2O.... > > Gestiona muy bien la memoria. > > > > Gracias, > > Carlos. > > > > El dom, 28 may 2023 a las 13:29, Manuel Mendoza (< > > mmend...@fulbrightmail.org>) escribió: > > > >> Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973 > >> columnas y me quedo sin memoria. He probado con randomForest y con > ranger, > >> y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea > >> comprarse > >> un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de > 2000 > >> veces (unas 16 horas), para optimizar los hiperparámetros con una > rejilla > >> de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay > >> forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier > >> otra solución sería buena, claro. > >> Gracias, > >> Manuel > >> > >> [[alternative HTML version deleted]] > >> > >> _______________________________________________ > >> R-help-es mailing list > >> R-help-es@r-project.org > >> https://stat.ethz.ch/mailman/listinfo/r-help-es > >> > > > > > > -- > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es > > > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > -- Juan Abasolo, PhD Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea Bilboko Hezkuntza Fakultatea Euskal Herriko Unibertsitatea UPV/EHU Sarriena auzoa z/g 48940 - Leioa (Bizkaia) T : (+34) 94 601 7567 Telegram: @JuanAbasolo Skype : abasolo72 Bloga : juanabasolo.netlify.com [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es