Estimado Manuel Mendoza Puede ser que a usted no le sea de utilidad, pero cuándo nombran genes y evalúan, yo siempre de acuerdo del libro Introducción a la Genética Cuantitativa, de Falconer. Digo esto porque la expresión que usted nombra puede ser por deriva genética y no por un efecto real del gen.
Un abrazo Javier Rubén Marcuzzi > El 29 may. 2023, a las 06:18, Manuel Mendoza <mmend...@fulbrightmail.org> > escribió: > > Gracias Carlos e Isidro, finalmente utilicé el propio XgBoost para > seleccionar las variables con las que hacer el RF. Había 47, de las casi > 55.000, que mostraban una ganancia superior que el resto, así que hice el > RF con esas sin problema. La idea original era aplicar RF para seleccionar > las variables más importantes por su contribución a la predicción, > utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas > 47. Resultó que con tan solo 5 genes puedo predecir la malignidad de > tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo > interesante. > Gracias de nuevo, > Manuel > > El dom, 28 may 2023 a las 21:58, Carlos Ortega (<c...@qualityexcellence.es>) > escribió: > >> Hola Manuel, >> >> "ranger" paraleliza de forma automática, usando todos los cores que >> tienes. Está bastante optimizado... >> >> El que se quede sin memoria, puede tener que ver, tanto por el número de >> columnas que comentas, como que alguna de tus variables (o varias) si es >> categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar >> mucho ("ranger" hace un one-hot interno). >> >> Y si el problema son las columnas. ¿Tienes que usar todas las columnas?. >> Puedes plantearte alguna alternativa para seleccionar las variables >> importantes. El paquete "Boruta" es uno de ellos, pero también puedes hacer >> diferentes modelos en modo "boostrap" seleccionado diferentes columnas para >> ver con cuáles quedarte al final. >> >> Y otra alternativa cuando tienes problemas de memoria, es usar H2O.... >> Gestiona muy bien la memoria. >> >> Gracias, >> Carlos. >> >> El dom, 28 may 2023 a las 13:29, Manuel Mendoza (< >> mmend...@fulbrightmail.org>) escribió: >> >>> Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973 >>> columnas y me quedo sin memoria. He probado con randomForest y con ranger, >>> y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea >>> comprarse >>> un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de 2000 >>> veces (unas 16 horas), para optimizar los hiperparámetros con una rejilla >>> de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay >>> forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier >>> otra solución sería buena, claro. >>> Gracias, >>> Manuel >>> >>> [[alternative HTML version deleted]] >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es@r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> >> >> -- >> Saludos, >> Carlos Ortega >> www.qualityexcellence.es >> > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es