Voy a investigar mas el forestFloor, seguramente vuelva en un par de d�as con dudas. Gracias chicos :)
Por cierto, Carlos, �c�mo haces para encontrar siempre la informaci�n necesaria en tan poco tiempo? Date: Tue, 12 Apr 2016 12:00:42 +0200 Subject: Re: [R-es] Random Forest para clasificaci�n From: [email protected] To: [email protected] CC: [email protected] Hola, Si lees estas referencias puedes entender mejor las dificultades y limitaciones que presentan los "partialPlot" para determinar su contribuci�n al modelo que has construido:http://stats.stackexchange.com/questions/21152/obtaining-knowledge-from-a-random-forest#172839 http://stats.stackexchange.com/questions/92150/r-what-do-i-see-in-partial-dependence-plots-of-gbm-and-randomforestEn ellas aparece la referencia a este otro paquete "forestFloor":https://cloud.r-project.org/web/packages/forestFloor/index.html Que s� que te puede ayudar a entender de forma visual, las relaciones/interrelaciones que existen entre la variable que quieres analizar y el resto de tu modelo. Por otro lado, comentarte que mi experiencia con SMOTE (est� en el paquete DMwR) o con sus equivalentes de "caret" (upSample() - downSample() ) tienden a crear un overfit en el modelo. Para el nivel de desbalanceo que tienes. Valores de menos del 1% en tu variable son cuando s� que cuando interesa aplicarlo. Una alternativa es usar las funciones de coste incluyendo valores inversamente proporcionales a la frecuencia de cada caso (variable predictora). Saludos,Carlos. El 12 de abril de 2016, 11:33, Jes�s Para Fern�ndez <[email protected]> escribi�: Mi matriz de datos inicial estaba muy desbalanceada (5% de la clase minoritaria), por lo que he creado con el algoritmo SMOTE un dataset balanceado con el que he creado el modelo, y luego sobre ese modelo he creado la matriz de confusi�n con los datos originales. Respecto a lo que me comentas, Carlos, creo que adem�s de todo lo que comentas, que est� bien, en micaso es necesario tambi�n saber no s�lo que variable influye sino como influye, y esto en un randomForest es complejo, ya que es una caja negra. Por ello es por lo que buscaba la mejor manera, y una era medainte partialPlot y la otra mediante �rboles de clasificaci�n, pero esta segunda manera me empobrece el modelo. Un saludo Jes�s Date: Tue, 12 Apr 2016 11:01:16 +0200 Subject: Re: [R-es] Random Forest para clasificaci�n From: [email protected] To: [email protected] CC: [email protected] Hola, Entonces si tienes:La importancia de las variables (esto lo obtienes directamente con "importance").Tienes la matriz de confusi�n.Con esto tienes bastante informaci�n sobre la bondad de tu modelo y sobre qu� variables influyen m�s en tu variable objetivo.Lo �nico que veo que te har�a falta es determinar:La precisi�n utilizando cualquiera de las medidas de error que existen: Accuracy, Kappa, LogLoss, RSE, RMSE....Y quiz�s evaluar un poco m�s finamente tu modelo con un CV para ver con amplitud si es que no est�s haciendo overfitting.�Has hecho tu modelo directamente?. Quiero decir sin utilizar una parte para entrenar y otra parte para hacer "test". Saludos,Carlos. El 12 de abril de 2016, 10:39, Jes�s Para Fern�ndez <[email protected]> escribi�: No no, eso lo he sacaod, es decir, tengo la matriz de confusi�n para las OK/NOK, lo que no entiendo es como extraer las conclusiones sobre el modelo, de cara a como afectan las variables. He seguido dos estrategias: 1-Crear arboles de clasificacion con las variables m�s importantes del random Forest, pero el modelo se empobrece bastante. 2- Sacar los partialPlot, para ver la influencia de cada variable, pero no termino de entender el significado del eje Y para estos gr�ficos. Por lo que he visto, con tu aportaci�n primera, es que es el porcentaje de Votos OK/NOK, pero me queda la duda de saber si el 1 es el OK y el -1 el NOK o al rev�s. Gracias Carlos! Jes�s Date: Tue, 12 Apr 2016 10:28:44 +0200 Subject: Re: [R-es] Random Forest para clasificaci�n From: [email protected] To: [email protected] CC: [email protected] Hola, Entonces, por tu �ltima pregunta, tu duda no es realmente sobre el significado de "partialPlot" si no realmente si a la hora de hacer tu modelo, "randomForest" est� haciendo una buena o mala clasificaci�n. �Es as�?. Porque entonces lo que hay que aclarar es otra cosa. Si lo que quieres determinar con precisi�n es si cuando "randomForest" (o cualquier otro modelo) te est� indicando que un individuo (una fila) pertenece o no a una clase determinada (en tu caso "OK" o "KO") lo que tienes que plantearte son otras cosas. Antes de hablar de ellas, prefiero confirmar contigo si es esto lo que buscas o no. Saludos,Carlos Ortegawww.qualityexcellence.es El 12 de abril de 2016, 10:17, Jes�s Para Fern�ndez <[email protected]> escribi�: Gracias por la pronta respuesta, pero tras leer la contestaci�n de la gente, sigo sin entender muy bien la explicaci�n. Le responden lo siguiente: "Each point on the partial dependence plot is the average vote percentage in favor of the "Yes trees" class across all observations, given a fixed level of TRI. It's not a probability of correct classification. It has absolutely nothing to do with accuracy, true negatives, and true positives. When you see the phrase Values greater than TRI 30 begin to have a positive influence for classification in your model is an puffed-up way of saying Values greater than TRI 30 begin to predict "Yes trees" more strongly than values lower than TRI 30" Es decir, que el eje Y es el total de votos de una clase frente a la otra, pero como est� codificado con -1 y +1, como se cual es la clase OK y la NOK? Gracias Jes�s Date: Tue, 12 Apr 2016 10:04:15 +0200 Subject: Re: [R-es] Random Forest para clasificaci�n From: [email protected] To: [email protected] CC: [email protected] Hola, Aqu� tienes una explicaci�n: http://stats.stackexchange.com/questions/121383/interpreting-y-axis-of-a-partial-dependence-plots Saludos,Carlos Ortegawww.qualityexcellence.es El 12 de abril de 2016, 7:13, Jes�s Para Fern�ndez <[email protected]> escribi�: Buenas, Cuando estoy haciendo un random Forest para clasificaci�n y hago el gr�fico partialPlot, siendo mi respuesta OK/NOK, me sale en el eje X el valor de la variable, pero en el eje Y me salen valores de entre -1 y 1. �Qu� significado tiene? Adjunto un ejemplo: https://www.dropbox.com/s/4b92lqxi3592r0d/Captura.JPG?dl=0 Gracias!!! [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es -- Saludos, Carlos Ortega www.qualityexcellence.es -- Saludos, Carlos Ortega www.qualityexcellence.es -- Saludos, Carlos Ortega www.qualityexcellence.es -- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
_______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es
