Mi matriz de datos inicial estaba muy desbalanceada (5% de la clase minoritaria), por lo que he creado con el algoritmo SMOTE un dataset balanceado con el que he creado el modelo, y luego sobre ese modelo he creado la matriz de confusi�n con los datos originales.
Respecto a lo que me comentas, Carlos, creo que adem�s de todo lo que comentas, que est� bien, en micaso es necesario tambi�n saber no s�lo que variable influye sino como influye, y esto en un randomForest es complejo, ya que es una caja negra. Por ello es por lo que buscaba la mejor manera, y una era medainte partialPlot y la otra mediante �rboles de clasificaci�n, pero esta segunda manera me empobrece el modelo. Un saludo Jes�s Date: Tue, 12 Apr 2016 11:01:16 +0200 Subject: Re: [R-es] Random Forest para clasificaci�n From: [email protected] To: [email protected] CC: [email protected] Hola, Entonces si tienes:La importancia de las variables (esto lo obtienes directamente con "importance").Tienes la matriz de confusi�n.Con esto tienes bastante informaci�n sobre la bondad de tu modelo y sobre qu� variables influyen m�s en tu variable objetivo.Lo �nico que veo que te har�a falta es determinar:La precisi�n utilizando cualquiera de las medidas de error que existen: Accuracy, Kappa, LogLoss, RSE, RMSE....Y quiz�s evaluar un poco m�s finamente tu modelo con un CV para ver con amplitud si es que no est�s haciendo overfitting.�Has hecho tu modelo directamente?. Quiero decir sin utilizar una parte para entrenar y otra parte para hacer "test". Saludos,Carlos. El 12 de abril de 2016, 10:39, Jes�s Para Fern�ndez <[email protected]> escribi�: No no, eso lo he sacaod, es decir, tengo la matriz de confusi�n para las OK/NOK, lo que no entiendo es como extraer las conclusiones sobre el modelo, de cara a como afectan las variables. He seguido dos estrategias: 1-Crear arboles de clasificacion con las variables m�s importantes del random Forest, pero el modelo se empobrece bastante. 2- Sacar los partialPlot, para ver la influencia de cada variable, pero no termino de entender el significado del eje Y para estos gr�ficos. Por lo que he visto, con tu aportaci�n primera, es que es el porcentaje de Votos OK/NOK, pero me queda la duda de saber si el 1 es el OK y el -1 el NOK o al rev�s. Gracias Carlos! Jes�s Date: Tue, 12 Apr 2016 10:28:44 +0200 Subject: Re: [R-es] Random Forest para clasificaci�n From: [email protected] To: [email protected] CC: [email protected] Hola, Entonces, por tu �ltima pregunta, tu duda no es realmente sobre el significado de "partialPlot" si no realmente si a la hora de hacer tu modelo, "randomForest" est� haciendo una buena o mala clasificaci�n. �Es as�?. Porque entonces lo que hay que aclarar es otra cosa. Si lo que quieres determinar con precisi�n es si cuando "randomForest" (o cualquier otro modelo) te est� indicando que un individuo (una fila) pertenece o no a una clase determinada (en tu caso "OK" o "KO") lo que tienes que plantearte son otras cosas. Antes de hablar de ellas, prefiero confirmar contigo si es esto lo que buscas o no. Saludos,Carlos Ortegawww.qualityexcellence.es El 12 de abril de 2016, 10:17, Jes�s Para Fern�ndez <[email protected]> escribi�: Gracias por la pronta respuesta, pero tras leer la contestaci�n de la gente, sigo sin entender muy bien la explicaci�n. Le responden lo siguiente: "Each point on the partial dependence plot is the average vote percentage in favor of the "Yes trees" class across all observations, given a fixed level of TRI. It's not a probability of correct classification. It has absolutely nothing to do with accuracy, true negatives, and true positives. When you see the phrase Values greater than TRI 30 begin to have a positive influence for classification in your model is an puffed-up way of saying Values greater than TRI 30 begin to predict "Yes trees" more strongly than values lower than TRI 30" Es decir, que el eje Y es el total de votos de una clase frente a la otra, pero como est� codificado con -1 y +1, como se cual es la clase OK y la NOK? Gracias Jes�s Date: Tue, 12 Apr 2016 10:04:15 +0200 Subject: Re: [R-es] Random Forest para clasificaci�n From: [email protected] To: [email protected] CC: [email protected] Hola, Aqu� tienes una explicaci�n: http://stats.stackexchange.com/questions/121383/interpreting-y-axis-of-a-partial-dependence-plots Saludos,Carlos Ortegawww.qualityexcellence.es El 12 de abril de 2016, 7:13, Jes�s Para Fern�ndez <[email protected]> escribi�: Buenas, Cuando estoy haciendo un random Forest para clasificaci�n y hago el gr�fico partialPlot, siendo mi respuesta OK/NOK, me sale en el eje X el valor de la variable, pero en el eje Y me salen valores de entre -1 y 1. �Qu� significado tiene? Adjunto un ejemplo: https://www.dropbox.com/s/4b92lqxi3592r0d/Captura.JPG?dl=0 Gracias!!! [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es -- Saludos, Carlos Ortega www.qualityexcellence.es -- Saludos, Carlos Ortega www.qualityexcellence.es -- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]]
_______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es
