Re: [R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Jorge I Velez Wed, 26 Nov 2014 03:54:53 -0800

Coincido con el Prof. Di Rienzo.

A proposito, esta consulta me recuerda


R> require(fortunes)
R> fortune('brain')

I wish to perform brain surgery this afternoon at 4pm and don't know where
to
start. My background is the history of great statistician sports legends
but I
am willing to learn. I know there are courses and numerous books on brain
surgery but I don't have the time for those. Please direct me to the
appropriate HowTos, and be on standby for solving any problem I may
encounter
while in the operating room. Some of you might ask for specifics of the
case,
but that would require my following the posting guide and spending even more
time than I am already taking to write this note.
   -- I. Ben Fooled (aka Frank Harrell)
      R-help (April 1, 2005)

Saludos,
Jorge.-



2014-11-26 22:34 GMT+11:00 Julio Alejandro Di Rienzo <
[email protected]>:

> CREO QUE ESTE TIPO DE CONSULTA, EXCEDE EL PROP�SITO DE ESTE FORO.
>
>
>
>
> El mi�rcoles, 26 de noviembre de 2014, Daniel Carrillo Zapata <
> [email protected]> escribi�:
>
> >      Hola Isidro,
> >
> >      mira, te explico mejor: tengo una base de datos con informaci�n de
> > 10 conductores en un recorrido de 30 minutos en coche. Para cada
> > conductor, se le midi� par�metros biom�dicos como la temperatura
> > corporal, su electrocardiograma, etc., durante todo el recorrido; en
> > total 22 par�metros.
> >
> >      Mi objetivo principal es poder determinar, dados dichos par�metros,
> > los distintos estados en los que puede estar un conductor a lo largo del
> > recorrido. Sin embargo, mi conjunto de datos no est� etiquedo, es decir,
> > no s� a priori la variable de respuesta, el estado del conductor, para
> > cada combinaci�n; tengo que descubrirla.
> >
> >      Lo que quer�a hacer es, primero, transformar los par�metros porque
> > suele ser recomendado para no tener overfitting y reducir la dimensi�n
> > de los datos. Para ello, quiero probar dos t�cnicas: ICA y PCA.
> >
> >      Tras esto, pensaba probar distintos algoritmos de clustering para
> > ver c�mo agrupan los datos. Con cada uno, puedo obtener la bondad con la
> > que asignan un elemento a un cluster con, por ejemplo, el silhouette
> > coefficient, o alg�n otro �ndice interno/externo. Con cada algoritmo de
> > clustering que pruebe, etiquetar� mis datos de entrenamiento
> > asign�ndoles un cluster (que luego m�s adelante intentar� darle una
> > explicaci�n sem�ntica del estado que representa).
> >
> >      Por cada conjunto resultado (ahora, etiquetado) de aplicar una
> > t�cnica de extracci�n de caracter�sticas y otro de clustering, quiero
> > probar distintos clasificadores, para ver c�mo se comportan con esa
> > agrupaci�n. Por tanto, obtendr� varios errores asociados a clasificaci�n
> > porqu� har� cross-validation.
> >
> >      De esta forma, si pruebo 2 algoritmos de extracci�n de
> > caracter�sticas, 3 de clustering y 4 de clasificaci�n, tengo un
> > experimento factorial 2x3x4, �no?
> >
> >      Lo que me gustar�a obtener posteriormente es la mejor combinaci�n
> > de t�cnica de extracci�n de caracter�sticas, algoritmo de clustering y
> > clasificador, teniendo en cuenta los errores de clasificaci�n y cu�n
> > bien los algoritmos de clustering agrupan.
> >
> >      De ah�, mi duda es c�mo analizar los resultados, porque hab�a
> > pensado aplicar una ANOVA de 3 v�as con interacci�n, pero no s� si es
> > correcto. Adem�s, no s� si tendr�a sentido, porque tambi�n quiero tener
> > en cuenta la bondad del algoritmo de clustering, no solo los errores de
> > clasificaci�n. Es decir, necesitar�a analizar las parejas (muestras del
> > error de clasificaci�n, bondad del clustering) para cada combinaci�n de
> > algoritmo de extracci�n de caracter�sticas, algoritmo de clustering y
> > algoritmo de clasificaci�n.
> >
> >      Espero que te haya aclarado :)
> >
> >      Muchas gracias.
> >
> >      Un saludo,
> >      DANI
> >
> >
> > On 26/11/14 01:02, Isidro Hidalgo Arellano wrote:
> > > Hola, Daniel:
> > > Quiz� deber�as ser m�s expl�cito porque de la informaci�n que
> > > suministras yo solo te puedo decir que no veo la relaci�n entre los 3
> > > tipos de algoritmos que nombras:
> > > - un an�lisis de componentes principales puede ser una fase previa de
> > > los otros dos
> > > - hacer un cluster es un tipo de aprendizaje no supervisado, mientras
> > > que un clasificador normalmente es utilizado en aprendizaje
> > > supervisado, porque se modeliza conociendo la variable dependiente
> > > Por ello, no veo c�mo montar un ANOVA para analizar 3 procedimientos
> > > que a m� me parece que se utilizan para cosas completamente
> diferentes...
> > > Me imagino que no he sido de mucha ayuda, pero... �por qu� no nos
> > > dices exactamente que quieres hacer, a ver si te podemos ayudar algo
> m�s?
> > > Un saludo,
> > > Isidro Hidalgo
> > >
> > >
> > >
> > > > El 25/11/2014, a las 22:09, Daniel Carrillo Zapata escribi�:
> > > >
> > > >
> > > >
> > > > Hola compa�eros
> > > >
> > > > Soy Daniel Carrillo, y os escribo porque me ha surgido una duda
> > > sobre si
> > > > puedo tratar algoritmos de clustering como un factor en un
> experimento.
> > > > Concretamente, tengo un conjunto de datos sin etiquetar, y quiero
> > > probar
> > > > los siguientes algoritmos sobre �l:
> > > >
> > > > 1) Extracci�n de caracter�sticas por PCA y por ICA.
> > > > 2) Una vez tenga extra�das las caracter�sticas, para cada uno de
> > > > los dos conjuntos transformados quisiera probar 3 diferentes
> algoritmos
> > > > de clustering: k-medoids, EM y hierachical clustering.
> > > > 3) Por �ltimo, para cada conjunto etiquetado quisiera probar 4 � 5
> > > > clasificadores.
> > > >
> > > > Como se puede ver, estoy dise�ando un experimento factorial para
> > > > encontrar el mejor clasificador bas�ndome en probar diferentes
> t�cnicas
> > > > de extracci�n de caracter�sticas, clustering y clasificaci�n.
> > > >
> > > > Mi objetivo final es entrenar al mejor clasificador bas�ndome en el
> > > > mejor algoritmo de clustering, de clasificaci�n y de extracci�n de
> > > > caracter�sticas para que etiquete futuros datos.
> > > >
> > > > Sin embargo, me han surgido dudas de c�mo analizar los resultados, y
> es
> > > > que no s� si se puede aplicar una ANOVA de 3 v�as con interacci�n,
> > > > siendo los 3 factores el algoritmo de extracci�n de caracter�sticas,
> > > > algoritmo de clustering y algoritmo de clasificaci�n. Mis preguntas
> por
> > > > tanto son:
> > > >
> > > > 1) �Tiene sentido aplicar ANOVA de 3 v�as con interacci�n?
> > > > 2) Si no, �cu�l ser�a la mejor manera de analizar los resultados
> > > > del experimento?
> > > > 3) �Hay alguna forma de seleccionar al mejor clasificador teniendo
> > > > en cuenta los errores de clasificaci�n y cu�n bien el algoritmo de
> > > > clustering agrupa los datos (por ejemplo, comparando los "silhouette
> > > > coefficients")?, porque pienso que esto lo deber�a tener en cuenta
> > > tambi�n.
> > > >
> > > > Mis dudas vienen suscitadas por el hecho de que pienso que los
> > > > algoritmos de clasificaci�n son totalmente dependientes del los de
> > > > clustering (que les etiqueta los datos).
> > > >
> > > > Conf�o en vuestra experiencia para que me aport�is un rayo de luz en
> > > esto
> > > >
> > > > �Much�simas gracias!
> > > >
> > > > Un saludo,
> > > > DANI
> > > >
> > > > _______________________________________________
> > > > R-help-es mailing list
> > > > [email protected] <javascript:;>
> > > > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
> >
> >         [[alternative HTML version deleted]]
> >
> > _______________________________________________
> > R-help-es mailing list
> > [email protected] <javascript:;>
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
>
>
> --
> Sent from my IPAD
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> [email protected]
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] Duda sobre cómo analizar un experimento factorial con algoritmos de extracción de características, clustering y clasificación como factores

Responder a