Otra alternativa para determinar el númbero de clústers... *NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set* http://www.jstatsoft.org/v61/i06
Saludos, Carlos Ortega www.qualityexcellence.es El 29 de abril de 2015, 19:56, Alva Valiente, Ricardo (RIAV) < r...@cajatrujillo.com.pe> escribió: > Buen aporte…excelente!! > > Atte. > Ricardo Alva Valiente > > > De: Jose Luis Cañadas Reche [mailto:canadasre...@gmail.com] > Enviado el: miércoles, 29 de abril de 2015 12:51 PM > Para: Alva Valiente, Ricardo (RIAV); 'javier.ruben.marcu...@gmail.com'; > R-help-es@r-project.org > Asunto: Re: [R-es] cantidad de datos > > Podrías hacer varios kmedias con diferente número de clusters y comprobar > como varía la suma de cuadrados entre cluster para "elegir" el número > óptimo. > > # Determine number of clusters > wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var)) > for (i in 2:15) wss[i] <- sum(kmeans(mydata, > centers=i)$withinss) > plot(1:15, wss, type="b", xlab="Number of Clusters", > ylab="Within groups sum of squares") > El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió: > > El inconveniente con un K-medias, es que se tiene que se tiene que pre > definir el número de segmentos, pero eso es algo con lo q no cuento. La > solución de Javier me parece q sería la única opción. > > > > Atte. > > Ricardo Alva Valiente > > > > -----Mensaje original----- > > De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de > javier.ruben.marcu...@gmail.com<mailto:javier.ruben.marcu...@gmail.com> > > Enviado el: miércoles, 29 de abril de 2015 12:16 PM > > Para: jose luis cañadas; R-help-es@r-project.org<mailto: > R-help-es@r-project.org> > > Asunto: Re: [R-es] cantidad de datos > > > > Estimados > > > > > > Justo se me ocurrió una búsqueda y el resultado es parecido. > > > > http://www.r-bloggers.com/k-means-clustering-on-big-data/ > > > > Javier Marcuzzi > > > > De: jose luis cañadas > > Enviado el: miércoles, 29 de abril de 2015 02:10 p.m. > > Para: R-help-es@r-project.org<mailto:R-help-es@r-project.org> > > > > > > Hola. > > Yo en vez de utilizar análisis cluster que impliquen distancias, probaría > con un kmedias o con un pam (partition around medoids) pero utilizando > muestras, la función clara de la librería cluster puede ayudarte. Pego el > details de la ayuda de 'clara' > > > > Details > > > > clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990). > > Compared to other partitioning methods such as pam, it can deal with much > larger datasets. Internally, this is achieved by considering sub-datasets > of fixed size (sampsize) such that the time and storage requirements become > linear in n rather than quadratic. > > > > Each sub-dataset is partitioned into k clusters using the same algorithm > as in pam. > > Once k representative objects have been selected from the sub-dataset, > each observation of the entire dataset is assigned to the nearest medoid. > > > > The mean (equivalent to the sum) of the dissimilarities of the > observations to their closest medoid is used as a measure of the quality of > the clustering. The sub-dataset for which the mean (or sum) is minimal, is > retained. A further analysis is carried out on the final partition. > > > > Each sub-dataset is forced to contain the medoids obtained from the best > sub-dataset until then. Randomly drawn observations are added to this set > until sampsize has been reached. > > > > Saludos > > > > El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió: > > Hola, ¿qué tal? > > > > 291GB viene a ser > > > > 280 * 280 * 1e6 * 8 / 2^30 / 2 > > > > que es el número de GB necesarios para almacenar la matriz de > > distancias entre 280k sujetos. > > > > Hay que buscar una alternativa que no implique precalcular esa enormidad. > > > > Un saludo, > > > > Carlos J. Gil Bellosta > > http://www.datanalytics.com > > > > > > > > > > > > El día 29 de abril de 2015, 18:20, <javier.ruben.marcu...@gmail.com > ><mailto:javier.ruben.marcu...@gmail.com> escribió: > > Estimados > > > > Creo que se puede presentar un problema con el sistema operativo, al > > ser de > > 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del > > todo seguro. > > > > Los 292 GB que informa Carlos son una enormidad, esos requerimientos > > son complicados. > > > > ¿Qué posibilidad hay de trabajar con memoria virtual en windows? > > Aunque me parece que no sería optimo, prefiero intentar en Linux y R. > > > > Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el > > i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema > > operativo de 64 bit, como también de poder comprar más memoria > > (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos. > > > > Javier Marcuzzi > > > > De: Carlos Ortega > > Enviado el: miércoles, 29 de abril de 2015 12:49 p.m. > > Para: Alva Valiente, Ricardo (RIAV) > > CC: R-help-es@r-project.org<mailto:R-help-es@r-project.org> > > > > No sé si va a ser suficiente.... > > Acabo de correr un ejemplo equivalente: > > > > # Example > > mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat), > > "ave") > > plot(hc) > > plot(hc, hang = -1) > > > > sobre "Azure Machine Learning" y ... > > > > > > > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es<http://www.qualityexcellence.es> > > > > El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV) > > <r...@cajatrujillo.com.pe><mailto:r...@cajatrujillo.com.pe> escribió: > > Bueno mi máquina es: > > > > HP > > > > Windows 7 > > > > Procesador Core I5 de 2.5 GHz > > > > 4 GB de Ram (2.94 GB utilizables) > > > > Sistema operativo de 32 bits > > > > Versión de R, 3.2.0 > > > > > > > > > > > > Atte. > > > > Ricardo Alva Valiente > > > > Analista de Control Preventivo > > > > Unidad de Prevención > > > > Of. Recuperaciones – CC Boulevard Chiclayo > > > > '(074) 232740 > > > > RPC 978194441 RPM *157793 > > > > *r...@cajatrujillo.com.pe<mailto:*r...@cajatrujillo.com.pe> > > > > www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> > > > > > > > > > > > > De: Carlos Ortega [mailto:c...@qualityexcellence.es] Enviado el: > > miércoles, 29 de abril de 2015 10:39 AM > > Para: Alva Valiente, Ricardo (RIAV) > > CC: r-help-es@r-project.org<mailto:r-help-es@r-project.org> > > Asunto: Re: [R-es] cantidad de datos > > > > > > > > Hola, > > > > La matriz que vas a procesar será de alrededor de 45 Mb. No creo que > > tengas problemas para cargar este conjunto de datos a tu entorno. > > > > El problema puede aparecer en generar el objeto clúster y esto > > dependerá de la RAM que tengas disponible. > > > > Pásanos el detalle de la máquina que utilizarías y la versión de R > > que usas. > > > > > > He simulado tu conjunto y he tenido problemas a la hora de generar > > el clúster. Mi máquina es un MacBook, de 8Gb. > > > > > > > > Saludos, > > > > Carlos Ortega. > > > > > > > > El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV) > > <r...@cajatrujillo.com.pe><mailto:r...@cajatrujillo.com.pe> escribió: > > > > Estimados dos consultas. > > -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera > > saber si el programa soporta sin ningún inconveniente análisis > > cluster y discriminantes, así como análisis uni variados y bi variados. > > -Cuando se grafica un dendograma como puedo hacer para que todas las > > líneas de los casos, partan desde el X, porque cuando se genera se > > visualiza bien desordenado (unas líneas comienzan mas arriba que > > otras). También como hacer para que los nombres de los casos > > aparezcan en vertical y no en horizontal; y si es posible el gráfico > también. > > > > Muchas gracias de antemano. > > > > Atte. > > Ricardo Alva Valiente > > > > "Aviso Legal: La información de este correo electrónico, así como de > > sus archivos adjuntos, es confidencial y está dirigida > > exclusivamente a él o los destinatarios. Si Usted ha recibido este > > correo por error, por favor avísenos inmediatamente por este medio y > > elimínelo de su sistema. Se encuentra prohibido cualquier uso, > > reproducción, divulgación o distribución por otras personas > > distintas de él o los destinatarios. Cualquier opinión emitida en > > este correo electrónico es propia del autor o remitente y no > > representa necesariamente la opinión de la Caja Trujillo. A pesar de > > esfuerzos razonables en el control de virus y programas maliciosos, > > la Caja Trujillo no puede asegurar que éstos no se encuentren en > > este correo por causas ajenas a su control, por lo que usted debe > > analizar este correo y sus archivos adjuntos antes de abrirlos. Caja > Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe< > http://www.cajatrujillo.com.pe> " > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org<mailto:R-help-es@r-project.org> > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > > > > > > > -- > > > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es<http://www.qualityexcellence.es> > > > > "Aviso Legal: La información de este correo electrónico, así como de > > sus archivos adjuntos, es confidencial y está dirigida > > exclusivamente a él o los destinatarios. Si Usted ha recibido este > > correo por error, por favor avísenos inmediatamente por este medio y > > elimínelo de su sistema. Se encuentra prohibido cualquier uso, > > reproducción, divulgación o distribución por otras personas > > distintas de él o los destinatarios. Cualquier opinión emitida en > > este correo electrónico es propia del autor o remitente y no > > representa necesariamente la opinión de la Caja Trujillo. A pesar de > > esfuerzos razonables en el control de virus y programas maliciosos, > > la Caja Trujillo no puede asegurar que éstos no se encuentren en > > este correo por causas ajenas a su control, por lo que usted debe > > analizar este correo y sus archivos adjuntos antes de abrirlos. Caja > Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe< > http://www.cajatrujillo.com.pe> " > > > > > > > > -- > > Saludos, > > Carlos Ortega > > www.qualityexcellence.es<http://www.qualityexcellence.es> > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org<mailto:R-help-es@r-project.org> > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org<mailto:R-help-es@r-project.org> > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org<mailto:R-help-es@r-project.org> > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > [[alternative HTML version deleted]] > > > > _______________________________________________ > > R-help-es mailing list > > R-help-es@r-project.org<mailto:R-help-es@r-project.org> > > https://stat.ethz.ch/mailman/listinfo/r-help-es > > "Aviso Legal: La información de este correo electrónico, así como de sus > archivos adjuntos, es confidencial y está dirigida exclusivamente a él o > los destinatarios. Si Usted ha recibido este correo por error, por favor > avísenos inmediatamente por este medio y elimínelo de su sistema. Se > encuentra prohibido cualquier uso, reproducción, divulgación o distribución > por otras personas distintas de él o los destinatarios. Cualquier opinión > emitida en este correo electrónico es propia del autor o remitente y no > representa necesariamente la opinión de la Caja Trujillo. A pesar de > esfuerzos razonables en el control de virus y programas maliciosos, la Caja > Trujillo no puede asegurar que éstos no se encuentren en este correo por > causas ajenas a su control, por lo que usted debe analizar este correo y > sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito > de Trujillo www.cajatru<http://www.cajatrujillo.com.pe> > > jillo.com<http://www.cajatrujillo.com.pe> > > .pe<http://www.cajatrujillo.com.pe> " > > "Aviso Legal: La información de este correo electrónico, así como de sus > archivos adjuntos, es confidencial y está dirigida exclusivamente a él o > los destinatarios. Si Usted ha recibido este correo por error, por favor > avísenos inmediatamente por este medio y elimínelo de su sistema. Se > encuentra prohibido cualquier uso, reproducción, divulgación o distribución > por otras personas distintas de él o los destinatarios. Cualquier opinión > emitida en este correo electrónico es propia del autor o remitente y no > representa necesariamente la opinión de la Caja Trujillo. A pesar de > esfuerzos razonables en el control de virus y programas maliciosos, la Caja > Trujillo no puede asegurar que éstos no se encuentren en este correo por > causas ajenas a su control, por lo que usted debe analizar este correo y > sus archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito > de Trujillo www.cajatrujillo.com.pe " > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > -- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es