Podrías hacer varios kmedias con diferente número de clusters y comprobar como varía la suma de cuadrados entre cluster para "elegir" el número óptimo.
# Determine number of clusters wss <- (nrow(mydata)-1)*sum(apply(mydata,2,var)) for (i in 2:15) wss[i] <- sum(kmeans(mydata, centers=i)$withinss) plot(1:15, wss, type="b", xlab="Number of Clusters", ylab="Within groups sum of squares") El 29/04/15 a las 19:42, Alva Valiente, Ricardo (RIAV) escribió: > El inconveniente con un K-medias, es que se tiene que se tiene que pre > definir el número de segmentos, pero eso es algo con lo q no cuento. La > solución de Javier me parece q sería la única opción. > > Atte. > Ricardo Alva Valiente > > -----Mensaje original----- > De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de > javier.ruben.marcu...@gmail.com > Enviado el: miércoles, 29 de abril de 2015 12:16 PM > Para: jose luis cañadas; R-help-es@r-project.org > Asunto: Re: [R-es] cantidad de datos > > Estimados > > > Justo se me ocurrió una búsqueda y el resultado es parecido. > > http://www.r-bloggers.com/k-means-clustering-on-big-data/ > > Javier Marcuzzi > > De: jose luis cañadas > Enviado el: miércoles, 29 de abril de 2015 02:10 p.m. > Para: R-help-es@r-project.org > > > Hola. > Yo en vez de utilizar análisis cluster que impliquen distancias, probaría con > un kmedias o con un pam (partition around medoids) pero utilizando muestras, > la función clara de la librería cluster puede ayudarte. Pego el details de la > ayuda de 'clara' > > Details > > clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990). > Compared to other partitioning methods such as pam, it can deal with much > larger datasets. Internally, this is achieved by considering sub-datasets of > fixed size (sampsize) such that the time and storage requirements become > linear in n rather than quadratic. > > Each sub-dataset is partitioned into k clusters using the same algorithm as > in pam. > Once k representative objects have been selected from the sub-dataset, each > observation of the entire dataset is assigned to the nearest medoid. > > The mean (equivalent to the sum) of the dissimilarities of the observations > to their closest medoid is used as a measure of the quality of the > clustering. The sub-dataset for which the mean (or sum) is minimal, is > retained. A further analysis is carried out on the final partition. > > Each sub-dataset is forced to contain the medoids obtained from the best > sub-dataset until then. Randomly drawn observations are added to this set > until sampsize has been reached. > > Saludos > > El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió: >> Hola, ¿qué tal? >> >> 291GB viene a ser >> >> 280 * 280 * 1e6 * 8 / 2^30 / 2 >> >> que es el número de GB necesarios para almacenar la matriz de >> distancias entre 280k sujetos. >> >> Hay que buscar una alternativa que no implique precalcular esa enormidad. >> >> Un saludo, >> >> Carlos J. Gil Bellosta >> http://www.datanalytics.com >> >> >> >> >> >> El día 29 de abril de 2015, 18:20, <javier.ruben.marcu...@gmail.com> >> escribió: >>> Estimados >>> >>> Creo que se puede presentar un problema con el sistema operativo, al >>> ser de >>> 32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del >>> todo seguro. >>> >>> Los 292 GB que informa Carlos son una enormidad, esos requerimientos >>> son complicados. >>> >>> ¿Qué posibilidad hay de trabajar con memoria virtual en windows? >>> Aunque me parece que no sería optimo, prefiero intentar en Linux y R. >>> >>> Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el >>> i5 no es de 64 bit?. Posiblemente tenga la opción de usar un sistema >>> operativo de 64 bit, como también de poder comprar más memoria >>> (siempre en 64 bit), aunque me asustan los 292 GB que informa Carlos. >>> >>> Javier Marcuzzi >>> >>> De: Carlos Ortega >>> Enviado el: miércoles, 29 de abril de 2015 12:49 p.m. >>> Para: Alva Valiente, Ricardo (RIAV) >>> CC: R-help-es@r-project.org >>> >>> No sé si va a ser suficiente.... >>> Acabo de correr un ejemplo equivalente: >>> >>> # Example >>> mydat <- matrix(rnorm(280000*20), ncol=20) hc <- hclust(dist(mydat), >>> "ave") >>> plot(hc) >>> plot(hc, hang = -1) >>> >>> sobre "Azure Machine Learning" y ... >>> >>> >>> >>> Saludos, >>> Carlos Ortega >>> www.qualityexcellence.es >>> >>> El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV) >>> <r...@cajatrujillo.com.pe> escribió: >>>> Bueno mi máquina es: >>>> >>>> HP >>>> >>>> Windows 7 >>>> >>>> Procesador Core I5 de 2.5 GHz >>>> >>>> 4 GB de Ram (2.94 GB utilizables) >>>> >>>> Sistema operativo de 32 bits >>>> >>>> Versión de R, 3.2.0 >>>> >>>> >>>> >>>> >>>> >>>> Atte. >>>> >>>> Ricardo Alva Valiente >>>> >>>> Analista de Control Preventivo >>>> >>>> Unidad de Prevención >>>> >>>> Of. Recuperaciones – CC Boulevard Chiclayo >>>> >>>> '(074) 232740 >>>> >>>> RPC 978194441 RPM *157793 >>>> >>>> *r...@cajatrujillo.com.pe >>>> >>>> www.cajatrujillo.com.pe >>>> >>>> >>>> >>>> >>>> >>>> De: Carlos Ortega [mailto:c...@qualityexcellence.es] Enviado el: >>>> miércoles, 29 de abril de 2015 10:39 AM >>>> Para: Alva Valiente, Ricardo (RIAV) >>>> CC: r-help-es@r-project.org >>>> Asunto: Re: [R-es] cantidad de datos >>>> >>>> >>>> >>>> Hola, >>>> >>>> La matriz que vas a procesar será de alrededor de 45 Mb. No creo que >>>> tengas problemas para cargar este conjunto de datos a tu entorno. >>>> >>>> El problema puede aparecer en generar el objeto clúster y esto >>>> dependerá de la RAM que tengas disponible. >>>> >>>> Pásanos el detalle de la máquina que utilizarías y la versión de R >>>> que usas. >>>> >>>> >>>> He simulado tu conjunto y he tenido problemas a la hora de generar >>>> el clúster. Mi máquina es un MacBook, de 8Gb. >>>> >>>> >>>> >>>> Saludos, >>>> >>>> Carlos Ortega. >>>> >>>> >>>> >>>> El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV) >>>> <r...@cajatrujillo.com.pe> escribió: >>>> >>>> Estimados dos consultas. >>>> -Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera >>>> saber si el programa soporta sin ningún inconveniente análisis >>>> cluster y discriminantes, así como análisis uni variados y bi variados. >>>> -Cuando se grafica un dendograma como puedo hacer para que todas las >>>> líneas de los casos, partan desde el X, porque cuando se genera se >>>> visualiza bien desordenado (unas líneas comienzan mas arriba que >>>> otras). También como hacer para que los nombres de los casos >>>> aparezcan en vertical y no en horizontal; y si es posible el gráfico >>>> también. >>>> >>>> Muchas gracias de antemano. >>>> >>>> Atte. >>>> Ricardo Alva Valiente >>>> >>>> "Aviso Legal: La información de este correo electrónico, así como de >>>> sus archivos adjuntos, es confidencial y está dirigida >>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este >>>> correo por error, por favor avísenos inmediatamente por este medio y >>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso, >>>> reproducción, divulgación o distribución por otras personas >>>> distintas de él o los destinatarios. Cualquier opinión emitida en >>>> este correo electrónico es propia del autor o remitente y no >>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de >>>> esfuerzos razonables en el control de virus y programas maliciosos, >>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en >>>> este correo por causas ajenas a su control, por lo que usted debe >>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja >>>> Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe " >>>> >>>> _______________________________________________ >>>> R-help-es mailing list >>>> R-help-es@r-project.org >>>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>>> >>>> >>>> >>>> >>>> -- >>>> >>>> Saludos, >>>> Carlos Ortega >>>> www.qualityexcellence.es >>>> >>>> "Aviso Legal: La información de este correo electrónico, así como de >>>> sus archivos adjuntos, es confidencial y está dirigida >>>> exclusivamente a él o los destinatarios. Si Usted ha recibido este >>>> correo por error, por favor avísenos inmediatamente por este medio y >>>> elimínelo de su sistema. Se encuentra prohibido cualquier uso, >>>> reproducción, divulgación o distribución por otras personas >>>> distintas de él o los destinatarios. Cualquier opinión emitida en >>>> este correo electrónico es propia del autor o remitente y no >>>> representa necesariamente la opinión de la Caja Trujillo. A pesar de >>>> esfuerzos razonables en el control de virus y programas maliciosos, >>>> la Caja Trujillo no puede asegurar que éstos no se encuentren en >>>> este correo por causas ajenas a su control, por lo que usted debe >>>> analizar este correo y sus archivos adjuntos antes de abrirlos. Caja >>>> Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe " >>> >>> >>> -- >>> Saludos, >>> Carlos Ortega >>> www.qualityexcellence.es >>> >>> _______________________________________________ >>> R-help-es mailing list >>> R-help-es@r-project.org >>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>> >> _______________________________________________ >> R-help-es mailing list >> R-help-es@r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > "Aviso Legal: La información de este correo electrónico, así como de sus > archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los > destinatarios. Si Usted ha recibido este correo por error, por favor avísenos > inmediatamente por este medio y elimínelo de su sistema. Se encuentra > prohibido cualquier uso, reproducción, divulgación o distribución por otras > personas distintas de él o los destinatarios. Cualquier opinión emitida en > este correo electrónico es propia del autor o remitente y no representa > necesariamente la opinión de la Caja Trujillo. A pesar de esfuerzos > razonables en el control de virus y programas maliciosos, la Caja Trujillo no > puede asegurar que éstos no se encuentren en este correo por causas ajenas a > su control, por lo que usted debe analizar este correo y sus archivos > adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de Trujillo > www.cajatrujillo.com.pe" [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es