Re: [R-es] cantidad de datos

Jose Luis Cañadas Reche Wed, 29 Apr 2015 10:11:03 -0700

Hola.

Yo en vez de utilizar análisis cluster que impliquen distancias,probaría con un kmedias o con un pam (partition around medoids) peroutilizando muestras, la función clara de la librería cluster puedeayudarte. Pego el details de la ayuda de 'clara'


Details

clara is fully described in chapter 3 of Kaufman and Rousseeuw (1990).Compared to other partitioning methods such as pam, it can deal withmuch larger datasets. Internally, this is achieved by consideringsub-datasets of fixed size (sampsize) such that the time and storagerequirements become linear in n rather than quadratic.

Each sub-dataset is partitioned into k clusters using the same algorithmas in pam.Once k representative objects have been selected from the sub-dataset,each observation of the entire dataset is assigned to the nearest medoid.

The mean (equivalent to the sum) of the dissimilarities of theobservations to their closest medoid is used as a measure of the qualityof the clustering. The sub-dataset for which the mean (or sum) isminimal, is retained. A further analysis is carried out on the finalpartition.

Each sub-dataset is forced to contain the medoids obtained from the bestsub-dataset until then. Randomly drawn observations are added to thisset until sampsize has been reached.


Saludos

El 29/04/15 a las 19:06, Carlos J. Gil Bellosta escribió:

Hola, ¿qué tal?

291GB viene a ser

280 * 280 * 1e6 * 8 / 2^30 / 2

que es el número de GB necesarios para almacenar la matriz de
distancias entre 280k sujetos.

Hay que buscar una alternativa que no implique precalcular esa enormidad.

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com





El día 29 de abril de 2015, 18:20,  <[email protected]> escribió:

Estimados

Creo que se puede presentar un problema con el sistema operativo, al ser de
32 bit si no recuerdo mal soporta hasta 4 GB, aunque no estoy del todo
seguro.

Los 292 GB que informa Carlos son una enormidad, esos requerimientos son
complicados.

¿Qué posibilidad hay de trabajar con memoria virtual en windows? Aunque me
parece que no sería optimo, prefiero intentar en Linux y R.

Su sistema es de 32 bit, pero ¿la computadora?, ¿ambos son 32?, ¿el i5 no es
de 64 bit?. Posiblemente tenga la opción de usar un sistema operativo de 64
bit, como también de poder comprar más memoria (siempre en 64 bit), aunque
me asustan los 292 GB que informa Carlos.

Javier Marcuzzi

De: Carlos Ortega
Enviado el: ‎miércoles‎, ‎29‎ de ‎abril‎ de ‎2015 ‎12‎:‎49‎ ‎p.m.
Para: Alva Valiente, Ricardo (RIAV)
CC: [email protected]

No sé si va a ser suficiente....
Acabo de correr un ejemplo equivalente:

# Example
mydat <- matrix(rnorm(280000*20), ncol=20)
hc <- hclust(dist(mydat), "ave")
plot(hc)
plot(hc, hang = -1)

sobre "Azure Machine Learning" y ...



Saludos,
Carlos Ortega
www.qualityexcellence.es

El 29 de abril de 2015, 17:45, Alva Valiente, Ricardo (RIAV)
<[email protected]> escribió:

Bueno mi máquina es:

HP

Windows 7

Procesador Core I5 de 2.5 GHz

4 GB de Ram (2.94 GB utilizables)

Sistema operativo de 32 bits

Versión de R, 3.2.0





Atte.

Ricardo Alva Valiente

Analista de Control Preventivo

Unidad de Prevención

Of. Recuperaciones – CC Boulevard Chiclayo

'(074) 232740

RPC 978194441 RPM *157793

*[email protected]

www.cajatrujillo.com.pe





De: Carlos Ortega [mailto:[email protected]]
Enviado el: miércoles, 29 de abril de 2015 10:39 AM
Para: Alva Valiente, Ricardo (RIAV)
CC: [email protected]
Asunto: Re: [R-es] cantidad de datos



Hola,

La matriz que vas a procesar será de alrededor de 45 Mb. No creo que
tengas problemas para cargar este conjunto de datos a tu entorno.

El problema puede aparecer en generar el objeto clúster y esto dependerá
de la RAM que tengas disponible.

Pásanos el detalle de la máquina que utilizarías y la versión de R que
usas.


He simulado tu conjunto y he tenido problemas a la hora de generar el
clúster. Mi máquina es un MacBook, de 8Gb.



Saludos,

Carlos Ortega.



El 29 de abril de 2015, 16:25, Alva Valiente, Ricardo (RIAV)
<[email protected]> escribió:

Estimados dos consultas.
-Debo de trabajar con 280,000.00 casos y 20 variables. Quisiera saber si
el programa soporta sin ningún inconveniente análisis cluster y
discriminantes, así como análisis uni variados y bi variados.
-Cuando se grafica un dendograma como puedo hacer para que todas las
líneas de los casos, partan desde el X, porque cuando se genera se visualiza
bien desordenado (unas líneas comienzan mas arriba que otras). También como
hacer para que los nombres de los casos aparezcan en vertical y no en
horizontal; y si es posible el gráfico también.

Muchas gracias de antemano.

Atte.
Ricardo Alva Valiente

"Aviso Legal: La información de este correo electrónico, así como de sus
archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
destinatarios. Si Usted ha recibido este correo por error, por favor
avísenos inmediatamente por este medio y elimínelo de su sistema. Se
encuentra prohibido cualquier uso, reproducción, divulgación o distribución
por otras personas distintas de él o los destinatarios. Cualquier opinión
emitida en este correo electrónico es propia del autor o remitente y no
representa necesariamente la opinión de la Caja Trujillo. A pesar de
esfuerzos razonables en el control de virus y programas maliciosos, la Caja
Trujillo no puede asegurar que éstos no se encuentren en este correo por
causas ajenas a su control, por lo que usted debe analizar este correo y sus
archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
Trujillo www.cajatrujillo.com.pe "

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es




--

Saludos,
Carlos Ortega
www.qualityexcellence.es

"Aviso Legal: La información de este correo electrónico, así como de sus
archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los
destinatarios. Si Usted ha recibido este correo por error, por favor
avísenos inmediatamente por este medio y elimínelo de su sistema. Se
encuentra prohibido cualquier uso, reproducción, divulgación o distribución
por otras personas distintas de él o los destinatarios. Cualquier opinión
emitida en este correo electrónico es propia del autor o remitente y no
representa necesariamente la opinión de la Caja Trujillo. A pesar de
esfuerzos razonables en el control de virus y programas maliciosos, la Caja
Trujillo no puede asegurar que éstos no se encuentren en este correo por
causas ajenas a su control, por lo que usted debe analizar este correo y sus
archivos adjuntos antes de abrirlos. Caja Municipal de Ahorro y Crédito de
Trujillo www.cajatrujillo.com.pe "




--
Saludos,
Carlos Ortega
www.qualityexcellence.es

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es


_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] cantidad de datos

Responder a