Claro, si recuerdo que me dijeron que ejecutar un análisis clúster jerárquico 
era casi imposible xq se necesitaba demasiados recursos, y que mejor utilizara 
el análisis de K-medias determinando el número probable de clúster por 
anticipado. Es por eso que hago la consulta nuevamente sobre hasta cuantos 
casos soporta R (con una máquina de 4 GB de RAM y procesador CORE I5) , para 
saber cuanto es la muestra máxima que puedo considerar para hacer mi análisis, 
pero utilizando el K-medianas o k-modas, bueno y si es que hay algún paquete 
que haga esto.

Atte.
Ricardo Alva Valiente

De: Carlos Ortega [mailto:[email protected]]
Enviado el: lunes, 08 de febrero de 2016 06:24 PM
Para: Alva Valiente, Ricardo (RIAV) <[email protected]>
CC: [email protected]
Asunto: Re: [R-es] help estadística!!!!!

Hola Ricardo,

Recuerdo que preguntaste por algo parecido allá por finales de abril del año 
pasado. Lo recuerdo porque incluso simulé tu caso en la nube de Azure de 
Microsoft:
https://stat.ethz.ch/pipermail/r-help-es/2015-April/008882.html

En aquel momento tenías un conjunto de clientes de 280,000 y ya te comentamos 
que la matriz de distancias que se genera, ocuparían unos buenos cerca de 
300Gb. Ahora con más datos de clientes (315,000) el problema se 
agrava....especialmente para R.

¿Hay alguna alternativa?.
Sí, varias...

  *   primera la fuerza bruta de poner más hierro/RAM, pero tendrás que ir a 
Amazon. Sobre su plataforma hay una solución comercial que permite trabajar con 
R, como cuando trabajas en tu equipo, pero a gran escala. El límite de RAM casi 
lo pones tú (en tamaño y en dinero que te quieras gastar). Si echas cuentas, 
tampoco es tan caro como parece...Puedes hacer este análisis en varias horas 
costándote ni un dólar la hora...:

     *   
http://www.teraproc.com/getting-started-with-teraproc-r-cluster-as-a-service/

  *   Otra alternativa que te propusimos fue el que de alguna forma redujeras 
tu conjunto de trabajo con algún tipo de hipótesis inicial (segmentación) y 
probar con esos subconjuntos bien en tu máquina o en este tipo de solución como 
AWS.
En cualquiera de los casos, como norma general:

  *   Utiliza un R sobre un equipo de 64bits.
  *   Cuanta más RAM mejor.
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>



El 8 de febrero de 2016, 22:35, Alva Valiente, Ricardo (RIAV) 
<[email protected]<mailto:[email protected]>> escribió:
Estimado muchas gracias por la respuesta; pero tengo otra interrogante.
Para segmentar toda la data de clientes los cuales ya los vi bien y no son 
15,000 sino 315,000 necesito utilizar el análisis de segmentación de K-medianas 
o K-modas, porque al ser datos ordinales y dicotómicos (la gran mayoría de 
variables), la aplicación de segmentar a través de k-medias no tiene mucho 
sentido. El R tiene capacidad para analizar dicha cantidad de datos o hasta 
cuantos datos puede analizar? y existe algún paquete que trabaje con K-medianas 
o K-modas?

Atte.
Ricardo Alva Valiente

De: Carlos Ortega 
[mailto:[email protected]<mailto:[email protected]>]
Enviado el: jueves, 28 de enero de 2016 05:13 PM
Para: Alva Valiente, Ricardo (RIAV) 
<[email protected]<mailto:[email protected]>>
CC: [email protected]<mailto:[email protected]>
Asunto: Re: [R-es] help estadística!!!!!

Hola,

Tendrías que hacerlo con el paquete "caret" que incluye una variante de "knn" 
con el que sí que puedes hacer predicciones.

Mira el ejemplo aquí:
http://topepo.github.io/caret/misc.html

Otra referencia que te puede ayudar a llegar a la alternativa anterior es esta:

http://stackoverflow.com/questions/21064315/how-do-i-predict-new-datas-cluster-after-clustering-training-data

Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>


El 28 de enero de 2016, 22:30, Alva Valiente, Ricardo (RIAV) 
<[email protected]<mailto:[email protected]>> escribió:
Buenas tengo una consulta.
Tengo un grupo de 15,000 clientes a los cuales debo de segmentar en base a 
variables que por sus características pueden ser agrupadas en 4 grupos. Lo 
primero que he realizado es segmentar las variables pero de cada grupo (xq 
necesito realizar un análisis sobre esto) mediante el análisis clúster y luego 
realizar una segmentación con todas las variables, también utilizando el 
análisis clúster. La pregunta del millón es...una vez que tenga mis segmentos 
definidos (supongamos que me salen 15 o 20 segmentos), como puedo hacer para 
determinar en que segmento podría estar un nuevo cliente y no tenga que volver 
a realizar el mismo análisis. Supuestamente el análisis clúster se que es 
netamente descriptivo, pero hay alguna forma de hacer uso de esta técnica para 
algo predictivo o inferencial algo así como en el análisis de regresión 
múltiple.

Dato: Mis variables son ordinales, dicotómicas y algunas numéricas.

Atte.
Ricardo Alva

"Aviso Legal: La información de este correo electrónico, así como de sus 
archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los 
destinatarios. Si Usted ha recibido este correo por error, por favor avísenos 
inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido 
cualquier uso, reproducción, divulgación o distribución por otras personas 
distintas de él o los destinatarios. Cualquier opinión emitida en este correo 
electrónico es propia del autor o remitente y no representa necesariamente la 
opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de 
virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no 
se encuentren en este correo por causas ajenas a su control, por lo que usted 
debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja 
Municipal de Ahorro y Crédito de Trujillo 
www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "

        [[alternative HTML version deleted]]


_______________________________________________
R-help-es mailing list
[email protected]<mailto:[email protected]>
https://stat.ethz.ch/mailman/listinfo/r-help-es



--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
"Aviso Legal: La información de este correo electrónico, así como de sus 
archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los 
destinatarios. Si Usted ha recibido este correo por error, por favor avísenos 
inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido 
cualquier uso, reproducción, divulgación o distribución por otras personas 
distintas de él o los destinatarios. Cualquier opinión emitida en este correo 
electrónico es propia del autor o remitente y no representa necesariamente la 
opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de 
virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no 
se encuentren en este correo por causas ajenas a su control, por lo que usted 
debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja 
Municipal de Ahorro y Crédito de Trujillo 
www.cajatrujillo.com.pe<http://www.cajatrujillo.com.pe> "



--
Saludos,
Carlos Ortega
www.qualityexcellence.es<http://www.qualityexcellence.es>
"Aviso Legal: La información de este correo electrónico, así como de sus 
archivos adjuntos, es confidencial y está dirigida exclusivamente a él o los 
destinatarios. Si Usted ha recibido este correo por error, por favor avísenos 
inmediatamente por este medio y elimínelo de su sistema. Se encuentra prohibido 
cualquier uso, reproducción, divulgación o distribución por otras personas 
distintas de él o los destinatarios. Cualquier opinión emitida en este correo 
electrónico es propia del autor o remitente y no representa necesariamente la 
opinión de la Caja Trujillo. A pesar de esfuerzos razonables en el control de 
virus y programas maliciosos, la Caja Trujillo no puede asegurar que éstos no 
se encuentren en este correo por causas ajenas a su control, por lo que usted 
debe analizar este correo y sus archivos adjuntos antes de abrirlos. Caja 
Municipal de Ahorro y Crédito de Trujillo www.cajatrujillo.com.pe "

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a