clustMixType no es una función, es un paquete de R que implementa el algoritmo k-prototypes en R. Este es un algoritmo similar la k-means pero válido para tipos de datos mixtos.
El paquete incluye no solo métodos para la determinación de clústeres sino también para el cálculo de índices de validación, que a lo mejor es lo que te confunde. Puedes encontrar más información sobre el algoritmo por ejemplo aquí: https://medium.com/datadriveninvestor/k-prototype-in-clustering-mixed-attributes-e6907db91914. Los índices de validación puedes emplearlos para intentar estimar el número óptimo de grupos en tus datos, empleando la función validation_kproto, tal y como indica el manual: https://www.rdocumentation.org/packages/clustMixType/versions/0.2-9/topics/validation_kproto Pero si tienes escasa experiencia con R y clustering es complicado poderte ayudar. Ánimo ‐‐‐‐‐‐‐ Original Message ‐‐‐‐‐‐‐ El miércoles, 27 de enero de 2021 a las 19:33, ricardo alva <[email protected]> escribió: > Hola amigos. > > Soy algo nuevo en este tema de R, pero estoy aprendiendo a empujones porque > el tiempo apremia. Necesito segmentar 165000 personas con los siguientes > datos, los cuales los tengo en excel en un archivo llamado Data, el cual > tiene la siguiente forma. > > Nombre > > Gnero Edad R_Edad Domilicio Actividad econmica Ingresos mensuales R_Ingresos > Categoria Persona > > Pepito 1 24 2 1104 23 1200 2 3 > > Juanita 0 56 4 1021 140 3450 4 16 > > Pedro 1 35 3 1104 45 300 1 4 > > Especificaciones: > > - Gnero: 1 =Masculino y 0=Femenino > - R_Edad: La edad recodificada en 9 categoras. > - Domilicio: Cdigos que representan distintas regiones del pas. Son 167 > categoras en total. > - Actividad econmica: Clasificado en 164 categoras. > - R_Ingresos: Ingresos mensuales recodificados en 15 categoras. > - Categora Persona: Clasificado en 19 categoras. > > Estuve intentando usar la distancia de gower(al ser variables mixtas), > con las variables Gnero, R_Edad, Domicilio, Actividad Econmica, R_Ingresos y > Categora Persona, para luego poder usar la funcin kmeans y PAM, para poder > comparar los resultados, pero me arroja que mis variables son character y no > continua con el proceso. Habia ledo tambin que la funcin clustMixType tambin > es muy til cuando tienes datos nominales con bastantes categoras, pero no > entiendo como armar la sintaxis; en realidad se me hace difcil entender la > sintaxis de todo jajajaja. > > Si alguien con tiempo, podra indicarme como sera la sintaxis para > realizar el anlisis con los mtodos antes indicados y as poder evaluar el > mejor nmero de cluster y la consistencia de stos se los agradecera mucho. > > [[alternative HTML version deleted]] > > R-help-es mailing list > > [email protected] > > https://stat.ethz.ch/mailman/listinfo/r-help-es _______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es
