Hola Patricio. Muchas gracias por tus comentarios. El uso del merge() es por seguir esta recomendación: https://martinsbioblogg.wordpress.com/2013/03/24/ using-r-reading-tables-that-need-a-little-cleaning/ Respecto del data.table, logré utilizar algunas funciones básicas, sobre todo las sentencias que hacen consultas con estructuras similares a las de SQL, pero no mucho más. También algo, poco, de tidyr y dplyr, siguiendo este enlace: http://r4ds.had.co.nz/ de Wickham y Grolemund, y algunos más. De hecho, me resulta un tanto complicado saber por dónde ir, porque mucha ayuda y libros iniciales están más en dialecto Base (como el de Paradis o el de Venables y Ripley; o Correa y Gonzalez o el de Mittal para gráficos, por ejemplo), pero los más orientados a bases de datos relacionales, más grandes, digamos, a veces van por data.table y a veces por dplyr que son más complejos, y es como "volver a empezar" para los que nos cuesta salir de pobres. R tiene una curva de aprendizaje larga y a veces me encuentro aprendiendo a hacer de una forma más eficiente (y nueva) algo que no sé hacer siquiera de forma ineficiente, ¿se entiende? Al ser un programa tan vivo, tan dinámico, a veces siento que me falta un mapa para moverme. En general, y muchas veces sin saber realmente qué función está en qué paquete, utilizo: library(openxlsx) #Para cargar los datos library (RODBC) library(ggplot2) #Para graficar require(cowplot) library(tibble) library(lattice) library(RColorBrewer) #Para Colorear library(data.table) #Para ordenar los datos library(sqldf) Y ocasionalmente algunas más. Por caso, ahora tengo series de tiempo así que voy por zoo, timeDate, forecast, tseries, xts y lubridate. Algunos libros gratuitos compartió creo que Javier no hace mucho. También les voy dando una mirada y son de mucha utilidad. Pero de nuevo: son un mundo, requieren mucha plata (para comprar tiempo!!) y siempre están basados en ejemplos que cierran, lógicamente: gráficos que se ven bonitos, distribuciones cómodas, pocos outliers, clases bien definidas y bases de datos ordenadas. A mi siempre me pasa que los datos tienen formatos no estructurados, generan problemas de memoria y asumen valores que me hacen perder horas literalmente para ajustar los binwidth de un histograma en ggplot2, sin la menor oportunidad de llegar a ajustar un modelo cualquiera. Por todo eso, de veras este grupo es de muchísima ayuda. Y por ser en castellano vale doble. Perdón por la catarsis! Saludos.
El 10 de agosto de 2016, 12:24, patricio fuenmayor < [email protected]> escribió: > De nada... > He leído lo que has escrito... > Bueno, hay muchas formas de hacer las cosas... te recomiendo que uses el > paquete data.table (pero la versión en desarrollo 1.9.7 ) > https://github.com/Rdatatable/data.table/wiki > la que te ayudará en el tema de memoria... Otra cosa que te recomiendo es > que revises un poco de expresiones regulares, las que te permiten encontrar > patrones en tu información y hace que el filtrado, reemplazo y extracción > sean mas fáciles. > Si me explicas un poco mas el porque del merge, creo que usa solución que > implementé te va ha ayudar mucho ... es creando keys con hash (md5). > Saludos > > El 9 de agosto de 2016, 10:01, Mauricio Monsalvo <[email protected]> > escribió: > >> Muy claro, Patrico. Muchas gracias! >> >> El 5 de agosto de 2016, 14:45, patricio fuenmayor < >> [email protected]> escribió: >> >>> Hola Mauricio. >>> He trabajado en proyectos de calidad de datos, y lo primero y esencial >>> es realizar un "profile" de la información. esto consiste es breves >>> estadísticas descriptivas tanto en variables cualitativas y cuantitativas. >>> Una vez que tengas claras las características de la forma como te envían la >>> información, puedes configurar las funciones de R para que las cargue >>> correctamente. >>> >>> Recomiendo usar la función data.table::fread, esta realiza muestreos en >>> la información e infiere los posibles tipos de datos, separadores, etc. Una >>> vez cargada la información en R puedes usar muchas mas funciones para >>> revisar los datos. >>> El tema de los factores a mi modo de ver, se debe tratar en las >>> instancias finales al preparar la información para el modelamiento. >>> Los factores son una especie de recodificación de los datos donde asigna >>> un índice a un valor ... por ejemplo se tiene los valores en una variable: >>> casa, auto, moto, bicicleta... si es tipo caracter se almacenan en memoria >>> los caracteres... si es factor, hace la conversión internamente asignando >>> por ejemplo: casa=1, auto=2, moto=3, bicicleta=4 ... de tal forma que en >>> memoria se guardan los indices ... esto hace que la base tenga menos tamaño >>> ... ya que guarda números en lugar de textos y otras cosas mas ... lo que >>> al parecer te pasa a ti ... es que al hacerlo factor a un numero ... lo que >>> te va a mostar es el indice ... mas no el valor del numero. >>> si tienes 10, 5, 32, 49 ... el factor hará: 10=1, 5=2, 32=3, 49=4, lo >>> cual lleva a confusión... >>> >>> Saludos. >>> >>> >> >> >> -- >> Mauricio >> > > -- Mauricio [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es
