Hola Eric.Le detallo que es lo que yo hago en estos casos.Identificar el tipo
de archivo, es decir, que separadores de columnas tiene ?, que tipo de datos
debe tener cada variable?, etc.Si el archivo es muy grande y un editor de texto
(como Note++) no lo puede abrir por temas de memoria, puede usar un programa
adecuado para esto. Yo uso glogg (http://glogg.bonnefon.org/) que me ha
permitido abrir archivos de texto de hasta 3 GbSi no tiene delimitadores, puede
usar la opci�n de carga, campos de ancho fijo, en donde usted debe dar las
longitudes de las variables.Si no puede identificar claramente los tipos de
datos o los valores por defecto, cargue la variable como "character", para que
luego con las funciones adecuadas, pueda transformarla y obtener los tipo de
valor y variables deseados.Con respecto a los espacios, c�rgelos como le
explique, y luego transforme a la variable reemplazando los mismos con la
funcion grepl y si es mas complicado con una expresi�n regular.Los paquetes que
le pueden ser de ayuda: data.table (funcion fread), readr, stringr.Espero le
sirva.Saludos.
--Archivo adjunto de mensaje reenviado--
From: [email protected]
CC: [email protected]
To: [email protected]
Date: Mon, 20 Apr 2015 11:42:03 +0200
Subject: Re: [R-es] Como leer una BD con una estructura inadecuada
>>> El 18 de abril de 2015, 20:03, eric <[email protected]
>>> <mailto:[email protected]>> escribi�:
>>>
>>>
>>> Estimados, tengo el siguiente problema:
>>>
>>> Tengo una BD de 19 columnas y aprox 500 mil filas, la que tiene
>>> muchas celdas vacias y esta separada con espacios para hacer
>>> coincidir los datos bajo los encabezados.
>>>
>>> Mi problema es que al tratar de importar a R la BD no se como tratar
>>> con los espacios vacios cuando se trata de una columna de numeros
>>> (para el texto puse na.strings = "NA") y tampoco se como hacer para
>>> que al leer cada dato este asociado al encabezado correcto, pues el
>>> numero de espacios que esta puesto entre cada dato varia de acuerdo
>>> a la extension en caracteres del dato (hay numeros, nombres, etc).
>>> Incluso hay encabezados de dos palabras y parece que R los considera
>>> dos encabezados distintos. Me explico ?
>>>
>>> Como puedo hacer para leer la BD correctamente ? Alguna idea ??
>>>
>>> Adjunto un archivo de muestra.
>>>
>>> Muchas gracias.
>>>
>>> Eric.
>>>
>>>
>>>
>>>
>>> --
>>> Forest Engineer
>>> Master in Environmental and Natural Resource Economics
>>> Ph.D. student in Sciences of Natural Resources at La Frontera
>>> University
>>> Member in AguaDeTemu2030, citizen movement for Temuco with green
>>> city standards for living
>>>
>>> Nota: Las tildes se han omitido para asegurar compatibilidad con
>>> algunos lectores de correo.
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> [email protected] <mailto:[email protected]>
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>>
[[alternative HTML version deleted]]
_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es