[R-es] [Grupo de Usuarios de R de Galicia]: II Xornada

2015-09-29 Por tema miguel.angel.rodriguez.muinos
Hola.

Este jueves 1 de Octubre nos reuniremos, a nivel de Galicia (y a modo de 
calentamiento para el Congreso de Salamanca), para poner en común las lineas de 
trabajo que estamos siguiendo y dilucidar sobre la conveniencia de crear un 
grupo de interés local (GIL-Galicia) más estable y capaz de generar 
conocimiento.

Optamos por el formato de "jornada" para darle más consistencia, al ser 
complicado organizar otros formatos (que tengan quorum) por causa de la 
dispersión geográfica que sufrimos.

Si estás cerca de Compostela, te animamos a asistir!
https://www.r-users.gal/

Y si no nos vemos en Salamanca!

Un Saludo,
Miguel Rodríguez.










Nota: A información contida nesta mensaxe e os seus posibles documentos 
adxuntos é privada e confidencial e está dirixida únicamente ó seu 
destinatario/a. Se vostede non é o/a destinatario/a orixinal desta mensaxe, por 
favor elimínea. A distribución ou copia desta mensaxe non está autorizada.

Nota: La información contenida en este mensaje y sus posibles documentos 
adjuntos es privada y confidencial y está dirigida únicamente a su 
destinatario/a. Si usted no es el/la destinatario/a original de este mensaje, 
por favor elimínelo. La distribución o copia de este mensaje no está autorizada.

See more languages: http://www.sergas.es/aviso-confidencialidad

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema Carlos Ortega
Ya, pero fread puede atacar un conjunto de ficheros determinado, con una
estructura determinada.

Los docx tienen una codificación que en parte fread puede entender, pero
que otra parte no (esa codificación es la que te permite ver los formatos,
tablas, etc, etc cuando abres un documento Word).

Yendo al principio, el documento ".rel", ¿lo has llegado a abrir con un
editor para ver lo que tiene dentro...?

Gracias,
Carlos Ortega

El 29 de septiembre de 2015, 17:14, MªLuz Morales 
escribió:

> Hola,
> usaba fread porque me devuelve data.table que es lo que quiero usar
>
> El 29 de septiembre de 2015, 17:05, Carlos Ortega <
> c...@qualityexcellence.es> escribió:
>
>> No sé porqué piensas que "fread" va poder leer cualquier cosa...
>>
>> Ya que lo tienes en Word, prueba con esto:
>> https://github.com/hrbrmstr/docxtractr
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El 29 de septiembre de 2015, 16:55, MªLuz Morales 
>> escribió:
>>
>>> Buenas tardes,
>>>
>>> intento almacenar el contenido de un archivo .docx en un data.table, pero
>>> solo me devuelve 1855 filas cuando deberñian ser 6821.
>>>
>>> Sin embargo, el mismo archivo se me descarga completo usando read_docx
>>> {qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
>>>
>>> ¿Alguien sabe donde puede estar el problema?
>>>
>>> Nota: El docx procede de un archivo .rel que descargué de internet, al
>>> cual
>>> cambié la extensión por .doc y una vez abierto guardé como docx.
>>>
>>> Gracias!!
>>> Un saludo
>>> MªLuz
>>>
>>> [[alternative HTML version deleted]]
>>>
>>> ___
>>> R-help-es mailing list
>>> R-help-es@r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema Jorge I Velez
Hola Ma Luz,
Es dificil saber que salgo mal sin saber que hiciste.  Podrias por favor
enviarnos el codigo que utilizaste?
Saludos cordiales,
Jorge.-


2015-09-29 9:55 GMT-05:00 MªLuz Morales :

> Buenas tardes,
>
> intento almacenar el contenido de un archivo .docx en un data.table, pero
> solo me devuelve 1855 filas cuando deberñian ser 6821.
>
> Sin embargo, el mismo archivo se me descarga completo usando read_docx
> {qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
>
> ¿Alguien sabe donde puede estar el problema?
>
> Nota: El docx procede de un archivo .rel que descargué de internet, al cual
> cambié la extensión por .doc y una vez abierto guardé como docx.
>
> Gracias!!
> Un saludo
> MªLuz
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema MªLuz Morales
Sí claro, este es el código:

library(qdapTools)
#ADEcorpus <- read_docx("C:\\Users\\Documents\\Proyecto
iphealt\\ProcesamientoTexto\\Adverse Drug Event\\ADE-Corpus\\DRUG-AE.docx")

library(data.table)
ADEcorpusDT <- fread("C:\\Users\\Documents\\Proyecto
iphealt\\ProcesamientoTexto\\Adverse Drug
Event\\ADE-Corpus-V2\\DRUG-AE.docx")

gracias

El 29 de septiembre de 2015, 16:57, Jorge I Velez 
escribió:

> Hola Ma Luz,
> Es dificil saber que salgo mal sin saber que hiciste.  Podrias por favor
> enviarnos el codigo que utilizaste?
> Saludos cordiales,
> Jorge.-
>
>
> 2015-09-29 9:55 GMT-05:00 MªLuz Morales :
>
>> Buenas tardes,
>>
>> intento almacenar el contenido de un archivo .docx en un data.table, pero
>> solo me devuelve 1855 filas cuando deberñian ser 6821.
>>
>> Sin embargo, el mismo archivo se me descarga completo usando read_docx
>> {qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
>>
>> ¿Alguien sabe donde puede estar el problema?
>>
>> Nota: El docx procede de un archivo .rel que descargué de internet, al
>> cual
>> cambié la extensión por .doc y una vez abierto guardé como docx.
>>
>> Gracias!!
>> Un saludo
>> MªLuz
>>
>> [[alternative HTML version deleted]]
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema Carlos Ortega
Mira lo que dice el README.txt que acompaña a los ficheros:

"...
The format of DRUG-AE.rel is as follows with pipe delimiters:

Column-1: PubMed-ID
Column-2: Sentence
Column-3: Adverse-Effect
Column-4: Begin offset of Adverse-Effect at 'document level'
Column-5: End offset of Adverse-Effect at 'document level'
Column-6: Drug
Column-7: Begin offset of Drug at 'document level'
Column-8: End offset of Drug at 'document level'

..."

Así que si en "fread" indicas que el separador es "|" tendrá que
funcionar...
No son muchas líneas, 6821... así que incluso con read.table lo puedes leer
y luego convertir a data.table sin problemas.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 29 de septiembre de 2015, 18:01, MªLuz Morales 
escribió:

> El archivo en cuestión es el DRUG-AE.rel que está en:
>
> https://sites.google.com/site/adecorpus/home/document
>
> Saludos
>
> El 29 de septiembre de 2015, 17:54, Carlos Ortega <
> c...@qualityexcellence.es> escribió:
>
>> También si nos envías el .rel nos ayudaría a ver qué pasa...
>>
>> Saludos,
>> Carlos Ortega.
>>
>> El 29 de septiembre de 2015, 17:38, MªLuz Morales 
>> escribió:
>>
>>> De acuerdo,
>>> voy a probarlo
>>> Muchas gracias
>>>
>>> Saludos
>>> MªLuz
>>>
>>> El 29 de septiembre de 2015, 17:31, Pedro Concejero Cerezo <
>>> pedro.concejerocer...@telefonica.com> escribió:
>>>
>>> > Hola, M. Luz.
>>> > Hay infinidad de motivos por los que se te puede cortar la lectura de
>>> un
>>> > archivo de datos, pero los más habituales son encontrar un "#" o unas
>>> "" en
>>> > los registros, o una línea toda en blanco.
>>> > Lo primero yo creo que es dejar el archivo en texto plano (lo que te
>>> > recomendaba Carlos de usar el original, no el docx), y buscar esos
>>> > caracteres con un editor de texto plano tipo Notepad. Los puedes
>>> eliminar
>>> > si no cumplen ninguna función.
>>> > Yo te recomiendo usar read.table que te permite configurar estos
>>> detalles.
>>> > En concreto:
>>> >
>>> > comment.char = ""  no te corta la lectura de fichero como si fuera un
>>> > comentario, te lo añade a la cadena (eso si quieres usar el carácter,
>>> si no
>>> > elimínalo)
>>> > quote = ""  lo mismo con la comilla como comienzo de una cadena
>>> >
>>> > Pero verás que hay muchísimas más opciones que te evitan que se corte
>>> la
>>> > lectura (blank lines, ...) o que te rellene con NA's si no encuentra
>>> todas
>>> > las columnas del header (flush = TRUE).
>>> > Luego pasas a data.table con data.table(objeto_que_has_leido) y ya
>>> está.
>>> >
>>> > read.table(file, header = FALSE, sep = "", quote = "\"'",
>>> >dec = ".", numerals = c("allow.loss", "warn.loss",
>>> "no.loss"),
>>> >row.names, col.names, as.is = !stringsAsFactors,
>>> >na.strings = "NA", colClasses = NA, nrows = -1,
>>> >skip = 0, check.names = TRUE, fill = !blank.lines.skip,
>>> >strip.white = FALSE, blank.lines.skip = TRUE,
>>> >comment.char = "#",
>>> >allowEscapes = FALSE, flush = FALSE,
>>> >stringsAsFactors = default.stringsAsFactors(),
>>> >fileEncoding = "", encoding = "unknown", text, skipNul =
>>> FALSE)
>>> >
>>> >
>>> > Saludos,
>>> > Pedro
>>> >
>>> > =
>>> > En respuesta a:
>>> >
>>> > --
>>> >
>>> > Message: 2
>>> > Date: Tue, 29 Sep 2015 16:55:05 +0200
>>> > From: MªLuz Morales 
>>> > To: r-help-es >> >
>>> > Subject: [R-es] sobre fread {data.table}
>>> > Message-ID:
>>> > <
>>> > canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com
>>> > >>> > canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com>
>>> > Content-Type: text/plain; charset="UTF-8"
>>> >
>>> > Buenas tardes,
>>> >
>>> > intento almacenar el contenido de un archivo .docx en un data.table,
>>> pero
>>> > solo me devuelve 1855 filas cuando deberñian ser 6821.
>>> >
>>> > Sin embargo, el mismo archivo se me descarga completo usando read_docx
>>> > {qdapTools}, pero este devuelve un vector carácter y no es lo que
>>> quiero.
>>> >
>>> > ¿Alguien sabe donde puede estar el problema?
>>> >
>>> > Nota: El docx procede de un archivo .rel que descargué de internet, al
>>> cual
>>> > cambié la extensión por .doc y una vez abierto guardé como docx.
>>> >
>>> > Gracias!!
>>> > Un saludo
>>> > MªLuz
>>> >
>>> >
>>> > --
>>> > Pedro Concejero
>>> > E-mail: pedro.concejerocer...@telefonica.com>> > pedro.concejerocer...@telefonica.com>
>>> > skype: pedro.concejero
>>> > twitter @ConcejeroPedro
>>> > linkedin pedroconcejero
>>> > Entusiasta R, me encontraréis aquí gRupo R madRid <
>>> http://madrid.r-es.org/
>>> > >
>>> >
>>> > 
>>> >
>>> > Este mensaje y sus adjuntos se dirigen exclusivamente a su
>>> destinatario,

Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema MªLuz Morales
De acuerdo,
voy a probarlo
Muchas gracias

Saludos
MªLuz

El 29 de septiembre de 2015, 17:31, Pedro Concejero Cerezo <
pedro.concejerocer...@telefonica.com> escribió:

> Hola, M. Luz.
> Hay infinidad de motivos por los que se te puede cortar la lectura de un
> archivo de datos, pero los más habituales son encontrar un "#" o unas "" en
> los registros, o una línea toda en blanco.
> Lo primero yo creo que es dejar el archivo en texto plano (lo que te
> recomendaba Carlos de usar el original, no el docx), y buscar esos
> caracteres con un editor de texto plano tipo Notepad. Los puedes eliminar
> si no cumplen ninguna función.
> Yo te recomiendo usar read.table que te permite configurar estos detalles.
> En concreto:
>
> comment.char = ""  no te corta la lectura de fichero como si fuera un
> comentario, te lo añade a la cadena (eso si quieres usar el carácter, si no
> elimínalo)
> quote = ""  lo mismo con la comilla como comienzo de una cadena
>
> Pero verás que hay muchísimas más opciones que te evitan que se corte la
> lectura (blank lines, ...) o que te rellene con NA's si no encuentra todas
> las columnas del header (flush = TRUE).
> Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.
>
> read.table(file, header = FALSE, sep = "", quote = "\"'",
>dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
>row.names, col.names, as.is = !stringsAsFactors,
>na.strings = "NA", colClasses = NA, nrows = -1,
>skip = 0, check.names = TRUE, fill = !blank.lines.skip,
>strip.white = FALSE, blank.lines.skip = TRUE,
>comment.char = "#",
>allowEscapes = FALSE, flush = FALSE,
>stringsAsFactors = default.stringsAsFactors(),
>fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
>
>
> Saludos,
> Pedro
>
> =
> En respuesta a:
>
> --
>
> Message: 2
> Date: Tue, 29 Sep 2015 16:55:05 +0200
> From: MªLuz Morales 
> To: r-help-es 
> Subject: [R-es] sobre fread {data.table}
> Message-ID:
> <
> canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com
> > canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com>
> Content-Type: text/plain; charset="UTF-8"
>
> Buenas tardes,
>
> intento almacenar el contenido de un archivo .docx en un data.table, pero
> solo me devuelve 1855 filas cuando deberñian ser 6821.
>
> Sin embargo, el mismo archivo se me descarga completo usando read_docx
> {qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
>
> ¿Alguien sabe donde puede estar el problema?
>
> Nota: El docx procede de un archivo .rel que descargué de internet, al cual
> cambié la extensión por .doc y una vez abierto guardé como docx.
>
> Gracias!!
> Un saludo
> MªLuz
>
>
> --
> Pedro Concejero
> E-mail: pedro.concejerocer...@telefonica.com pedro.concejerocer...@telefonica.com>
> skype: pedro.concejero
> twitter @ConcejeroPedro
> linkedin pedroconcejero
> Entusiasta R, me encontraréis aquí gRupo R madRid  >
>
> 
>
> Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
> puede contener información privilegiada o confidencial y es para uso
> exclusivo de la persona o entidad de destino. Si no es usted. el
> destinatario indicado, queda notificado de que la lectura, utilización,
> divulgación y/o copia sin autorización puede estar prohibida en virtud de
> la legislación vigente. Si ha recibido este mensaje por error, le rogamos
> que nos lo comunique inmediatamente por esta misma vía y proceda a su
> destrucción.
>
> The information contained in this transmission is privileged and
> confidential information intended only for the use of the individual or
> entity named above. If the reader of this message is not the intended
> recipient, you are hereby notified that any dissemination, distribution or
> copying of this communication is strictly prohibited. If you have received
> this transmission in error, do not read it. Please immediately reply to the
> sender that you have received this communication in error and then delete
> it.
>
> Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinatário,
> pode conter informação privilegiada ou confidencial e é para uso exclusivo
> da pessoa ou entidade de destino. Se não é vossa senhoria o destinatário
> indicado, fica notificado de que a leitura, utilização, divulgação e/ou
> cópia sem autorização pode estar proibida em virtude da legislação vigente.
> Se recebeu esta mensagem por erro, rogamos-lhe que nos o comunique
> imediatamente por esta mesma via e proceda a sua destruição
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing 

Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema Carlos Ortega
También si nos envías el .rel nos ayudaría a ver qué pasa...

Saludos,
Carlos Ortega.

El 29 de septiembre de 2015, 17:38, MªLuz Morales 
escribió:

> De acuerdo,
> voy a probarlo
> Muchas gracias
>
> Saludos
> MªLuz
>
> El 29 de septiembre de 2015, 17:31, Pedro Concejero Cerezo <
> pedro.concejerocer...@telefonica.com> escribió:
>
> > Hola, M. Luz.
> > Hay infinidad de motivos por los que se te puede cortar la lectura de un
> > archivo de datos, pero los más habituales son encontrar un "#" o unas ""
> en
> > los registros, o una línea toda en blanco.
> > Lo primero yo creo que es dejar el archivo en texto plano (lo que te
> > recomendaba Carlos de usar el original, no el docx), y buscar esos
> > caracteres con un editor de texto plano tipo Notepad. Los puedes eliminar
> > si no cumplen ninguna función.
> > Yo te recomiendo usar read.table que te permite configurar estos
> detalles.
> > En concreto:
> >
> > comment.char = ""  no te corta la lectura de fichero como si fuera un
> > comentario, te lo añade a la cadena (eso si quieres usar el carácter, si
> no
> > elimínalo)
> > quote = ""  lo mismo con la comilla como comienzo de una cadena
> >
> > Pero verás que hay muchísimas más opciones que te evitan que se corte la
> > lectura (blank lines, ...) o que te rellene con NA's si no encuentra
> todas
> > las columnas del header (flush = TRUE).
> > Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.
> >
> > read.table(file, header = FALSE, sep = "", quote = "\"'",
> >dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
> >row.names, col.names, as.is = !stringsAsFactors,
> >na.strings = "NA", colClasses = NA, nrows = -1,
> >skip = 0, check.names = TRUE, fill = !blank.lines.skip,
> >strip.white = FALSE, blank.lines.skip = TRUE,
> >comment.char = "#",
> >allowEscapes = FALSE, flush = FALSE,
> >stringsAsFactors = default.stringsAsFactors(),
> >fileEncoding = "", encoding = "unknown", text, skipNul =
> FALSE)
> >
> >
> > Saludos,
> > Pedro
> >
> > =
> > En respuesta a:
> >
> > --
> >
> > Message: 2
> > Date: Tue, 29 Sep 2015 16:55:05 +0200
> > From: MªLuz Morales 
> > To: r-help-es 
> > Subject: [R-es] sobre fread {data.table}
> > Message-ID:
> > <
> > canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com
> > > > canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com>
> > Content-Type: text/plain; charset="UTF-8"
> >
> > Buenas tardes,
> >
> > intento almacenar el contenido de un archivo .docx en un data.table, pero
> > solo me devuelve 1855 filas cuando deberñian ser 6821.
> >
> > Sin embargo, el mismo archivo se me descarga completo usando read_docx
> > {qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
> >
> > ¿Alguien sabe donde puede estar el problema?
> >
> > Nota: El docx procede de un archivo .rel que descargué de internet, al
> cual
> > cambié la extensión por .doc y una vez abierto guardé como docx.
> >
> > Gracias!!
> > Un saludo
> > MªLuz
> >
> >
> > --
> > Pedro Concejero
> > E-mail: pedro.concejerocer...@telefonica.com > pedro.concejerocer...@telefonica.com>
> > skype: pedro.concejero
> > twitter @ConcejeroPedro
> > linkedin pedroconcejero
> > Entusiasta R, me encontraréis aquí gRupo R madRid <
> http://madrid.r-es.org/
> > >
> >
> > 
> >
> > Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
> > puede contener información privilegiada o confidencial y es para uso
> > exclusivo de la persona o entidad de destino. Si no es usted. el
> > destinatario indicado, queda notificado de que la lectura, utilización,
> > divulgación y/o copia sin autorización puede estar prohibida en virtud de
> > la legislación vigente. Si ha recibido este mensaje por error, le rogamos
> > que nos lo comunique inmediatamente por esta misma vía y proceda a su
> > destrucción.
> >
> > The information contained in this transmission is privileged and
> > confidential information intended only for the use of the individual or
> > entity named above. If the reader of this message is not the intended
> > recipient, you are hereby notified that any dissemination, distribution
> or
> > copying of this communication is strictly prohibited. If you have
> received
> > this transmission in error, do not read it. Please immediately reply to
> the
> > sender that you have received this communication in error and then delete
> > it.
> >
> > Esta mensagem e seus anexos se dirigem exclusivamente ao seu
> destinatário,
> > pode conter informação privilegiada ou confidencial e é para uso
> exclusivo
> > da pessoa ou entidade de destino. Se não é vossa senhoria o 

Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema MªLuz Morales
Hola,
usaba fread porque me devuelve data.table que es lo que quiero usar

El 29 de septiembre de 2015, 17:05, Carlos Ortega 
escribió:

> No sé porqué piensas que "fread" va poder leer cualquier cosa...
>
> Ya que lo tienes en Word, prueba con esto:
> https://github.com/hrbrmstr/docxtractr
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> El 29 de septiembre de 2015, 16:55, MªLuz Morales 
> escribió:
>
>> Buenas tardes,
>>
>> intento almacenar el contenido de un archivo .docx en un data.table, pero
>> solo me devuelve 1855 filas cuando deberñian ser 6821.
>>
>> Sin embargo, el mismo archivo se me descarga completo usando read_docx
>> {qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
>>
>> ¿Alguien sabe donde puede estar el problema?
>>
>> Nota: El docx procede de un archivo .rel que descargué de internet, al
>> cual
>> cambié la extensión por .doc y una vez abierto guardé como docx.
>>
>> Gracias!!
>> Un saludo
>> MªLuz
>>
>> [[alternative HTML version deleted]]
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema MªLuz Morales
El archivo en cuestión es el DRUG-AE.rel que está en:

https://sites.google.com/site/adecorpus/home/document

Saludos

El 29 de septiembre de 2015, 17:54, Carlos Ortega 
escribió:

> También si nos envías el .rel nos ayudaría a ver qué pasa...
>
> Saludos,
> Carlos Ortega.
>
> El 29 de septiembre de 2015, 17:38, MªLuz Morales 
> escribió:
>
>> De acuerdo,
>> voy a probarlo
>> Muchas gracias
>>
>> Saludos
>> MªLuz
>>
>> El 29 de septiembre de 2015, 17:31, Pedro Concejero Cerezo <
>> pedro.concejerocer...@telefonica.com> escribió:
>>
>> > Hola, M. Luz.
>> > Hay infinidad de motivos por los que se te puede cortar la lectura de un
>> > archivo de datos, pero los más habituales son encontrar un "#" o unas
>> "" en
>> > los registros, o una línea toda en blanco.
>> > Lo primero yo creo que es dejar el archivo en texto plano (lo que te
>> > recomendaba Carlos de usar el original, no el docx), y buscar esos
>> > caracteres con un editor de texto plano tipo Notepad. Los puedes
>> eliminar
>> > si no cumplen ninguna función.
>> > Yo te recomiendo usar read.table que te permite configurar estos
>> detalles.
>> > En concreto:
>> >
>> > comment.char = ""  no te corta la lectura de fichero como si fuera un
>> > comentario, te lo añade a la cadena (eso si quieres usar el carácter,
>> si no
>> > elimínalo)
>> > quote = ""  lo mismo con la comilla como comienzo de una cadena
>> >
>> > Pero verás que hay muchísimas más opciones que te evitan que se corte la
>> > lectura (blank lines, ...) o que te rellene con NA's si no encuentra
>> todas
>> > las columnas del header (flush = TRUE).
>> > Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.
>> >
>> > read.table(file, header = FALSE, sep = "", quote = "\"'",
>> >dec = ".", numerals = c("allow.loss", "warn.loss",
>> "no.loss"),
>> >row.names, col.names, as.is = !stringsAsFactors,
>> >na.strings = "NA", colClasses = NA, nrows = -1,
>> >skip = 0, check.names = TRUE, fill = !blank.lines.skip,
>> >strip.white = FALSE, blank.lines.skip = TRUE,
>> >comment.char = "#",
>> >allowEscapes = FALSE, flush = FALSE,
>> >stringsAsFactors = default.stringsAsFactors(),
>> >fileEncoding = "", encoding = "unknown", text, skipNul =
>> FALSE)
>> >
>> >
>> > Saludos,
>> > Pedro
>> >
>> > =
>> > En respuesta a:
>> >
>> > --
>> >
>> > Message: 2
>> > Date: Tue, 29 Sep 2015 16:55:05 +0200
>> > From: MªLuz Morales 
>> > To: r-help-es 
>> > Subject: [R-es] sobre fread {data.table}
>> > Message-ID:
>> > <
>> > canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com
>> > >> > canmatom+srrtfobrysrgoudxdxvtrk21_e7le0rrb8enmmi...@mail.gmail.com>
>> > Content-Type: text/plain; charset="UTF-8"
>> >
>> > Buenas tardes,
>> >
>> > intento almacenar el contenido de un archivo .docx en un data.table,
>> pero
>> > solo me devuelve 1855 filas cuando deberñian ser 6821.
>> >
>> > Sin embargo, el mismo archivo se me descarga completo usando read_docx
>> > {qdapTools}, pero este devuelve un vector carácter y no es lo que
>> quiero.
>> >
>> > ¿Alguien sabe donde puede estar el problema?
>> >
>> > Nota: El docx procede de un archivo .rel que descargué de internet, al
>> cual
>> > cambié la extensión por .doc y una vez abierto guardé como docx.
>> >
>> > Gracias!!
>> > Un saludo
>> > MªLuz
>> >
>> >
>> > --
>> > Pedro Concejero
>> > E-mail: pedro.concejerocer...@telefonica.com> > pedro.concejerocer...@telefonica.com>
>> > skype: pedro.concejero
>> > twitter @ConcejeroPedro
>> > linkedin pedroconcejero
>> > Entusiasta R, me encontraréis aquí gRupo R madRid <
>> http://madrid.r-es.org/
>> > >
>> >
>> > 
>> >
>> > Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
>> > puede contener información privilegiada o confidencial y es para uso
>> > exclusivo de la persona o entidad de destino. Si no es usted. el
>> > destinatario indicado, queda notificado de que la lectura, utilización,
>> > divulgación y/o copia sin autorización puede estar prohibida en virtud
>> de
>> > la legislación vigente. Si ha recibido este mensaje por error, le
>> rogamos
>> > que nos lo comunique inmediatamente por esta misma vía y proceda a su
>> > destrucción.
>> >
>> > The information contained in this transmission is privileged and
>> > confidential information intended only for the use of the individual or
>> > entity named above. If the reader of this message is not the intended
>> > recipient, you are hereby notified that any dissemination, distribution
>> or
>> > copying of this communication is strictly prohibited. If you have
>> received
>> > this transmission in error, do not read 

Re: [R-es] sobre fread {data.table}

2015-09-29 Por tema Pedro Concejero Cerezo
No tiene cabecera. Tendrás que ponerle nombre a las variables
Prueba este código, yo leo 6821 obs. of  8 variables

library(data.table)
setwd("C:/Users/pedroc/Desktop/ADE-Corpus-V2") #Pon tu directorio trabajo
dat <- read.table(file = "DRUG-AE.rel",
  sep = "|",
  comment.char = "",
  header = F,
  quote = "")

str(dat)

datt <- data.table(dat)


El 29/09/2015 a las 17:31, Pedro Concejero Cerezo escribió:
Hola, M. Luz.
Hay infinidad de motivos por los que se te puede cortar la lectura de un 
archivo de datos, pero los más habituales son encontrar un "#" o unas "" en los 
registros, o una línea toda en blanco.
Lo primero yo creo que es dejar el archivo en texto plano (lo que te 
recomendaba Carlos de usar el original, no el docx), y buscar esos caracteres 
con un editor de texto plano tipo Notepad. Los puedes eliminar si no cumplen 
ninguna función.
Yo te recomiendo usar read.table que te permite configurar estos detalles. En 
concreto:

comment.char = ""  no te corta la lectura de fichero como si fuera un 
comentario, te lo añade a la cadena (eso si quieres usar el carácter, si no 
elimínalo)
quote = ""  lo mismo con la comilla como comienzo de una cadena

Pero verás que hay muchísimas más opciones que te evitan que se corte la 
lectura (blank lines, ...) o que te rellene con NA's si no encuentra todas las 
columnas del header (flush = TRUE).
Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.

read.table(file, header = FALSE, sep = "", quote = "\"'",
   dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"),
   row.names, col.names, as.is = !stringsAsFactors,
   na.strings = "NA", colClasses = NA, nrows = -1,
   skip = 0, check.names = TRUE, fill = !blank.lines.skip,
   strip.white = FALSE, blank.lines.skip = TRUE,
   comment.char = "#",
   allowEscapes = FALSE, flush = FALSE,
   stringsAsFactors = default.stringsAsFactors(),
   fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)


Saludos,
Pedro

=
En respuesta a:

--

Message: 2
Date: Tue, 29 Sep 2015 16:55:05 +0200
From: MªLuz Morales 
To: r-help-es 
Subject: [R-es] sobre fread {data.table}
Message-ID:


Content-Type: text/plain; charset="UTF-8"

Buenas tardes,

intento almacenar el contenido de un archivo .docx en un data.table, pero
solo me devuelve 1855 filas cuando deberñian ser 6821.

Sin embargo, el mismo archivo se me descarga completo usando read_docx
{qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.

¿Alguien sabe donde puede estar el problema?

Nota: El docx procede de un archivo .rel que descargué de internet, al cual
cambié la extensión por .doc y una vez abierto guardé como docx.

Gracias!!
Un saludo
MªLuz


--
Pedro Concejero
E-mail: 
pedro.concejerocer...@telefonica.com
skype: pedro.concejero
twitter @ConcejeroPedro
linkedin pedroconcejero
Entusiasta R, me encontraréis aquí gRupo R madRid 


--
Pedro Concejero
E-mail: 
pedro.concejerocer...@telefonica.com
skype: pedro.concejero
twitter @ConcejeroPedro
linkedin pedroconcejero
Entusiasta R, me encontraréis aquí gRupo R madRid 



Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario, puede 
contener información privilegiada o confidencial y es para uso exclusivo de la 
persona o entidad de destino. Si no es usted. el destinatario indicado, queda 
notificado de que la lectura, utilización, divulgación y/o copia sin 
autorización puede estar prohibida en virtud de la legislación vigente. Si ha 
recibido este mensaje por error, le rogamos que nos lo comunique inmediatamente 
por esta misma vía y proceda a su destrucción.

The information contained in this transmission is privileged and confidential 
information intended only for the use of the individual or entity named above. 
If the reader of this message is not the intended recipient, you are hereby 
notified that any dissemination, distribution or copying of this communication 
is strictly prohibited. If you have received this transmission in error, do not 
read it. Please immediately reply to the sender that you have received this 
communication in error and then delete it.

Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinatário, pode 
conter informação privilegiada ou confidencial e é