Re: [R-es] de pdf a csv

2016-09-14 Por tema ignacio holzinger
Saludos.
Te iba a decir lo mismo que Eric. Esas tablas "mal formadas" donde se
fusionan celdas son difíciles de manejar en "piloto automático". Casi
siempre hay que hacer manualidades.
De entre las soluciones que te han aportado esta última es la que suelo
utilizar.
Suerte.

El 14 sept. 2016 18:37, "eric"  escribió:

> Hola Jose, con frecuencia tengo que extraer datos de tablas en articulos
> en PDF tambien, lo que hago es lo siguiente, que no es todo lo automatico
> que uno quisiera pero al menos no tengo que copiar los datos uno a uno:
>
> 1. en linux existe la herramienta pdftotext, que cuando la usas con la
> opcion -layout mantiene, tanto como es posible, el layout original del
> texto, con las tablas me ha funcionado bastante bien
>
> 2. con lo anterior obtienes un archivo de texto plano
>
> 3. abro el archivo y borro todo excepto la tabla que necesito
>
> 4. lo importo en R con read.table() u otra funcion similar
>
>
> Ahora, tu tabla es bastante compleja, quiero decir que para poder usarla
> como un data.frame tendras que hacer algun trabajo extra como incluir
> algunos de los encabezados en columnas adicionales
>
> eso, ojala te sirva.
>
>
> Saludos, Eric.
>
>
>
>
>
> On 09/10/2016 07:30 PM, Dr. José A. Betancourt Bethencourt wrote:
>
>> Estimados
>>
>> En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
>>   como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para
>> poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen
>> un script, el paquete pdftable no me resultó.
>>
>> Saludos
>>
>> José
>>
>>
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>>
> --
> Forest Engineer
> Master in Environmental and Natural Resource Economics
> Ph.D. student in Sciences of Natural Resources at La Frontera University
> Member in AguaDeTemu2030, citizen movement for Temuco with green city
> standards for living
>
> Nota: Las tildes se han omitido para asegurar compatibilidad con algunos
> lectores de correo.
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] de pdf a csv

2016-09-14 Por tema eric
Hola Jose, con frecuencia tengo que extraer datos de tablas en articulos 
en PDF tambien, lo que hago es lo siguiente, que no es todo lo 
automatico que uno quisiera pero al menos no tengo que copiar los datos 
uno a uno:


1. en linux existe la herramienta pdftotext, que cuando la usas con la 
opcion -layout mantiene, tanto como es posible, el layout original del 
texto, con las tablas me ha funcionado bastante bien


2. con lo anterior obtienes un archivo de texto plano

3. abro el archivo y borro todo excepto la tabla que necesito

4. lo importo en R con read.table() u otra funcion similar


Ahora, tu tabla es bastante compleja, quiero decir que para poder usarla 
como un data.frame tendras que hacer algun trabajo extra como incluir 
algunos de los encabezados en columnas adicionales


eso, ojala te sirva.


Saludos, Eric.





On 09/10/2016 07:30 PM, Dr. José A. Betancourt Bethencourt wrote:

Estimados

En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
  como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para
poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen
un script, el paquete pdftable no me resultó.

Saludos

José



___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es



--
Forest Engineer
Master in Environmental and Natural Resource Economics
Ph.D. student in Sciences of Natural Resources at La Frontera University
Member in AguaDeTemu2030, citizen movement for Temuco with green city 
standards for living


Nota: Las tildes se han omitido para asegurar compatibilidad con algunos 
lectores de correo.


___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] de pdf a csv

2016-09-14 Por tema Mauricio Monsalvo
Hola.
Esta entrada también puede ser útil, al menos como ejemplo:
https://gist.github.com/sdgilley/15ebf67c5b01d12224f4b103c7065625 y tiene
el archivo .pdf que utiliza para descargar, así que puede seguirse el
código completo.
También está basada en pdftools
Saludos

El 12 de septiembre de 2016, 9:15, Carlos Ortega 
escribió:

> Hola,
>
> Otra opción comentada "offline" ha sido la de:
>
> https://cloud.r-project.org/web/packages/pdftables/index.html
>
> Que permite conectar "R" con el servicio online que ofrece
> https://pdftables.com.
>
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> El 12 de septiembre de 2016, 14:12, Isidro Hidalgo Arellano <
> ihida...@jccm.es> escribió:
>
> > A ver… yo he utilizado el paquete "tm", concretamente la función
> "readPDF".
> >
> > No es tarea fácil, y no por el paquete que vayas a utilizar, sino por la
> > propia codificación interna de un documento "PDF": te bailarán columnas y
> > filas en las tablas, así que hay que tener mucha paciencia y contemplar
> > todos los casos.
> >
> > A riesgo de meterme dónde no me llaman, revisa muy bien los datos
> cargados
> > desde un "PDF" antes de hacer nada con ellos…
> >
> > Paciencia… ¡y suerte!
> >
> >
> >
> >
> >
> > Isidro Hidalgo Arellano
> >
> > Observatorio del Mercado de Trabajo
> >
> > Consejería de Economía, Empresas y Empleo
> >
> >   http://www.castillalamancha.es/
> >
> >
> >
> >
> >
> >
> >
> > De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de Dr.
> > José
> > A. Betancourt Bethencourt
> > Enviado el: domingo, 11 de septiembre de 2016 0:31
> > Para: r-help-es@r-project.org
> > Asunto: [R-es] de pdf a csv
> >
> >
> >
> > Estimados
> >
> >
> >
> > En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
> > como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para
> poder
> > analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un
> > script, el paquete pdftable no me resultó.
> >
> > Saludos
> >
> > José
> >
> >
> > [[alternative HTML version deleted]]
> >
> >
> > ___
> > R-help-es mailing list
> > R-help-es@r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Mauricio

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] de pdf a csv

2016-09-12 Por tema Carlos Ortega
Hola,

Otra opción comentada "offline" ha sido la de:

https://cloud.r-project.org/web/packages/pdftables/index.html

Que permite conectar "R" con el servicio online que ofrece
https://pdftables.com.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 12 de septiembre de 2016, 14:12, Isidro Hidalgo Arellano <
ihida...@jccm.es> escribió:

> A ver… yo he utilizado el paquete "tm", concretamente la función "readPDF".
>
> No es tarea fácil, y no por el paquete que vayas a utilizar, sino por la
> propia codificación interna de un documento "PDF": te bailarán columnas y
> filas en las tablas, así que hay que tener mucha paciencia y contemplar
> todos los casos.
>
> A riesgo de meterme dónde no me llaman, revisa muy bien los datos cargados
> desde un "PDF" antes de hacer nada con ellos…
>
> Paciencia… ¡y suerte!
>
>
>
>
>
> Isidro Hidalgo Arellano
>
> Observatorio del Mercado de Trabajo
>
> Consejería de Economía, Empresas y Empleo
>
>   http://www.castillalamancha.es/
>
>
>
>
>
>
>
> De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de Dr.
> José
> A. Betancourt Bethencourt
> Enviado el: domingo, 11 de septiembre de 2016 0:31
> Para: r-help-es@r-project.org
> Asunto: [R-es] de pdf a csv
>
>
>
> Estimados
>
>
>
> En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
> como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para poder
> analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un
> script, el paquete pdftable no me resultó.
>
> Saludos
>
> José
>
>
> [[alternative HTML version deleted]]
>
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] de pdf a csv

2016-09-12 Por tema Francisco Rodriguez Sanchez

Buenos días,

Otra opción es el paquete tabulizer: 
https://github.com/ropenscilabs/tabulizer


¡Suerte!

Paco


El 11/09/2016 a las 11:05, Carlos Ortega escribió:

Hola,

¿Has probado esto?

https://cloud.r-project.org/web/packages/pdftools/index.html

pdftools: Extract Text and Data from PDF Documents

Utilities based on libpoppler for extracting text, fonts, attachments and
metadata from a pdf file. Also implements rendering of PDF to bitmaps on
supported platforms.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 11 de septiembre de 2016, 0:30, Dr. José A. Betancourt Bethencourt <
josebetancourt@infomed.sld.cu> escribió:


Estimados



En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
  como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para
poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un
script, el paquete pdftable no me resultó.

Saludos

José

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es






--
Dr Francisco Rodriguez-Sanchez
Integrative Ecology Group
Estacion Biologica de Doñana - CSIC
Avda. Americo Vespucio s/n
41092 Sevilla (Spain)
http://bit.ly/frod_san

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] de pdf a csv

2016-09-11 Por tema Carlos Ortega
Hola,

¿Has probado esto?

https://cloud.r-project.org/web/packages/pdftools/index.html

pdftools: Extract Text and Data from PDF Documents

Utilities based on libpoppler for extracting text, fonts, attachments and
metadata from a pdf file. Also implements rendering of PDF to bitmaps on
supported platforms.

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 11 de septiembre de 2016, 0:30, Dr. José A. Betancourt Bethencourt <
josebetancourt@infomed.sld.cu> escribió:

> Estimados
>
>
>
> En ocasionas hay informaciones epidemiológicas en reportes pdf semanales
>  como el que adjunto que quisiéramos llevar a csv o txt  USANDO R para
> poder analizarlas estadísticamente. Apreciaríamos su ayuda si nos diesen un
> script, el paquete pdftable no me resultó.
>
> Saludos
>
> José
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es