Re: cursivas de PDF

Xabier Villar Mon, 01 Mar 2021 14:45:57 -0800

De principio penso que os pdf son algo puñeteiros, a non ser que domines
algunha librería como che comentan. Pero se tes sorte igual podes pasalos a
html sen moito problema (con pdftohtml) e despois extraelas cun script
simple en python coma o que adxunto. Eu probei nun pdf exportado de
LibreOffice (non soen ser problemáticos) e parece que funciona ben. Proba
se queres, a ver se hai sorte.
Ollo, que pdftohtml xenera varios ficheiros na saída e tes que ver en cal
está o texto (coa opción -s debera ser ficheiro-html.html, se non me
equivoco)


pdftohtml -s ficheiro.pdf
python3 cursivas-html.py ficheiro.html

Podes ter que instalar o paquete BeautifulSoup de Python (python-bs4 en
Ubuntu)

Saúdos!

El lun, 1 mar 2021 a las 18:56, Antón Méixome (<[email protected]>)
escribió:

> É posible extraer dun PDF as palabras que están en cursiva?
> Se aplanamos un PDF pérdense certas características que poden ser
> interesantes para filtrar
>
> Poñamos o caso:
>
>
> *vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo
> demo, xa sábe-lo*
> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de rir.*
>
> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que
> saísen por orde de ocorrencia (non por orde alfabética)
>
>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843
>


-- 

Xabier Villar

- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7440&h=011cf2516a01263a2d634bad462bc6b338e33ee3&sa=599105819

#!/usr/bin/python

import argparse
from bs4 import BeautifulSoup

arg_parser = argparse.ArgumentParser( description = "Extrae os textos marcados en cursiva (<i>...</i>) dun documento html." )
arg_parser.add_argument( "source_file" )
arguments = arg_parser.parse_args()

source = arguments.source_file

with open(source) as fp:
    soup = BeautifulSoup(fp, "html.parser")

soup.find_all("i")
for tag in soup.find_all("i"):
    print(tag.text)

Re: cursivas de PDF

Responderlle a