De principio penso que os pdf son algo puñeteiros, a non ser que domines
algunha librería como che comentan. Pero se tes sorte igual podes pasalos a
html sen moito problema (con pdftohtml) e despois extraelas cun script
simple en python coma o que adxunto. Eu probei nun pdf exportado de
LibreOffice (non soen ser problemáticos) e parece que funciona ben. Proba
se queres, a ver se hai sorte.
Ollo, que pdftohtml xenera varios ficheiros na saída e tes que ver en cal
está o texto (coa opción -s debera ser ficheiro-html.html, se non me
equivoco)
pdftohtml -s ficheiro.pdf
python3 cursivas-html.py ficheiro.html
Podes ter que instalar o paquete BeautifulSoup de Python (python-bs4 en
Ubuntu)
Saúdos!
El lun, 1 mar 2021 a las 18:56, Antón Méixome (<[email protected]>)
escribió:
> É posible extraer dun PDF as palabras que están en cursiva?
> Se aplanamos un PDF pérdense certas características que poden ser
> interesantes para filtrar
>
> Poñamos o caso:
>
>
> *vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo
> demo, xa sábe-lo*
> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de rir.*
>
> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que
> saísen por orde de ocorrencia (non por orde alfabética)
>
>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843
>
--
Xabier Villar
- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL :
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7440&h=011cf2516a01263a2d634bad462bc6b338e33ee3&sa=599105819
#!/usr/bin/python
import argparse
from bs4 import BeautifulSoup
arg_parser = argparse.ArgumentParser( description = "Extrae os textos marcados en cursiva (<i>...</i>) dun documento html." )
arg_parser.add_argument( "source_file" )
arguments = arg_parser.parse_args()
source = arguments.source_file
with open(source) as fp:
soup = BeautifulSoup(fp, "html.parser")
soup.find_all("i")
for tag in soup.find_all("i"):
print(tag.text)