podes usar Apache PDFBox [1] , unha libraria java, para extraer
TextPositions, que inclúe información do formato (cursiva, fuente etc)

Se non che presta java supoño que haberá algunha libraria semellante
nalgunha linguaxe dinámica como python o similar

saúdos

[1] https://pdfbox.apache.org/

On Mon, Mar 1, 2021 at 6:52 PM Antón Méixome <cert...@certima.net> wrote:

> É posible extraer dun PDF as palabras que están en cursiva?
> Se aplanamos un PDF pérdense certas características que poden ser
> interesantes para filtrar
>
> Poñamos o caso:
>
>
> *vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo
> demo, xa sábe-lo*
> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de rir.*
>
> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que
> saísen por orde de ocorrencia (non por orde alfabética)
>
>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> proxecto@trasno.gal
> - Correo do administrador - administra...@trasno.gal - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843
>

- Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal
- Administrador - administra...@trasno.gal - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7439&h=6febb42de851776022470884062a0f3dd452a591&sa=135156844

Responderlle a