Re: cursivas de PDF

pd Mon, 01 Mar 2021 12:54:24 -0800

podes usar Apache PDFBox [1] , unha libraria java, para extraer
TextPositions, que inclúe información do formato (cursiva, fuente etc)


Se non che presta java supoño que haberá algunha libraria semellante
nalgunha linguaxe dinámica como python o similar

saúdos

[1] https://pdfbox.apache.org/

On Mon, Mar 1, 2021 at 6:52 PM Antón Méixome <[email protected]> wrote:

> É posible extraer dun PDF as palabras que están en cursiva?
> Se aplanamos un PDF pérdense certas características que poden ser
> interesantes para filtrar
>
> Poñamos o caso:
>
>
> *vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo
> demo, xa sábe-lo*
> *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de rir.*
>
> De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que
> saísen por orde de ocorrencia (non por orde alfabética)
>
>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843
>

- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7439&h=6febb42de851776022470884062a0f3dd452a591&sa=135156844

Re: cursivas de PDF

Responderlle a