podes usar Apache PDFBox [1] , unha libraria java, para extraer TextPositions, que inclúe información do formato (cursiva, fuente etc)
Se non che presta java supoño que haberá algunha libraria semellante nalgunha linguaxe dinámica como python o similar saúdos [1] https://pdfbox.apache.org/ On Mon, Mar 1, 2021 at 6:52 PM Antón Méixome <cert...@certima.net> wrote: > É posible extraer dun PDF as palabras que están en cursiva? > Se aplanamos un PDF pérdense certas características que poden ser > interesantes para filtrar > > Poñamos o caso: > > > *vou colle-las laranxas, perdíche-los cartos, collémo-lo saco, ti e-lo > demo, xa sábe-lo* > *que pasou, tomóuno-lo pelo, dóuvo-la boneca, quitóulle-las ganas de rir.* > > De un PDF. Seria posible sacar as palabras en cursiva? Abondaría con que > saísen por orde de ocorrencia (non por orde alfabética) > > > > - Lista de correo de Proxecto Trasno - Enviar correo a - > proxecto@trasno.gal > - Correo do administrador - administra...@trasno.gal - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7438&h=d65df3f70b4c2436efc50218702d19eb244d3152&sa=324048843 > - Lista de correo de Proxecto Trasno - Enviar correo a - proxecto@trasno.gal - Administrador - administra...@trasno.gal - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7439&h=6febb42de851776022470884062a0f3dd452a591&sa=135156844