Il 09/02/2018 14:45, Piviul ha scritto:
Ciao a tutti, ho qualche pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad incollarlo in un file di testo si vedono solo geroglifici. Se lo do in pasto a pdftotext fa uguale. file --mime-type dice application/pdf; file --mime-encoding risponde binary.


Avete idea di come si possa fare ad estrapolare il testo contenuto?
non so se possa essere utile; pdffonts dice:

name                                 type              encoding         emb sub 
uni object ID
------------------------------------ ----------------- ---------------- --- --- 
--- ---------
KBMYSP+HelveticaLTCom                TrueType          WinAnsi          yes yes 
yes     15  0
Helvetica                            Type 1            Standard         no  no  
no      17  0
RGRGHC+HelveticaLT-Narrow-Bold       Type 1C           Custom           yes yes 
yes      8  0
ZTOCSC+HelveticaLT-Narrow            Type 1C           Custom           yes yes 
yes     10  0
ZQZPOU+HelveticaLTCom,Bold           TrueType          WinAnsi          yes yes 
yes     28  0
BQCAEH+DwdsrnCambria                 CID TrueType      Identity-H       yes yes 
no      38  0
HCWDUN+ArialMT                       TrueType          WinAnsi          yes yes 
yes     45  0
DLPTOP+Cambria,Bold                  TrueType          WinAnsi          yes yes 
yes     41  0
NVQVEL+VbygjbCambria                 CID TrueType      Identity-H       yes yes 
no      56  0
EVCAZM+Calibri                       TrueType          WinAnsi          yes yes 
yes     59  0
ZOFRYK+RcplkbCambria-Bold            TrueType          WinAnsi          yes yes 
yes     53  0
WMNFTC+NqwbncCambria-Italic          TrueType          WinAnsi          yes yes 
yes     80  0
SVGYIJ+VcrthqCambria-Italic          CID TrueType      Identity-H       yes yes 
no     122  0
AHZWSD+MstlhbCambria                 Type 1C           Custom           yes yes 
yes    138  0
BKVNWR+DbgltcCambria-Bold            CID TrueType      Identity-H       yes yes 
no     133  0
NYWRDY+PmqwtnEuclid                  TrueType          WinAnsi          yes yes 
yes    142  0
YBXRCS+GkppybCambria-Italic          Type 1C           WinAnsi          yes yes 
no     136  0
FILAGK+XqsgyjSymbolMT                Type 1C           Custom           yes yes 
no     140  0
VZQHVQ+DykmcxSymbolMT                CID TrueType      Identity-H       yes yes 
no     155  0
VTXDWL+HvwyhpEuclid                  Type 1C           Custom           yes yes 
yes    150  0

Grazie ancora

Piviul

Rispondere a