Il 09/02/2018 14:45, Piviul ha scritto:
Ciao a tutti, ho qualche pdf a cui dovrei estrapolare il testo
contenuto. Con evince lo apro e lo vedo correttamente ma se vado a
selezionare il testo, copiarlo e ad incollarlo in un file di testo si
vedono solo geroglifici. Se lo do in pasto a pdftotext fa uguale.
file --mime-type dice application/pdf; file --mime-encoding risponde
binary.
Avete idea di come si possa fare ad estrapolare il testo contenuto?
non so se possa essere utile; pdffonts dice:
name type encoding emb sub
uni object ID
------------------------------------ ----------------- ---------------- --- ---
--- ---------
KBMYSP+HelveticaLTCom TrueType WinAnsi yes yes
yes 15 0
Helvetica Type 1 Standard no no
no 17 0
RGRGHC+HelveticaLT-Narrow-Bold Type 1C Custom yes yes
yes 8 0
ZTOCSC+HelveticaLT-Narrow Type 1C Custom yes yes
yes 10 0
ZQZPOU+HelveticaLTCom,Bold TrueType WinAnsi yes yes
yes 28 0
BQCAEH+DwdsrnCambria CID TrueType Identity-H yes yes
no 38 0
HCWDUN+ArialMT TrueType WinAnsi yes yes
yes 45 0
DLPTOP+Cambria,Bold TrueType WinAnsi yes yes
yes 41 0
NVQVEL+VbygjbCambria CID TrueType Identity-H yes yes
no 56 0
EVCAZM+Calibri TrueType WinAnsi yes yes
yes 59 0
ZOFRYK+RcplkbCambria-Bold TrueType WinAnsi yes yes
yes 53 0
WMNFTC+NqwbncCambria-Italic TrueType WinAnsi yes yes
yes 80 0
SVGYIJ+VcrthqCambria-Italic CID TrueType Identity-H yes yes
no 122 0
AHZWSD+MstlhbCambria Type 1C Custom yes yes
yes 138 0
BKVNWR+DbgltcCambria-Bold CID TrueType Identity-H yes yes
no 133 0
NYWRDY+PmqwtnEuclid TrueType WinAnsi yes yes
yes 142 0
YBXRCS+GkppybCambria-Italic Type 1C WinAnsi yes yes
no 136 0
FILAGK+XqsgyjSymbolMT Type 1C Custom yes yes
no 140 0
VZQHVQ+DykmcxSymbolMT CID TrueType Identity-H yes yes
no 155 0
VTXDWL+HvwyhpEuclid Type 1C Custom yes yes
yes 150 0
Grazie ancora
Piviul