Re: geroglifici in pdftotext
Il February 13, 2018 7:42:42 AM UTC, Marco Bodratoha scritto: >Ciao, > >Il Lun, 12 Febbraio 2018 8:06 pm, Davide Prina ha scritto: >> On 12/02/2018 14:59, Piviul wrote: > >> Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe >avere >> un programma che traduce tutti i glifi che hanno lo stesso valore >> "visuale" (esempio tutti i glifi che visualmente vengono letti come >> carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del >> genere. > >No, la cosa è più complicata di così. L'idea di questo sistema di >"sicurezza" consiste nel ridisegnare i caratteri, non nello scambiare >quelli normalmente presenti in unicode visivamente simili. In un file >PDF >si può includere un intero insieme di caratteri (un "font")... o anche >più >di uno, disegnati ad hoc. > Funziona proprio così, invece, io in passato ho "tradotto" un intero romanzo in questo modo... (Nota a margine, il PDF era stato generato da un documento Word)... È un lavoraccio, poi devi lavorare sulla formattazione e cose varie... Deve valere la pena, altrimenti è un lavoro inutile. La cosa importante è che devi fare una analisi del testo preventiva, ed individuare tutti i caratteri usati, nel mio caso erano usati anche i caratteri corretti, in quanto lavorare su un font ridisegnato (praticamente avevano ridisegnato i singoli font, scambiando tra loro i singoli grafici) nel tuo caso, potrebbe essere più semplice, se hanno usato uno shift verso in altro "settore" del gruppo unicode. -- Byez Gollum1 Tesssoro, dov'è il mio tesssoro... Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità e gli errori (maledetto correttore automatico).
Re: geroglifici in pdftotext
Ciao, Il Lun, 12 Febbraio 2018 8:06 pm, Davide Prina ha scritto: > On 12/02/2018 14:59, Piviul wrote: >> credo non ci sia nulla da fare[¹], sembra sia stata appositamente >> manomessa la toUnicode map... > Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe avere > un programma che traduce tutti i glifi che hanno lo stesso valore > "visuale" (esempio tutti i glifi che visualmente vengono letti come > carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del > genere. No, la cosa è più complicata di così. L'idea di questo sistema di "sicurezza" consiste nel ridisegnare i caratteri, non nello scambiare quelli normalmente presenti in unicode visivamente simili. In un file PDF si può includere un intero insieme di caratteri (un "font")... o anche più di uno, disegnati ad hoc. Se io genero un "font" nel quale il carattere "1" è un semicerchio, diciamo più o meno così "C", il carattere "2" una riga verticale, il carattere "3" una "A" e il carattere "4" un cerchio... scrivendo con quel font "1234", sul documento, visivamente, apparirà "CIAO". Ma come tetsto il PDF conterrà "1234". Certo è un truccaccio indegno, per una sintesi vocale il documento sarà illeggibile, quindi vine persa del tutto la (già poca) accessibilità del PDF. Inoltre, dal punto di vista strettamente della sicurezza, così puoi proteggere giusto un testo che non vale niente. Se vale qualcosa, uno investirà quel tanto di tempo che serve per "decifrare" questa risibile "cifratura". Ĝis, m -- http://bodrato.it/papers/
Re: geroglifici in pdftotext
On 12/02/2018 14:59, Piviul wrote: credo non ci sia nulla da fare[¹], sembra sia stata appositamente manomessa la toUnicode map... [¹] https://acrobatusers.com/forum/security/usage-fonts-non-unicode-glyph-mapping-pdf-documents-copy-protection/ Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe avere un programma che traduce tutti i glifi che hanno lo stesso valore "visuale" (esempio tutti i glifi che visualmente vengono letti come carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del genere. Altra cosa interessante: mai fare clic su un link sul web/posta/..., anche se quello che vedi è esattamente il link a cui vuoi arrivare o meglio ti sembra che lo sia. In unicode sono presenti molti glifi diversi che i tuoi occhi interpretano come lo stesso carattere. Questo vuol dire che usando glifi diversi è possibile creare tante stringhe l'una diversa dall'altra perché composta da caratteri diversi, ma che tu leggi sempre allo stesso modo. Quindi puoi creare un collegamento ipertestuale che a te sembra quello a cui vuoi accedere, ma che in realtà alcuni/tutti i caratteri non sono quelli che ti aspetti e quindi il link punta ad un'altra pagina... Ciao Davide -- Dizionari: http://linguistico.sourceforge.net/wiki I didn't use Microsoft machines when I was in my operational phase, because I couldn't trust them. Not because I knew that there was a particular back door or anything like that, but because I couldn't be sure. Edward Snowden
Re: geroglifici in pdftotext
Il 12/02/2018 14:59, Piviul ha scritto: Libreoffice Draw la apre e si vedono un sacco di bellissimi geroglifici... :( credo non ci sia nulla da fare[¹], sembra sia stata appositamente manomessa la toUnicode map... In pratica ti obbligano a convertire il documento in una serie di immagini ed a passarle ad un OCR
Re: geroglifici in pdftotext
Il 12/02/2018 12:05, Piviul ha scritto: Il 12/02/2018 10:31, Paolo Redælli ha scritto: [...] Io la butto lì: hai provato ad aprire il PDF con un LibreOffice recente? Dovrebbe poter editare il tutto facendolo diventare un documento "Libreoffice Draw" Ora si ;) Libreoffice Draw la apre e si vedono un sacco di bellissimi geroglifici... :( credo non ci sia nulla da fare[¹], sembra sia stata appositamente manomessa la toUnicode map... :( Piviul [¹] https://acrobatusers.com/forum/security/usage-fonts-non-unicode-glyph-mapping-pdf-documents-copy-protection/
Re: geroglifici in pdftotext
Il 12/02/2018 10:31, Paolo Redælli ha scritto: [...] Io la butto lì: hai provato ad aprire il PDF con un LibreOffice recente? Dovrebbe poter editare il tutto facendolo diventare un documento "Libreoffice Draw" Ora si ;) Libreoffice Draw la apre e si vedono un sacco di bellissimi geroglifici... :( Piviul
Re: geroglifici in pdftotext
Il 12/02/2018 08:57, Piviul ha scritto: Il 09/02/2018 20:43, Davide Prina ha scritto: On 09/02/2018 14:45, Piviul wrote: pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad incollarlo in un file di testo si vedono solo geroglifici. potrebbe essere che sono stati usati caratteri unicode che sono simili a quelli alfabetici (alcuni ad occhio sono quasi identici). Prova a ricercare una parola, nel PDF, che si incolla con geroglifici e vedi se la trova. Se non la trova probabilmente è questa la spiegazione. Se cerco un parola di quelle che se copiate vengono incollate con strani simboli incomprensibili, vedo che alcune volte vengono trovate ma non sempre, direi che vengono trovate solo se nel pdf il paragrafo che contiene la parola cercata occupa una sola riga... ma forse non è nemmeno così... non capisco. Comunque talvolta viene trovata e talvolta no. Direi comuinque che potresti avere ragione. Poi puoi provare ad incollare in un documento che supporta l'unicode e ha quel font usato nel PDF (es: Libreoffice Writer) questo non è facile da attuare: come faccio a sapere quale font è stato usato? Io la butto lì: hai provato ad aprire il PDF con un LibreOffice recente? Dovrebbe poter editare il tutto facendolo diventare un documento "Libreoffice Draw"
Re: geroglifici in pdftotext
Il 09/02/2018 20:43, Davide Prina ha scritto: On 09/02/2018 14:45, Piviul wrote: pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad incollarlo in un file di testo si vedono solo geroglifici. potrebbe essere che sono stati usati caratteri unicode che sono simili a quelli alfabetici (alcuni ad occhio sono quasi identici). Prova a ricercare una parola, nel PDF, che si incolla con geroglifici e vedi se la trova. Se non la trova probabilmente è questa la spiegazione. Se cerco un parola di quelle che se copiate vengono incollate con strani simboli incomprensibili, vedo che alcune volte vengono trovate ma non sempre, direi che vengono trovate solo se nel pdf il paragrafo che contiene la parola cercata occupa una sola riga... ma forse non è nemmeno così... non capisco. Comunque talvolta viene trovata e talvolta no. Direi comuinque che potresti avere ragione. Poi puoi provare ad incollare in un documento che supporta l'unicode e ha quel font usato nel PDF (es: Libreoffice Writer) questo non è facile da attuare: come faccio a sapere quale font è stato usato? :( Piviul
Re: geroglifici in pdftotext
Il 09/02/2018 21:21, Giuliano Curti ha scritto: [...] Non so se può essere d'aiuto, mi sembra cmq che il PDF sia un contenitore multiformato: se il formato è TEXT estrarre il contenuto dovrebbe essere facile (a me capita di farlo con una semplice selezione e copia); se il formato è GRAFICO credo non ci sia verso (non so se nel caso può diventare utile un ocr); beh, è la prima cosa che ho controllato, si tratta sicuramente di testo ma probabilmente come dice Davide è Unicode... Piviul
Re: geroglifici in pdftotext
Il 9 feb 2018 8:43 PM, "Davide Prina"ha scritto: On 09/02/2018 14:45, Piviul wrote: > pdf a cui dovrei estrapolare il testo contenuto. Non so se può essere d'aiuto, mi sembra cmq che il PDF sia un contenitore multiformato: se il formato è TEXT estrarre il contenuto dovrebbe essere facile (a me capita di farlo con una semplice selezione e copia); se il formato è GRAFICO credo non ci sia verso (non so se nel caso può diventare utile un ocr); Ciao, Giuliano
Re: geroglifici in pdftotext
On 09/02/2018 14:45, Piviul wrote: pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad incollarlo in un file di testo si vedono solo geroglifici. potrebbe essere che sono stati usati caratteri unicode che sono simili a quelli alfabetici (alcuni ad occhio sono quasi identici). Prova a ricercare una parola, nel PDF, che si incolla con geroglifici e vedi se la trova. Se non la trova probabilmente è questa la spiegazione. Poi puoi provare ad incollare in un documento che supporta l'unicode e ha quel font usato nel PDF (es: Libreoffice Writer) Ciao Davide -- Dizionari: http://linguistico.sourceforge.net/wiki Client di posta: http://www.mozilla.org/products/thunderbird GNU/Linux User: 302090: http://counter.li.org Non autorizzo la memorizzazione del mio indirizzo su outlook
Re: geroglifici in pdftotext
Il 09/02/2018 14:45, Piviul ha scritto: Ciao a tutti, ho qualche pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad incollarlo in un file di testo si vedono solo geroglifici. Se lo do in pasto a pdftotext fa uguale. file --mime-type dice application/pdf; file --mime-encoding risponde binary. Avete idea di come si possa fare ad estrapolare il testo contenuto? non so se possa essere utile; pdffonts dice: name type encoding emb sub uni object ID - --- --- --- - KBMYSP+HelveticaLTComTrueType WinAnsi yes yes yes 15 0 HelveticaType 1Standard no no no 17 0 RGRGHC+HelveticaLT-Narrow-Bold Type 1C Custom yes yes yes 8 0 ZTOCSC+HelveticaLT-NarrowType 1C Custom yes yes yes 10 0 ZQZPOU+HelveticaLTCom,Bold TrueType WinAnsi yes yes yes 28 0 BQCAEH+DwdsrnCambria CID TrueType Identity-H yes yes no 38 0 HCWDUN+ArialMT TrueType WinAnsi yes yes yes 45 0 DLPTOP+Cambria,Bold TrueType WinAnsi yes yes yes 41 0 NVQVEL+VbygjbCambria CID TrueType Identity-H yes yes no 56 0 EVCAZM+Calibri TrueType WinAnsi yes yes yes 59 0 ZOFRYK+RcplkbCambria-BoldTrueType WinAnsi yes yes yes 53 0 WMNFTC+NqwbncCambria-Italic TrueType WinAnsi yes yes yes 80 0 SVGYIJ+VcrthqCambria-Italic CID TrueType Identity-H yes yes no 122 0 AHZWSD+MstlhbCambria Type 1C Custom yes yes yes138 0 BKVNWR+DbgltcCambria-BoldCID TrueType Identity-H yes yes no 133 0 NYWRDY+PmqwtnEuclid TrueType WinAnsi yes yes yes142 0 YBXRCS+GkppybCambria-Italic Type 1C WinAnsi yes yes no 136 0 FILAGK+XqsgyjSymbolMTType 1C Custom yes yes no 140 0 VZQHVQ+DykmcxSymbolMTCID TrueType Identity-H yes yes no 155 0 VTXDWL+HvwyhpEuclid Type 1C Custom yes yes yes150 0 Grazie ancora Piviul