Re: geroglifici in pdftotext

2018-02-13 Per discussione Gollum1
Il February 13, 2018 7:42:42 AM UTC, Marco Bodrato  
ha scritto:
>Ciao,
>
>Il Lun, 12 Febbraio 2018 8:06 pm, Davide Prina ha scritto:
>> On 12/02/2018 14:59, Piviul wrote:
>
>> Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe
>avere
>> un programma che traduce tutti i glifi che hanno lo stesso valore
>> "visuale" (esempio tutti i glifi che visualmente vengono letti come
>> carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del
>> genere.
>
>No, la cosa è più complicata di così. L'idea di questo sistema di
>"sicurezza" consiste nel ridisegnare i caratteri, non nello scambiare
>quelli normalmente presenti in unicode visivamente simili. In un file
>PDF
>si può includere un intero insieme di caratteri (un "font")... o anche
>più
>di uno, disegnati ad hoc.
>
Funziona proprio così, invece, io in passato ho "tradotto" un intero romanzo in 
questo modo... (Nota a margine, il PDF era stato generato da un documento 
Word)...

È un lavoraccio, poi devi lavorare sulla formattazione e cose varie... Deve 
valere la pena, altrimenti è un lavoro inutile.

La cosa importante è che devi fare una analisi del testo preventiva, ed 
individuare tutti i caratteri usati, nel mio caso erano usati anche i caratteri 
corretti, in quanto lavorare su un font ridisegnato (praticamente avevano 
ridisegnato i singoli font, scambiando tra loro i singoli grafici) nel tuo 
caso, potrebbe essere più semplice, se hanno usato uno shift verso in altro 
"settore" del gruppo unicode.
-- 
Byez
Gollum1
Tesssoro, dov'è il mio tesssoro...

Inviato dal mio dispositivo Android con K-9 Mail. Perdonate la brevità e gli 
errori (maledetto correttore automatico).



Re: geroglifici in pdftotext

2018-02-12 Per discussione Marco Bodrato
Ciao,

Il Lun, 12 Febbraio 2018 8:06 pm, Davide Prina ha scritto:
> On 12/02/2018 14:59, Piviul wrote:

>> credo non ci sia nulla da fare[¹], sembra sia stata appositamente
>> manomessa la toUnicode map...

> Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe avere
> un programma che traduce tutti i glifi che hanno lo stesso valore
> "visuale" (esempio tutti i glifi che visualmente vengono letti come
> carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del
> genere.

No, la cosa è più complicata di così. L'idea di questo sistema di
"sicurezza" consiste nel ridisegnare i caratteri, non nello scambiare
quelli normalmente presenti in unicode visivamente simili. In un file PDF
si può includere un intero insieme di caratteri (un "font")... o anche più
di uno, disegnati ad hoc.

Se io genero un "font" nel quale il carattere "1" è un semicerchio,
diciamo più o meno così "C", il carattere "2" una riga verticale, il
carattere "3" una "A" e il carattere "4" un cerchio... scrivendo con quel
font "1234", sul documento, visivamente, apparirà "CIAO". Ma come tetsto
il PDF conterrà "1234".

Certo è un truccaccio indegno, per una sintesi vocale il documento sarà
illeggibile, quindi vine persa del tutto la (già poca) accessibilità del
PDF. Inoltre, dal punto di vista strettamente della sicurezza, così puoi
proteggere giusto un testo che non vale niente. Se vale qualcosa, uno
investirà quel tanto di tempo che serve per "decifrare" questa risibile
"cifratura".

Ĝis,
m

-- 
http://bodrato.it/papers/



Re: geroglifici in pdftotext

2018-02-12 Per discussione Davide Prina

On 12/02/2018 14:59, Piviul wrote:

credo non ci sia nulla da fare[¹], sembra sia stata appositamente 
manomessa la toUnicode map...


[¹] 
https://acrobatusers.com/forum/security/usage-fonts-non-unicode-glyph-mapping-pdf-documents-copy-protection/ 


Questo caso sarebbe, in teoria, semplice da risolvere: basterebbe avere 
un programma che traduce tutti i glifi che hanno lo stesso valore 
"visuale" (esempio tutti i glifi che visualmente vengono letti come 
carattere 'a' nel carattere 'a'). Non ho idea se esiste qualcosa del genere.


Altra cosa interessante: mai fare clic su un link sul web/posta/..., 
anche se quello che vedi è esattamente il link a cui vuoi arrivare o 
meglio ti sembra che lo sia.


In unicode sono presenti molti glifi diversi che i tuoi occhi 
interpretano come lo stesso carattere. Questo vuol dire che usando glifi 
diversi è possibile creare tante stringhe l'una diversa dall'altra 
perché composta da caratteri diversi, ma che tu leggi sempre allo stesso 
modo. Quindi puoi creare un collegamento ipertestuale che a te sembra 
quello a cui vuoi accedere, ma che in realtà alcuni/tutti i caratteri 
non sono quelli che ti aspetti e quindi il link punta ad un'altra pagina...


Ciao
Davide

--
Dizionari: http://linguistico.sourceforge.net/wiki
I didn't use Microsoft machines when I was in my operational phase, 
because I couldn't trust them.
Not because I knew that there was a particular back door or anything 
like that, but because I couldn't be sure.

Edward Snowden



Re: geroglifici in pdftotext

2018-02-12 Per discussione Paolo Redælli



Il 12/02/2018 14:59, Piviul ha scritto:
Libreoffice Draw la apre e si vedono un sacco di bellissimi 
geroglifici... :(
credo non ci sia nulla da fare[¹], sembra sia stata appositamente 
manomessa la toUnicode map...
In pratica ti obbligano a convertire il documento in una serie di 
immagini ed a passarle ad un OCR




Re: geroglifici in pdftotext

2018-02-12 Per discussione Piviul

Il 12/02/2018 12:05, Piviul ha scritto:

Il 12/02/2018 10:31, Paolo Redælli ha scritto:

[...]
Io la butto lì: hai provato ad aprire il PDF con un LibreOffice 
recente? Dovrebbe poter editare il tutto facendolo diventare un 
documento "Libreoffice Draw"

Ora si ;)

Libreoffice Draw la apre e si vedono un sacco di bellissimi 
geroglifici... :(
credo non ci sia nulla da fare[¹], sembra sia stata appositamente 
manomessa la toUnicode map...


:(

Piviul

[¹] 
https://acrobatusers.com/forum/security/usage-fonts-non-unicode-glyph-mapping-pdf-documents-copy-protection/




Re: geroglifici in pdftotext

2018-02-12 Per discussione Piviul

Il 12/02/2018 10:31, Paolo Redælli ha scritto:

[...]
Io la butto lì: hai provato ad aprire il PDF con un LibreOffice recente? 
Dovrebbe poter editare il tutto facendolo diventare un documento 
"Libreoffice Draw"

Ora si ;)

Libreoffice Draw la apre e si vedono un sacco di bellissimi 
geroglifici... :(


Piviul



Re: geroglifici in pdftotext

2018-02-12 Per discussione Paolo Redælli



Il 12/02/2018 08:57, Piviul ha scritto:

Il 09/02/2018 20:43, Davide Prina ha scritto:

On 09/02/2018 14:45, Piviul wrote:
pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro 
e lo vedo correttamente ma se vado a selezionare il testo, copiarlo 
e ad incollarlo in un file di testo si vedono solo geroglifici.


potrebbe essere che sono stati usati caratteri unicode che sono 
simili a quelli alfabetici (alcuni ad occhio sono quasi identici).


Prova a ricercare una parola, nel PDF, che si incolla con geroglifici 
e vedi se la trova. Se non la trova probabilmente è questa la 
spiegazione.
Se cerco un parola di quelle che se copiate vengono incollate con 
strani simboli incomprensibili, vedo che alcune volte vengono trovate 
ma non sempre, direi che vengono trovate solo se nel pdf il paragrafo 
che contiene la parola cercata occupa una sola riga... ma forse non è 
nemmeno così... non capisco. Comunque talvolta viene trovata e 
talvolta no. Direi comuinque che potresti avere ragione.


Poi puoi provare ad incollare in un documento che supporta l'unicode 
e ha quel font usato nel PDF (es: Libreoffice Writer)
questo non è facile da attuare: come faccio a sapere quale font è 
stato usato?
Io la butto lì: hai provato ad aprire il PDF con un LibreOffice recente? 
Dovrebbe poter editare il tutto facendolo diventare un documento 
"Libreoffice Draw"




Re: geroglifici in pdftotext

2018-02-12 Per discussione Piviul

Il 09/02/2018 20:43, Davide Prina ha scritto:

On 09/02/2018 14:45, Piviul wrote:
pdf a cui dovrei estrapolare il testo contenuto. Con evince lo apro e 
lo vedo correttamente ma se vado a selezionare il testo, copiarlo e ad 
incollarlo in un file di testo si vedono solo geroglifici.


potrebbe essere che sono stati usati caratteri unicode che sono simili a 
quelli alfabetici (alcuni ad occhio sono quasi identici).


Prova a ricercare una parola, nel PDF, che si incolla con geroglifici e 
vedi se la trova. Se non la trova probabilmente è questa la spiegazione.
Se cerco un parola di quelle che se copiate vengono incollate con strani 
simboli incomprensibili, vedo che alcune volte vengono trovate ma non 
sempre, direi che vengono trovate solo se nel pdf il paragrafo che 
contiene la parola cercata occupa una sola riga... ma forse non è 
nemmeno così... non capisco. Comunque talvolta viene trovata e talvolta 
no. Direi comuinque che potresti avere ragione.


Poi puoi provare ad incollare in un documento che supporta l'unicode e 
ha quel font usato nel PDF (es: Libreoffice Writer)
questo non è facile da attuare: come faccio a sapere quale font è stato 
usato?


:(

Piviul



Re: geroglifici in pdftotext

2018-02-11 Per discussione Piviul

Il 09/02/2018 21:21, Giuliano Curti ha scritto:

[...]
Non so se può essere d'aiuto, mi sembra cmq che il PDF sia un 
contenitore multiformato: se il formato è TEXT estrarre il contenuto 
dovrebbe essere facile (a me capita di farlo con una semplice selezione 
e copia); se il formato è GRAFICO credo non ci sia verso (non so se nel 
caso può diventare utile un ocr);
beh, è la prima cosa che ho controllato, si tratta sicuramente di testo 
ma probabilmente come dice Davide è Unicode...


Piviul



Re: geroglifici in pdftotext

2018-02-09 Per discussione Giuliano Curti
Il 9 feb 2018 8:43 PM, "Davide Prina"  ha scritto:

On 09/02/2018 14:45, Piviul wrote:

> pdf a cui dovrei estrapolare il testo contenuto.


Non so se può essere d'aiuto, mi sembra cmq che il PDF sia un contenitore
multiformato: se il formato è TEXT estrarre il contenuto dovrebbe essere
facile (a me capita di farlo con una semplice selezione e copia); se il
formato è GRAFICO credo non ci sia verso (non so se nel caso può diventare
utile un ocr);

Ciao,
Giuliano


Re: geroglifici in pdftotext

2018-02-09 Per discussione Davide Prina

On 09/02/2018 14:45, Piviul wrote:
pdf a cui dovrei estrapolare il testo 
contenuto. Con evince lo apro e lo vedo correttamente ma se vado a 
selezionare il testo, copiarlo e ad incollarlo in un file di testo si 
vedono solo geroglifici.


potrebbe essere che sono stati usati caratteri unicode che sono simili a 
quelli alfabetici (alcuni ad occhio sono quasi identici).


Prova a ricercare una parola, nel PDF, che si incolla con geroglifici e 
vedi se la trova. Se non la trova probabilmente è questa la spiegazione.


Poi puoi provare ad incollare in un documento che supporta l'unicode e 
ha quel font usato nel PDF (es: Libreoffice Writer)


Ciao
Davide

--
Dizionari: http://linguistico.sourceforge.net/wiki
Client di posta: http://www.mozilla.org/products/thunderbird
GNU/Linux User: 302090: http://counter.li.org
Non autorizzo la memorizzazione del mio indirizzo su outlook



Re: geroglifici in pdftotext

2018-02-09 Per discussione Piviul

Il 09/02/2018 14:45, Piviul ha scritto:
Ciao a tutti, ho qualche pdf a cui dovrei estrapolare il testo 
contenuto. Con evince lo apro e lo vedo correttamente ma se vado a 
selezionare il testo, copiarlo e ad incollarlo in un file di testo si 
vedono solo geroglifici. Se lo do in pasto a pdftotext fa uguale.
file --mime-type dice application/pdf; file --mime-encoding risponde 
binary.


Avete idea di come si possa fare ad estrapolare il testo contenuto?

non so se possa essere utile; pdffonts dice:


name type  encoding emb sub 
uni object ID
 -  --- --- 
--- -
KBMYSP+HelveticaLTComTrueType  WinAnsi  yes yes 
yes 15  0
HelveticaType 1Standard no  no  
no  17  0
RGRGHC+HelveticaLT-Narrow-Bold   Type 1C   Custom   yes yes 
yes  8  0
ZTOCSC+HelveticaLT-NarrowType 1C   Custom   yes yes 
yes 10  0
ZQZPOU+HelveticaLTCom,Bold   TrueType  WinAnsi  yes yes 
yes 28  0
BQCAEH+DwdsrnCambria CID TrueType  Identity-H   yes yes 
no  38  0
HCWDUN+ArialMT   TrueType  WinAnsi  yes yes 
yes 45  0
DLPTOP+Cambria,Bold  TrueType  WinAnsi  yes yes 
yes 41  0
NVQVEL+VbygjbCambria CID TrueType  Identity-H   yes yes 
no  56  0
EVCAZM+Calibri   TrueType  WinAnsi  yes yes 
yes 59  0
ZOFRYK+RcplkbCambria-BoldTrueType  WinAnsi  yes yes 
yes 53  0
WMNFTC+NqwbncCambria-Italic  TrueType  WinAnsi  yes yes 
yes 80  0
SVGYIJ+VcrthqCambria-Italic  CID TrueType  Identity-H   yes yes 
no 122  0
AHZWSD+MstlhbCambria Type 1C   Custom   yes yes 
yes138  0
BKVNWR+DbgltcCambria-BoldCID TrueType  Identity-H   yes yes 
no 133  0
NYWRDY+PmqwtnEuclid  TrueType  WinAnsi  yes yes 
yes142  0
YBXRCS+GkppybCambria-Italic  Type 1C   WinAnsi  yes yes 
no 136  0
FILAGK+XqsgyjSymbolMTType 1C   Custom   yes yes 
no 140  0
VZQHVQ+DykmcxSymbolMTCID TrueType  Identity-H   yes yes 
no 155  0
VTXDWL+HvwyhpEuclid  Type 1C   Custom   yes yes 
yes150  0


Grazie ancora

Piviul