After splitting your CamusLetranger.pdf file into 50-page sections, I
fed into VietOCR (2.0 Beta), which uses GhostScript to convert PDF to
PNG format, and got this result which seems acceptable:

I
AuJoURD'HU1, maman est morte. Ou peut-être
hier, je ne sais pas. fai reçu un télégramme
de l'asi1e : << Mère décédée. Enterrement de-
main. Sentiments distingués. ›› Cela ne veut
rien dire. C'ótait peut-être hier.
I_'asi1e de vieillards est à Marengo, à quatre-
vingts kilomètres d'Alger. je prendrai l'auto-
bus à deux heures et j'arriverai dans l'après-
midi. Ainsi, je pourrai veiller et je rentrerai
demain soir. fai demandé deux jours de
congé à mon patron et il ne pouvait pas me
les refuser avec une excuse pareille. Mais il
n'avait pas l'air content. Je lui ai même dit :
<< Ce n'est pas de ma faute. ›› Il n'a pas
répondu. ]'ai pensé alors que je n'aurais pas
dû lui dire cela. En somme, je n'avais pas à


On Jul 5, 4:00 pm, "fontenot.1031" <[email protected]> wrote:
> Looks like I got a better result by using some different parameters
> with imagemagick.
>
> Using: convert -trim -posterize 9 +matte -geometry 650 -linewidth 1 -
> identify -enhance +dither -colors 16 +contrast -density 88 -black-
> point-compensation -quality 90 -unsharp 0.7x1.1+2.0+0
> CamusLetranger.pdf pages/page.jpg
>
> I got .jpg files that look like these:http://imgur.com/iayVG.jpg
> And when converted to .tif and ran tesseract on it I got this output:
> I ,
> ÀU]OURD’¥IIîî, mâlîlêlll est morte. Ou peubêtrc
> hier, jc nc sais pas. _|‘al reçu un télégramme
> de l'asile : u Mère décédée. Enterrement de-
> main. Sentiments dnsninguès. sa Ccla nc veut
> rien dire. C'étaiL peut-être hier.
> L'asile de vieillards est à Mzircngo. à quatre-
> vingls kilomètres d’Alger. jc prendrai l`aut¤-
> bus à deux hemcs ct j'a11·ivcral dans I’après·
> mrdi. Ainsi. je pourrai veiller et jc rcntrcrai
> demain soir. fai demandé deux jours dû
> congé à mon patron ct il ne pouvait pas mc
> lcs rcfuscr avec une excuse parcillc. Mais il
> n':wa,ît pas llair coment. je lui ai même dit. :
> u Ce h"€5I pas de ma faute. sa Il n'a pas
> répondu. fai pensé alors que jc n’:~.ura.is pas
> dû lui dirc ccla,. En somme, je n'avais pas à
>
> Which is okay-ish. I can re-interpret most of the original text and
> fix the errors.
>
> My question is: are they any other better options to use when
> converting from pdf to .jpg?
>
> > it's quite likely that the resolution was chosen specifically so nobody 
> > would be able to use OCR on the scans.
>
> The original PDF is of high quality. Here's a link to 
> it:http://www.lecanardduloir.com/Docs/CamusLetranger.pdf

-- 
You received this message because you are subscribed to the Google Groups 
"tesseract-ocr" group.
To post to this group, send email to [email protected].
To unsubscribe from this group, send email to 
[email protected].
For more options, visit this group at 
http://groups.google.com/group/tesseract-ocr?hl=en.

Reply via email to