Looks like I got a better result by using some different parameters
with imagemagick.

Using: convert -trim -posterize 9 +matte -geometry 650 -linewidth 1 -
identify -enhance +dither -colors 16 +contrast -density 88 -black-
point-compensation -quality 90 -unsharp 0.7x1.1+2.0+0
CamusLetranger.pdf pages/page.jpg

I got .jpg files that look like these: http://imgur.com/iayVG.jpg
And when converted to .tif and ran tesseract on it I got this output:
I ,
ÀU]OURD’¥IIîî, mâlîlêlll est morte. Ou peubêtrc
hier, jc nc sais pas. _|‘al reçu un télégramme
de l'asile : u Mère décédée. Enterrement de-
main. Sentiments dnsninguès. sa Ccla nc veut
rien dire. C'étaiL peut-être hier.
L'asile de vieillards est à Mzircngo. à quatre-
vingls kilomètres d’Alger. jc prendrai l`aut¤-
bus à deux hemcs ct j'a11·ivcral dans I’après·
mrdi. Ainsi. je pourrai veiller et jc rcntrcrai
demain soir. fai demandé deux jours dû
congé à mon patron ct il ne pouvait pas mc
lcs rcfuscr avec une excuse parcillc. Mais il
n':wa,ît pas llair coment. je lui ai même dit. :
u Ce h"€5I pas de ma faute. sa Il n'a pas
répondu. fai pensé alors que jc n’:~.ura.is pas
dû lui dirc ccla,. En somme, je n'avais pas à

Which is okay-ish. I can re-interpret most of the original text and
fix the errors.

My question is: are they any other better options to use when
converting from pdf to .jpg?

> it's quite likely that the resolution was chosen specifically so nobody would 
> be able to use OCR on the scans.

The original PDF is of high quality. Here's a link to it:
http://www.lecanardduloir.com/Docs/CamusLetranger.pdf

-- 
You received this message because you are subscribed to the Google Groups 
"tesseract-ocr" group.
To post to this group, send email to [email protected].
To unsubscribe from this group, send email to 
[email protected].
For more options, visit this group at 
http://groups.google.com/group/tesseract-ocr?hl=en.

Reply via email to