Looks like I got a better result by using some different parameters with imagemagick.
Using: convert -trim -posterize 9 +matte -geometry 650 -linewidth 1 - identify -enhance +dither -colors 16 +contrast -density 88 -black- point-compensation -quality 90 -unsharp 0.7x1.1+2.0+0 CamusLetranger.pdf pages/page.jpg I got .jpg files that look like these: http://imgur.com/iayVG.jpg And when converted to .tif and ran tesseract on it I got this output: I , ÀU]OURD’¥IIîî, mâlîlêlll est morte. Ou peubêtrc hier, jc nc sais pas. _|‘al reçu un télégramme de l'asile : u Mère décédée. Enterrement de- main. Sentiments dnsninguès. sa Ccla nc veut rien dire. C'étaiL peut-être hier. L'asile de vieillards est à Mzircngo. à quatre- vingls kilomètres d’Alger. jc prendrai l`aut¤- bus à deux hemcs ct j'a11·ivcral dans I’après· mrdi. Ainsi. je pourrai veiller et jc rcntrcrai demain soir. fai demandé deux jours dû congé à mon patron ct il ne pouvait pas mc lcs rcfuscr avec une excuse parcillc. Mais il n':wa,ît pas llair coment. je lui ai même dit. : u Ce h"€5I pas de ma faute. sa Il n'a pas répondu. fai pensé alors que jc n’:~.ura.is pas dû lui dirc ccla,. En somme, je n'avais pas à Which is okay-ish. I can re-interpret most of the original text and fix the errors. My question is: are they any other better options to use when converting from pdf to .jpg? > it's quite likely that the resolution was chosen specifically so nobody would > be able to use OCR on the scans. The original PDF is of high quality. Here's a link to it: http://www.lecanardduloir.com/Docs/CamusLetranger.pdf -- You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To post to this group, send email to [email protected]. To unsubscribe from this group, send email to [email protected]. For more options, visit this group at http://groups.google.com/group/tesseract-ocr?hl=en.

