After splitting your CamusLetranger.pdf file into 50-page sections, I fed into VietOCR (2.0 Beta), which uses GhostScript to convert PDF to PNG format, and got this result which seems acceptable:
I AuJoURD'HU1, maman est morte. Ou peut-être hier, je ne sais pas. fai reçu un télégramme de l'asi1e : << Mère décédée. Enterrement de- main. Sentiments distingués. ›› Cela ne veut rien dire. C'ótait peut-être hier. I_'asi1e de vieillards est à Marengo, à quatre- vingts kilomètres d'Alger. je prendrai l'auto- bus à deux heures et j'arriverai dans l'après- midi. Ainsi, je pourrai veiller et je rentrerai demain soir. fai demandé deux jours de congé à mon patron et il ne pouvait pas me les refuser avec une excuse pareille. Mais il n'avait pas l'air content. Je lui ai même dit : << Ce n'est pas de ma faute. ›› Il n'a pas répondu. ]'ai pensé alors que je n'aurais pas dû lui dire cela. En somme, je n'avais pas à On Jul 5, 4:00 pm, "fontenot.1031" <[email protected]> wrote: > Looks like I got a better result by using some different parameters > with imagemagick. > > Using: convert -trim -posterize 9 +matte -geometry 650 -linewidth 1 - > identify -enhance +dither -colors 16 +contrast -density 88 -black- > point-compensation -quality 90 -unsharp 0.7x1.1+2.0+0 > CamusLetranger.pdf pages/page.jpg > > I got .jpg files that look like these:http://imgur.com/iayVG.jpg > And when converted to .tif and ran tesseract on it I got this output: > I , > ÀU]OURD’¥IIîî, mâlîlêlll est morte. Ou peubêtrc > hier, jc nc sais pas. _|‘al reçu un télégramme > de l'asile : u Mère décédée. Enterrement de- > main. Sentiments dnsninguès. sa Ccla nc veut > rien dire. C'étaiL peut-être hier. > L'asile de vieillards est à Mzircngo. à quatre- > vingls kilomètres d’Alger. jc prendrai l`aut¤- > bus à deux hemcs ct j'a11·ivcral dans I’après· > mrdi. Ainsi. je pourrai veiller et jc rcntrcrai > demain soir. fai demandé deux jours dû > congé à mon patron ct il ne pouvait pas mc > lcs rcfuscr avec une excuse parcillc. Mais il > n':wa,ît pas llair coment. je lui ai même dit. : > u Ce h"€5I pas de ma faute. sa Il n'a pas > répondu. fai pensé alors que jc n’:~.ura.is pas > dû lui dirc ccla,. En somme, je n'avais pas à > > Which is okay-ish. I can re-interpret most of the original text and > fix the errors. > > My question is: are they any other better options to use when > converting from pdf to .jpg? > > > it's quite likely that the resolution was chosen specifically so nobody > > would be able to use OCR on the scans. > > The original PDF is of high quality. Here's a link to > it:http://www.lecanardduloir.com/Docs/CamusLetranger.pdf -- You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To post to this group, send email to [email protected]. To unsubscribe from this group, send email to [email protected]. For more options, visit this group at http://groups.google.com/group/tesseract-ocr?hl=en.

