Bonsoir, Samedi 30 septembre 2006, 23:56:35 CEST, Baron Christophe a écrit : >[...] > Par contre (mais c'est une autre histoire) la reconnaissance avec > 'gocr', pas trop > 'h'~'In" > 'u/n'~'ii' > 'fi'~'6' > > Beaucoup de caractères sont ajoutés entre deux caractères > qui se suivent. > La police du texte est 'cm', c'est vrai que moi même, j'ai du mal > à la lire (je trouve les "déliés" trop fins, aparemment gocr pense > comme moi :) ).
Les OCR préfèrent les polices et les images simples : en noir et blanc (pas en niveaux de gris, encore moins en couleur), avec une résolution finalement assez faible (je crois me souvenir que gocr préférait 100 à 200 ppp) sinon, il a trop de détails et ajoute des lettres... Computer Modern est sans doute une fonte trop complexe pour lui, cm fait des ligatures (p.ex. fi est un seul caractère, d'où le « 6 » résultant). Il faut travailler l'image avant de la passer. Faire des tests. Puis utiliser un correcteur orthographique pour automatiser les corrections. Puis relire. Bon courage, -- Sylvain Sauvage

