Historiadores creen que en la fecha Fri, 19 Mar 2004 16:34:12 -0400
<[EMAIL PROTECTED]> escribio:

>> Hola.
>> 
>> Me parece que al escasearlos las páginas las tienes como imagen. Ósea tu 
>> postscript en vez de tener el texto adentro solo tiene una imagen.
>> 
>> Para recuperar el texto tendrías que aplicar un programa de OCR.

mmm... despues de probar varios programas OCR (clara, ocre, gocr, kognition, 
Pattern-lab), resulto que:

1 - Son pocos los softwares existentes.
2 - Los softwares que funcionan en consola (ocre, gocr)
        2.1 - reconocen unos 30% de las palabras correctamente... 
        2.1 - Unos 55% de las palabras, lo reconoce bien, mas con espacio 
(1,2,3 y hasta 6) entre medios, quedando mas o menos asi:
                        Texto OCR       :        es t  a   e s   un a  l   in e 
a , donde s e tie  _ e v a rias  pala b_as.
                        Texto Normal:            esta es una linea, donde se 
tiene varias palabras.

3 - Los front-end para estes aplicativos, arreglan el problema del iten # 
2.1....  
Con algun mecanismo que se basa en un dicionario, o manualmente por el 
usuario...  
Llegando hasta a unos 80% de reconocimento correcto...

No tuvo mucha influencia la calidad de la image.... realize las pruebas con 
imagens a 150/300/600 dpi  y las diferencia fue minima ( <2% ) entre 150 dpi y 
600 dpi.

El scanner Canon D646U (que fue el utilizado), no era de muy buena cualidad 
esto, segun estuve leeyendo en alguna parte.. ... 

Por ultimo, en orden yo recomendaria

X:  clara, pattern-lab, kognition
consola:  gocr, ocre

Bien, esto era..  Bye

=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
Victor Hugo dos Santos
Linux Counter #224399
La Serena - IV Región - Chile

Responder a