Re: Programa para escanear textos (OCR) en Debian

2008-04-23 Por tema Sorbus

Hola a todos,

y trabaja pero lastimosamente no al 100% (siendo objetivo trabaja entre un
70-80% bien).

¿tesseract-ocr 2.01 ?
 
¿Qué son las características del documento de origen? ¿Problema de
instalación de tesseract?

He aquí un ejemplo con un texto en francés. El documento es vago. Es una
imagen pdf. Ella se parece a eso:
http://forum.ubuntu-fr.org/viewtopic.php?pid=1688790#p1688790 documento de
origen (forum ubuntu-fr) 

Importación 300dpi con Gimp. Aumento del contraste (+55). Registro al
formato tiff sin compresión.
ocr con gscan2pdf+tesseract :
http://forum.ubuntu-fr.org/viewtopic.php?pid=1697930#p1697930 He aquí el
resultado 

Documentación:

http://doc.ubuntu-fr.org/tesseract-ocr;  En francés   ;-) 
¿O sea, mucho mejor, 
http://www.guadalinex.org/participa/foros/hilo/17193/?orden=asc#88014 en
español?   :D

Ahora, dos soluciones fáciles existen.

1°) xsane+xsane2tess+tesseract 2.01

2°) gscan2pdf+tesseract 2.01

paquetes deb están disponibles :
http://download.tuxfamily.org/guadausers/guadaV4/xsane2tess_1.0-1guadausers1_i386.deb
Descargar xsane2tess 
http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.23_all.deb
Descaragar gscan2pdf-0.9.23 
http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-3_i386.deb
Descargar tesseract-2.01 (con dos idiomas - inglés y francés) 
Añadir el idioma español es facil :
http://tesseract-ocr.googlecode.com/files/tesseract-2.00.spa.tar.gz
Descargar idioma_español 
terminal :
tar -zxvf tesseract-2.00.spa.tar.gz
luego :
cd /home/usuario/Desktop/tessdata
luego :
sudo cp * /usr/share/tessdata

Saludos
-- 
View this message in context: 
http://www.nabble.com/Programa-para-escanear-textos-%28OCR%29-en-Debian-tp16364804p16834678.html
Sent from the debian-user-spanish mailing list archive at Nabble.com.



Re: Programa para escanear textos (OCR) en Debian

2008-04-23 Por tema Moises Brenes
Gracias, voy a probarlo y les cuento.

Saludos!


-- 
シャカ
mbrenes.blogspot.com | sibu.homelinux.org
debian gnu/linux

Para que no se me olvide http://wiki.debian.org/Normas_Lista_Gmail


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Programa para escanear textos (OCR) en Debian

2008-03-31 Por tema Moises Brenes
2008/3/29 José Manuel (EB8CXW) [EMAIL PROTECTED]:
  Hola a [EMAIL PROTECTED]:

  Gracias, unas preguntas más  con estos paquetes gocr y tesseract-ocr, ¿lo
 qué hacer es convertir una imagen en texto elegible?, si es así, ¿cómo se
 pondría en el terminar?
  Podría ser así:
  gocr  [imagen origen]  [fichero.txt destino]
  tesseract-ocr  [imagen origen]  [fichero.txt destino]
  ¿O de qué forma se haría?.

http://www.howtoforge.com/ocr_with_tesseract_on_ubuntu704
Similar sobre Debian

¿qué extensión debería tener la imagen?

Se recomienda TIFF

* Disculpa, que se lo envie al privado.

-- 
シャカ
mbrenes.blogspot.com | sibu.homelinux.org
debian gnu/linux

Para que no se me olvide http://wiki.debian.org/Normas_Lista_Gmail


Re: Programa para escanear textos (OCR) en Debian

2008-03-29 Por tema José Manuel (EB8CXW)


Moises Brenes escribió:

2008/3/28 Manolo Díaz [EMAIL PROTECTED]:
  

El Sat, 29 Mar 2008 00:12:40 +
 José Manuel (EB8CXW) [EMAIL PROTECTED] escribió:


  Hola a [EMAIL PROTECTED]:
 
  Desearía que me aconsejarais un programa en Debian, para escanear
  texto utilizando OCR, que reconozca un porcentaje elevado de
  caracteres si es posible cerca del 100%
  Gracias de antemano
 

 De 'aptitude search ~Gocr' salen, entre otros paquetes relacionados,
 clara, gocr y tesseract-ocr. También está ocrad, aunque no he probado
 ninguno de ellos.



Yo habia probado hace unos meses algunas aplicaciones, entre ellas
gocr y tessera (esta en su ultima version [en ese momento] compilada
con soporte para frances, español, aleman, ingles...) y trabaja pero
lastimosamente no al 100%(siendo objetivo trabaja entre un 70-80%
bien).

Por el tipo de trabajo que se requiere hacer en donde trabajo, es muy
necesario que esta tarea se pueda llevar a cabo igual o mejor que como
la estan haciendo los usuarios hasta ahora(en Windows con ABBYY).

Si consiguiera esto seria lo que me falta para migrar todas las
estaciones de almenos ese departamento donde laboro. Asi si alguien
sabe algo al respecto estaria muy agradecido.
  

Hola a [EMAIL PROTECTED]:

Gracias, unas preguntas más  con estos paquetes gocr y tesseract-ocr, 
¿lo qué hacer es convertir una imagen en texto elegible?, si es así, 
¿cómo se pondría en el terminar?

Podría ser así:
gocr  [imagen origen]  [fichero.txt destino]
tesseract-ocr  [imagen origen]  [fichero.txt destino]
¿O de qué forma se haría?.¿qué extensión debería tener la imagen?

Gracias por todo y disculpen las molestias
--
Un saludo,
José Manuel
Gran Canaria/España

Si vas a escribir.. piensa en esto:
no digas nada que no sea mas precioso que el silencio!!!




Programa para escanear textos (OCR) en Debian

2008-03-28 Por tema José Manuel (EB8CXW)

Hola a [EMAIL PROTECTED]:

Desearía que me aconsejarais un programa en Debian, para escanear texto 
utilizando OCR, que reconozca un porcentaje elevado de caracteres si es 
posible cerca del 100%

Gracias de antemano

--
Un saludo,
José Manuel
Gran Canaria/España

Si vas a escribir.. piensa en esto:
no digas nada que no sea mas precioso que el silencio!!!


Re: Programa para escanear textos (OCR) en Debian

2008-03-28 Por tema Manolo Díaz
El Sat, 29 Mar 2008 00:12:40 +
José Manuel (EB8CXW) [EMAIL PROTECTED] escribió:

 Hola a [EMAIL PROTECTED]:
 
 Desearía que me aconsejarais un programa en Debian, para escanear
 texto utilizando OCR, que reconozca un porcentaje elevado de
 caracteres si es posible cerca del 100%
 Gracias de antemano
 

De 'aptitude search ~Gocr' salen, entre otros paquetes relacionados,
clara, gocr y tesseract-ocr. También está ocrad, aunque no he probado
ninguno de ellos.

Saludos.
-- 
Manolo Díaz



Re: Programa para escanear textos (OCR) en Debian

2008-03-28 Por tema Moises Brenes
2008/3/28 Manolo Díaz [EMAIL PROTECTED]:
 El Sat, 29 Mar 2008 00:12:40 +
  José Manuel (EB8CXW) [EMAIL PROTECTED] escribió:


   Hola a [EMAIL PROTECTED]:
  
   Desearía que me aconsejarais un programa en Debian, para escanear
   texto utilizando OCR, que reconozca un porcentaje elevado de
   caracteres si es posible cerca del 100%
   Gracias de antemano
  

  De 'aptitude search ~Gocr' salen, entre otros paquetes relacionados,
  clara, gocr y tesseract-ocr. También está ocrad, aunque no he probado
  ninguno de ellos.

Yo habia probado hace unos meses algunas aplicaciones, entre ellas
gocr y tessera (esta en su ultima version [en ese momento] compilada
con soporte para frances, español, aleman, ingles...) y trabaja pero
lastimosamente no al 100%(siendo objetivo trabaja entre un 70-80%
bien).

Por el tipo de trabajo que se requiere hacer en donde trabajo, es muy
necesario que esta tarea se pueda llevar a cabo igual o mejor que como
la estan haciendo los usuarios hasta ahora(en Windows con ABBYY).

Si consiguiera esto seria lo que me falta para migrar todas las
estaciones de almenos ese departamento donde laboro. Asi si alguien
sabe algo al respecto estaria muy agradecido.


-- 
シャカ
mbrenes.blogspot.com | sibu.homelinux.org
debian gnu/linux

Para que no se me olvide http://wiki.debian.org/Normas_Lista_Gmail