Re: Programa para escanear textos (OCR) en Debian
Hola a todos, y trabaja pero lastimosamente no al 100% (siendo objetivo trabaja entre un 70-80% bien). ¿tesseract-ocr 2.01 ? ¿Qué son las características del documento de origen? ¿Problema de instalación de tesseract? He aquí un ejemplo con un texto en francés. El documento es vago. Es una imagen pdf. Ella se parece a eso: http://forum.ubuntu-fr.org/viewtopic.php?pid=1688790#p1688790 documento de origen (forum ubuntu-fr) Importación 300dpi con Gimp. Aumento del contraste (+55). Registro al formato tiff sin compresión. ocr con gscan2pdf+tesseract : http://forum.ubuntu-fr.org/viewtopic.php?pid=1697930#p1697930 He aquí el resultado Documentación: http://doc.ubuntu-fr.org/tesseract-ocr; En francés ;-) ¿O sea, mucho mejor, http://www.guadalinex.org/participa/foros/hilo/17193/?orden=asc#88014 en español? :D Ahora, dos soluciones fáciles existen. 1°) xsane+xsane2tess+tesseract 2.01 2°) gscan2pdf+tesseract 2.01 paquetes deb están disponibles : http://download.tuxfamily.org/guadausers/guadaV4/xsane2tess_1.0-1guadausers1_i386.deb Descargar xsane2tess http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.23_all.deb Descaragar gscan2pdf-0.9.23 http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-3_i386.deb Descargar tesseract-2.01 (con dos idiomas - inglés y francés) Añadir el idioma español es facil : http://tesseract-ocr.googlecode.com/files/tesseract-2.00.spa.tar.gz Descargar idioma_español terminal : tar -zxvf tesseract-2.00.spa.tar.gz luego : cd /home/usuario/Desktop/tessdata luego : sudo cp * /usr/share/tessdata Saludos -- View this message in context: http://www.nabble.com/Programa-para-escanear-textos-%28OCR%29-en-Debian-tp16364804p16834678.html Sent from the debian-user-spanish mailing list archive at Nabble.com.
Re: Programa para escanear textos (OCR) en Debian
Gracias, voy a probarlo y les cuento. Saludos! -- シャカ mbrenes.blogspot.com | sibu.homelinux.org debian gnu/linux Para que no se me olvide http://wiki.debian.org/Normas_Lista_Gmail -- To UNSUBSCRIBE, email to [EMAIL PROTECTED] with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]
Re: Programa para escanear textos (OCR) en Debian
2008/3/29 José Manuel (EB8CXW) [EMAIL PROTECTED]: Hola a [EMAIL PROTECTED]: Gracias, unas preguntas más con estos paquetes gocr y tesseract-ocr, ¿lo qué hacer es convertir una imagen en texto elegible?, si es así, ¿cómo se pondría en el terminar? Podría ser así: gocr [imagen origen] [fichero.txt destino] tesseract-ocr [imagen origen] [fichero.txt destino] ¿O de qué forma se haría?. http://www.howtoforge.com/ocr_with_tesseract_on_ubuntu704 Similar sobre Debian ¿qué extensión debería tener la imagen? Se recomienda TIFF * Disculpa, que se lo envie al privado. -- シャカ mbrenes.blogspot.com | sibu.homelinux.org debian gnu/linux Para que no se me olvide http://wiki.debian.org/Normas_Lista_Gmail
Re: Programa para escanear textos (OCR) en Debian
Moises Brenes escribió: 2008/3/28 Manolo Díaz [EMAIL PROTECTED]: El Sat, 29 Mar 2008 00:12:40 + José Manuel (EB8CXW) [EMAIL PROTECTED] escribió: Hola a [EMAIL PROTECTED]: Desearía que me aconsejarais un programa en Debian, para escanear texto utilizando OCR, que reconozca un porcentaje elevado de caracteres si es posible cerca del 100% Gracias de antemano De 'aptitude search ~Gocr' salen, entre otros paquetes relacionados, clara, gocr y tesseract-ocr. También está ocrad, aunque no he probado ninguno de ellos. Yo habia probado hace unos meses algunas aplicaciones, entre ellas gocr y tessera (esta en su ultima version [en ese momento] compilada con soporte para frances, español, aleman, ingles...) y trabaja pero lastimosamente no al 100%(siendo objetivo trabaja entre un 70-80% bien). Por el tipo de trabajo que se requiere hacer en donde trabajo, es muy necesario que esta tarea se pueda llevar a cabo igual o mejor que como la estan haciendo los usuarios hasta ahora(en Windows con ABBYY). Si consiguiera esto seria lo que me falta para migrar todas las estaciones de almenos ese departamento donde laboro. Asi si alguien sabe algo al respecto estaria muy agradecido. Hola a [EMAIL PROTECTED]: Gracias, unas preguntas más con estos paquetes gocr y tesseract-ocr, ¿lo qué hacer es convertir una imagen en texto elegible?, si es así, ¿cómo se pondría en el terminar? Podría ser así: gocr [imagen origen] [fichero.txt destino] tesseract-ocr [imagen origen] [fichero.txt destino] ¿O de qué forma se haría?.¿qué extensión debería tener la imagen? Gracias por todo y disculpen las molestias -- Un saludo, José Manuel Gran Canaria/España Si vas a escribir.. piensa en esto: no digas nada que no sea mas precioso que el silencio!!!
Programa para escanear textos (OCR) en Debian
Hola a [EMAIL PROTECTED]: Desearía que me aconsejarais un programa en Debian, para escanear texto utilizando OCR, que reconozca un porcentaje elevado de caracteres si es posible cerca del 100% Gracias de antemano -- Un saludo, José Manuel Gran Canaria/España Si vas a escribir.. piensa en esto: no digas nada que no sea mas precioso que el silencio!!!
Re: Programa para escanear textos (OCR) en Debian
El Sat, 29 Mar 2008 00:12:40 + José Manuel (EB8CXW) [EMAIL PROTECTED] escribió: Hola a [EMAIL PROTECTED]: Desearía que me aconsejarais un programa en Debian, para escanear texto utilizando OCR, que reconozca un porcentaje elevado de caracteres si es posible cerca del 100% Gracias de antemano De 'aptitude search ~Gocr' salen, entre otros paquetes relacionados, clara, gocr y tesseract-ocr. También está ocrad, aunque no he probado ninguno de ellos. Saludos. -- Manolo Díaz
Re: Programa para escanear textos (OCR) en Debian
2008/3/28 Manolo Díaz [EMAIL PROTECTED]: El Sat, 29 Mar 2008 00:12:40 + José Manuel (EB8CXW) [EMAIL PROTECTED] escribió: Hola a [EMAIL PROTECTED]: Desearía que me aconsejarais un programa en Debian, para escanear texto utilizando OCR, que reconozca un porcentaje elevado de caracteres si es posible cerca del 100% Gracias de antemano De 'aptitude search ~Gocr' salen, entre otros paquetes relacionados, clara, gocr y tesseract-ocr. También está ocrad, aunque no he probado ninguno de ellos. Yo habia probado hace unos meses algunas aplicaciones, entre ellas gocr y tessera (esta en su ultima version [en ese momento] compilada con soporte para frances, español, aleman, ingles...) y trabaja pero lastimosamente no al 100%(siendo objetivo trabaja entre un 70-80% bien). Por el tipo de trabajo que se requiere hacer en donde trabajo, es muy necesario que esta tarea se pueda llevar a cabo igual o mejor que como la estan haciendo los usuarios hasta ahora(en Windows con ABBYY). Si consiguiera esto seria lo que me falta para migrar todas las estaciones de almenos ese departamento donde laboro. Asi si alguien sabe algo al respecto estaria muy agradecido. -- シャカ mbrenes.blogspot.com | sibu.homelinux.org debian gnu/linux Para que no se me olvide http://wiki.debian.org/Normas_Lista_Gmail