Haifa, Israel - 25 de agosto 2010

IBM y la Comisión Europea colaboran en un proyecto que incluye más de dos 
docenas de bibliotecas nacionales, institutos de investigación, universidades y 
empresas de toda Europa para ofrecer una nueva tecnología que permitirá la 
digitalización a gran escala y con precisión de textos raros e históricos.

A diferencia de los proyectos de digitalización anteriores en los que se 
obtenían como resultado bibliotecas de documentos online estáticos,  este 
esfuerzo a gran escala, llamado Impact (IMProving ACcess to Text), ofrecerá 
nuevas herramientas y determinará las mejores prácticas para que las 
instituciones europeas produzcan réplicas digitales de calidad de los textos de 
importancia histórica, de forma eficiente, para hacer que estén disponibles, 
editables y buscables online. 

Financiado por la Comisión Europea, el proyecto Impact combina el poder del 
reconocimiento óptico de caracteres (OCR) adaptativo con técnicas de "crowd 
computing"  - un concepto de diseño en torno a grupos o "crowds", que está 
creciendo rápidamente-. Con este sistema se mejoran los procesos y los 
productos compartiendo conocimientos y experiencia, lo que permite mejorar 
drásticamente la calidad y la eficiencia. 

Combinadas, estas técnicas permitirán a las instituciones adaptar la 
digitalización a las fuentes (tipografías) antiguas de sus documentos, a sus 
propias particularidades, anomalías y vocabularios, reduciendo los índices de 
error en un 35% y las tasas de sustitución en un 75%.

Impact se aplicara a todo tipo de documentos desde el siglo 15 hasta el 19.

Los OCR de hoy funcionan bien con los textos impresos modernos, pero con los 
antiguos, la tinta desvanecida con el tiempo y las formas inusuales de los 
tipos de letra pueden reducir las tasas de reconocimiento hasta en un 50% y 
requieren una revisión masiva manual de post-producción. En consecuencia, para 
proyectos de gran envergadura como éste, la eficiencia en la revisión posterior 
a la producción de textos digitalizados es crucial. "La única manera de hacer 
un trabajo de digitalización a gran escala es mejorando muchísimo la calidad 
del OCR inicial, con el fin de reducir las tareas de post-procesado tanto como 
sea posible", dijo Hildelies Balk, Jefe de Proyectos Europeos en la Koninklijke 
Bibliotheek y líder del consorcio Impact. "Con Impact esperamos obtener un 
aumento sustancial de productividad en el proceso de digitalización".

En el núcleo del proyecto de digitalización está un nuevo sistema de corrección 
en colaboración, diseñado por los investigadores de IBM, que hace que sea 
simple y cómodo verificar la exactitud de los textos escaneados y corregir los 
errores del OCR a través de una web, por parte de grandes grupos de voluntarios 
repartidos por el continente. Por otra parte, el sistema es capaz de aprender 
de los errores de reconocimiento, y se adapta automáticamente a los caracteres 
de una fuente específica.

La tecnología de Impact agiliza, simplifica y acelera el proceso de solucionar 
exploraciones de texto dudosas, permitiendo a los revisores introducir 
correcciones. En lugar de mostrar una página entera escaneada, los revisores 
sólo ven las letras o palabras en cuestión. Por ejemplo, la combinación de 
letras "r" y "n" ("rn") puede aparecer indistinguible de la letra "m". En esos 
casos, el sistema recoge muchos ejemplares de la letra "m", y las coloca junto 
a las letras en cuestión, por lo que es mucho más fácil determinar la verdadera 
identidad de la letra.

En los casos en que se duda de una palabra completa, ésta se agrega a una 
colección de otros términos discutibles, que se disponen en orden alfabético. 
Los revisores aceptan o rechazan las palabras sustitutas con sólo presionar una 
tecla. Además, el sistema utiliza un diccionario que se va enriqueciendo a 
partir de identificaciones realizadas en otros centros y correcciones de otros 
usuarios.

Por ejemplo, un pequeño libro que normalmente tomaría cuatro horas introducirlo 
escaneado por OCR normal y posterior corrección manual, con el nuevo sistema de 
revisión colaborativa el proceso se acorta a 30 minutos. Y si se usa el OCR 
adaptativo se puede reducir aún más el tiempo, dejándolo a 15 minutos.

De momento los socios del Consorcio Impact son:

IBM Research - Haifa
Koninklijke Bibliotheek
The British Library
Nationalbibliothek Osterreichische
Innsbruck Universitat
Deutsche Nationalbibliothek
Bayerische Staatsbibliothek
Gotinga Staats-und Universitätsbibliothek Gottingen
Abbyy Production
Instituut voor Nederlandse Lexicologie
National Centre for Scientific Research "Demokritos"
Centrum fur Informations-und Sprachverarbeitung
Universidad de Munich
Universidad de Bath
Universidad de Salford
Bibliothéque Nationale de France
Biblioteca Nacional de España
Poznan Supercomputing & Networking Centre, Polonia.

IBM Research
http://www.research.ibm.com

Consorcio Impact: 
http://www.impact-project.eu/

Nota de prensa original:
http://www-03.ibm.com/press/us/en/pressrelease/32380.wss#release


--------------
Traducción rápida de Tomàs Baiget
http://elprofesionaldelainformacion.com


----------------------------------------------------
Normas para el correcto uso del correo electrónico:
                http://www.rediris.es/mail/estilo.html
----------------------------------------------------

Responder a