Haifa, Israel - 25 de agosto 2010 IBM y la Comisión Europea colaboran en un proyecto que incluye más de dos docenas de bibliotecas nacionales, institutos de investigación, universidades y empresas de toda Europa para ofrecer una nueva tecnología que permitirá la digitalización a gran escala y con precisión de textos raros e históricos.
A diferencia de los proyectos de digitalización anteriores en los que se obtenían como resultado bibliotecas de documentos online estáticos, este esfuerzo a gran escala, llamado Impact (IMProving ACcess to Text), ofrecerá nuevas herramientas y determinará las mejores prácticas para que las instituciones europeas produzcan réplicas digitales de calidad de los textos de importancia histórica, de forma eficiente, para hacer que estén disponibles, editables y buscables online. Financiado por la Comisión Europea, el proyecto Impact combina el poder del reconocimiento óptico de caracteres (OCR) adaptativo con técnicas de "crowd computing" - un concepto de diseño en torno a grupos o "crowds", que está creciendo rápidamente-. Con este sistema se mejoran los procesos y los productos compartiendo conocimientos y experiencia, lo que permite mejorar drásticamente la calidad y la eficiencia. Combinadas, estas técnicas permitirán a las instituciones adaptar la digitalización a las fuentes (tipografías) antiguas de sus documentos, a sus propias particularidades, anomalías y vocabularios, reduciendo los índices de error en un 35% y las tasas de sustitución en un 75%. Impact se aplicara a todo tipo de documentos desde el siglo 15 hasta el 19. Los OCR de hoy funcionan bien con los textos impresos modernos, pero con los antiguos, la tinta desvanecida con el tiempo y las formas inusuales de los tipos de letra pueden reducir las tasas de reconocimiento hasta en un 50% y requieren una revisión masiva manual de post-producción. En consecuencia, para proyectos de gran envergadura como éste, la eficiencia en la revisión posterior a la producción de textos digitalizados es crucial. "La única manera de hacer un trabajo de digitalización a gran escala es mejorando muchísimo la calidad del OCR inicial, con el fin de reducir las tareas de post-procesado tanto como sea posible", dijo Hildelies Balk, Jefe de Proyectos Europeos en la Koninklijke Bibliotheek y líder del consorcio Impact. "Con Impact esperamos obtener un aumento sustancial de productividad en el proceso de digitalización". En el núcleo del proyecto de digitalización está un nuevo sistema de corrección en colaboración, diseñado por los investigadores de IBM, que hace que sea simple y cómodo verificar la exactitud de los textos escaneados y corregir los errores del OCR a través de una web, por parte de grandes grupos de voluntarios repartidos por el continente. Por otra parte, el sistema es capaz de aprender de los errores de reconocimiento, y se adapta automáticamente a los caracteres de una fuente específica. La tecnología de Impact agiliza, simplifica y acelera el proceso de solucionar exploraciones de texto dudosas, permitiendo a los revisores introducir correcciones. En lugar de mostrar una página entera escaneada, los revisores sólo ven las letras o palabras en cuestión. Por ejemplo, la combinación de letras "r" y "n" ("rn") puede aparecer indistinguible de la letra "m". En esos casos, el sistema recoge muchos ejemplares de la letra "m", y las coloca junto a las letras en cuestión, por lo que es mucho más fácil determinar la verdadera identidad de la letra. En los casos en que se duda de una palabra completa, ésta se agrega a una colección de otros términos discutibles, que se disponen en orden alfabético. Los revisores aceptan o rechazan las palabras sustitutas con sólo presionar una tecla. Además, el sistema utiliza un diccionario que se va enriqueciendo a partir de identificaciones realizadas en otros centros y correcciones de otros usuarios. Por ejemplo, un pequeño libro que normalmente tomaría cuatro horas introducirlo escaneado por OCR normal y posterior corrección manual, con el nuevo sistema de revisión colaborativa el proceso se acorta a 30 minutos. Y si se usa el OCR adaptativo se puede reducir aún más el tiempo, dejándolo a 15 minutos. De momento los socios del Consorcio Impact son: IBM Research - Haifa Koninklijke Bibliotheek The British Library Nationalbibliothek Osterreichische Innsbruck Universitat Deutsche Nationalbibliothek Bayerische Staatsbibliothek Gotinga Staats-und Universitätsbibliothek Gottingen Abbyy Production Instituut voor Nederlandse Lexicologie National Centre for Scientific Research "Demokritos" Centrum fur Informations-und Sprachverarbeitung Universidad de Munich Universidad de Bath Universidad de Salford Bibliothéque Nationale de France Biblioteca Nacional de España Poznan Supercomputing & Networking Centre, Polonia. IBM Research http://www.research.ibm.com Consorcio Impact: http://www.impact-project.eu/ Nota de prensa original: http://www-03.ibm.com/press/us/en/pressrelease/32380.wss#release -------------- Traducción rápida de Tomàs Baiget http://elprofesionaldelainformacion.com ---------------------------------------------------- Normas para el correcto uso del correo electrónico: http://www.rediris.es/mail/estilo.html ----------------------------------------------------