Internet recupera el tiempo
Un programa permite buscar datos en páginas web que ya han desaparecido 
o que han cambiado su contenido
Miguel Ángel Criado - Madrid - 04/01/2009 21:35

Las páginas webs son, casi por definición, efímeras. Su contenido cambia 
cada poco tiempo y, en el caso de los periódicos, puede ser sólo un 
minuto. Ahora un programa pretende recuperar todos los datos 
sacrificados con la nueva versión del sitio, dotando de la dimensión del 
tiempo a Internet.
Tres investigadores de la Universidad de Washington (EEUU), han creado 
Zoetrope (http://www.cond.org/zoetrope.html). El programa tiene el 
ambicioso objetivo de ser un buscador temporal que permita recuperar el 
contenido de una página que ya no existe o que ha cambiado. La 
herramienta permite abrir un menú desplegable y bucear por el historial 
de la página, viajando hacia atrás hasta la versión elegida.

Otra posibilidad que ofrece Zoetrope es lo que los creadores llaman 
lentes temporales: elegir un tema o dato determinado y ver cómo ha ido 
evolucionando. Para ello, hay que seleccionar el área de interés de la 
página. La selección puede ser de tres tipos. La primera y más 
sofisticada es la visual.

Gracias a una tecnología de web semántica, el programa interpreta la 
selección realizada. Así, por ejemplo, si un usuario quiere conocer la 
evolución del tráfico en un tramo concreto que recogen sitios como 
Google Maps o las páginas de algunos ayuntamientos, sólo necesita 
seleccionarlo. El desplegable mostrará la situación del tráfico que 
había una hora atrás, el jueves pasado o el mes anterior.

Páginas estables
Este es el sistema más sofisticado pero inestable. Como explican los 
autores, la lente visual sólo es posible en páginas que mantienen 
siempre su estructura y se limitan a reemplazar un viejo dato por el 
nuevo en la misma posición de la web. En el resto de casos, Zoetrope 
crea lentes estructurales y textuales.

Las primeras, que también requieren de cierta constancia en el diseño de 
la página, aprovechan la estructura del lenguaje HTML para localizar el 
término buscado. La lente textual, que analiza la forma, intenta 
encontrar cadenas de texto iguales en las distintas versiones de la 
página. El programa aún está en fase de pruebas.

Uno de los creadores de Zoetrope, Eytan Adar, explica que “una vez que 
tengamos algo más estable, lo ofreceremos a los usuarios para que lo 
prueben”. Adar piensa que su herramienta podría integrarse en los 
navegadores actuales y darles una profundidad en el tiempo que hoy no 
tienen.

Para probar el programa, los investigadores seleccionaron 250 páginas de 
noticias, deportes, tiempo... que rastrearon durante un mes a intervalos 
de una hora. No parecen ni muchas páginas (hay unos 175 millones de 
sitios) ni mucho tiempo. Pero se necesitan muchos servidores para todos 
los datos que quiere ZoetropeTal infraestructura sólo está al alcance de 
grandes empresas como Google o Microsoft. Pero se da la circunstancia de 
que en la creación de Zoetrope ha participado otra gran firma como es 
Adobe Systems.

El proyecto Internet Archive guarda 150 millones de webs
Creada en 1996, Internet Archive es una organización sin ánimo de lucro 
que se impuso la misión de construir una biblioteca de lo digital. Desde 
entonces, y gracias a la colaboración de muchas instituciones, este 
organismo afincado en San Francisco ha recopilado 250.000 grabaciones de 
audio, 135.000 vídeos y un millón de libros descargables. Al cierre del 
año, había superado los 150.000 millones de sitios web catalogados.

La cifra incluye varias copias del mismo sitio tomadas cada cierto 
tiempo (un mes como mínimo) y todas sus páginas. Aunque Eytan Adar, uno 
de los creadores de Zoetrope, reconoce que sería buena idea poder usar 
los datos de este archivo, dice que la falta de continuidad en el tiempo 
lo hace poco útil para el objetivo de darle una dimensión temporal a la 
Red con su programa. Dos ejemplos ilustran este problema.

Internet Archive tiene unas pocas decenas de copias del portal Ole.com, 
pionero en España y que después sería el germen de Terra. Mientras, del 
sitio de Yahoo tiene centenares de versiones desde 1996.

© *Diario Público*.
Calle Caleruega nº 104, 1ª planta. Madrid 28033.

_______________________________________________
Instruções para desiscrever-se por conta própria:
http://listas.ibict.br/cgi-bin/mailman/options/bib_virtual
Bib_virtual mailing list
[email protected]
http://listas.ibict.br/cgi-bin/mailman/listinfo/bib_virtual

Responder a