Opinión    Biodiversidad digital

Wayback Machine: luchando contra la extinción digital

19 minutos

El pasado 24 de octubre fue el XVIII aniversario de la puesta en marcha de la Wayback Machine, el instrumento principal de la iniciativa Internet Archive que, desde cinco años antes, está enfrascada en el hercúleo esfuerzo de construir la biblioteca digital global del histórico de contenidos de internet, con acceso abierto y universal.

Brewster Kahle es su fundador y líder, y sigue al frente del empeño. Este aniversario me ha inspirado para que haga mi modesta contribución para que se reconozcan los enormes méritos de su ingente y altruista esfuerzo, para conseguir que la extinción digital del contenido relevante de internet, no sea irreversible. Hay muy pocos, del total de usuarios de internet y la web -no son lo mismo-, que sepan quién es Browser Kahle. Y, sin embargo, es uno de los triunfadores más pioneros del mundo digital. Es un ingeniero informático, emprendedor y activista de internet y ‘bibliotecario’ digital en pleno siglo XXI.

Defiende sin ambages el acceso universal al conocimiento y una ‘biblioteca digital global’ a través de la red. Se graduó en ingeniería informática en el MIT, donde fue alumno de W. Daniel Hillis y Marvin Minsky (uno de los padres de la inteligencia artificial y cofundador del laboratorio de inteligencia artificial del MIT). Después formó parte del equipo de Thinking Machines, donde fue el ingeniero principal de Connection Machine, en la que crearon el sistema WAIS, el primer sistema distribuido de búsqueda y recuperación de documentos por internet, claro precursor de la World Wide Web. En 1992 fundó, junto con Bruce Gilliat, WAIS Inc. una empresa que vendieron a AOL en 1995 por 15 millones de dólares; y, en 1996, también con Gilliat, fundó otra empresa, Alexa Internet, que vendieron a Amazon en 1999 por 250 millones de dólares.

Internet como una gran biblioteca

En aquel momento, era casi inimaginable que los conceptos pioneros de internet llegaran a ser lo que son hoy, así que el carácter visionario de Kahle es extraordinario. Cuando Kahle y Gilliat crearon esas empresas, la web estaba recién inventada por Tim Berners-Lee en el CERN, pero casi nadie la conocía.

Entre las diferentes formas posibles en las que podía evolucionar internet, estaba la de concebirlo como un ‘almacén virtual universal y accesible’ de contenidos para todos. Esa imagen la había ilustrado el cuento La biblioteca universal der Kurd Laßwitz en 1904 y después La biblioteca de Babel de Jorge Luis Borges en 1941. Los dos, seguramente, influidos por el pensamiento propio de personas cuya educación se había basado en la Galaxia Gutenberg, es decir, en libros impresos.

Este es el caso también de Khale. De ahí que visualizara internet como una gran 'biblioteca universal' y sin límites, construida gracias a la tecnología digital y la red. Como un inmenso almacén-biblioteca accesible por internet, como lugar ideal inmaterial. Un lugar que se diferencia en algo fundamental de una biblioteca física. En una biblioteca digital online, si ‘sacas’ un volumen de sus anaqueles, te lo llevas y lo puedes leer, pero el libro, su contenido, al tiempo todavía sigue allí. Así que Kahle pensó que esa biblioteca digital ideal iba a ser un instrumento mundial canónico de acceso al conocimiento. Sin embargo, pronto se dio cuenta de que la evolución de la web y de internet, no iba a crecer, necesaria y únicamente, según este paradigma bibliotecario.

Otros dos pioneros de la red, Jimmy Wales y Larry Sanger, arrancaron online Wikipedia el 15 de enero de 2001, un sitio de internet que se transformaría, con el tiempo, en la mayor y más popular obra de consulta de la red. Wikipedia no está concebida como biblioteca, sino como una enciclopedia abierta, editada de manera colaborativa y con acceso abierto y gratuito; sin publicidad, y financiada con donaciones. Hoy es otra de las maravillas de los Internet posibles en la red. Hace poco, Internet Archive de Kahle ha llegado a un acuerdo con Wikipedia que permite a los usuarios de Wikipedia comprobar las citas y referencias de libros y la web, y hace de la gran enciclopedia online mucho más fiable.

Internet como biblioteca interminable

?La idea de Kahle para Internet Archive no es lineal sino holística. Lo concibe como una biblioteca de contenidos, no solo con la versión digital de los textos impresos; también está pensado como una gran ‘biblioteca total’, que suma texto, sonido, gráficos, animaciones e imágenes y vídeos. Es decir, cualquier tipo de contenido digitalizado. La misión declarada del Internet Archive es: “Proporcionar acceso universal a todo el conocimiento” y entendiéndolo como un todo, en cualquier formato. Colaboran con más de 625 bibliotecas y otros socios a través de su programa Archive-It para identificar páginas web relevantes. Y en 2006 llegaron a un acuerdo con la Bibliotheca Alexandrina (la nueva gran biblioteca de Alejandría) para depositar allí una copia de los contenidos acumulados desde 1996.

The Wayback Machine: una máquina del tiempo para internet   

El instrumento principal que Kahle creó para hacer funcionar globalmente su iniciativa se llama Wayback Machine. Se inspiró para crearla después de visitar en el año 2000 las oficinas de Alta Vista, donde conseguían almacenar e indexar todo lo que estaba en la Web. Kahle lo cuenta así: “Yo estaba parado allí, mirando un artefacto del tamaño de cinco o seis máquinas de Coca-Cola, y hubo un momento en el que me dije convencido: ‘Puedes hacerlo todo”. Así, en 2001, implementó la Wayback Machine (la máquina del retorno), que permite el acceso público al ingente archivo de la World Wide Web.

La Wayback Machine construye un repositorio gratuito de páginas web que permite a los usuarios ver cómo era una URL en particular cuando fue archivada, independientemente de si ha sido cambiada, borrada o retirada desde entonces. En ese sentido, podríamos calificar también al trabajo del equipo del Internet Archive como el de auténticos arqueólogos de internet, y a su resultado y acumulación, una verdadera arqueología digital accesible de la evolución de la red.

Las cifras actuales del archivo acumulado de los últimos 20 años de la web son impresionantes. Tienen almacenado: 330.000 millones de páginas web; 20 millones de libros y textos; 4,5 millones de grabaciones de audio (incluidos 180.000 conciertos en vivo); cuatro millones de vídeos (incluidos 1,6 millones de programas de noticias de televisión); tres millones de imágenes y más de 200.000 programas de software.

Una sola copia actual colección ocupa más de 10 petabytes (se almacenan al menos dos copias de todo). Para que el lector se haga una idea: un libro ocupa un megabyte, así que esos 10 petabytes equivaldría a 10.000 millones de megabytes, es decir 10.0000 millones de libros. La biblioteca más grande del mundo hoy es la del Congreso de EEUU que acumula 26 millones de volúmenes. 10.000 millones frente a 26 millones, esa es la diferencia de magnitud de su contenido, en comparación con la biblioteca física existente más grande del mundo. Hoy Internet Archive ya tiene más de 7,6 millones de usuarios distintos.

Kahle está convencido de que lograr ese acceso universal al conocimiento está a nuestro alcance gracias a la tecnología y ha orientado su vida a conseguirlo con Internet Archive. Y no solo acceso al conocimiento actual. Con su Wayback Machine se puede ir a ver cómo eran antes esas páginas web, de ahí su nombre. De esa manera, se puede acumular una auténtica geología digital de Internet que se quiere preservar para las siguientes generaciones. Esa es su mayor ambición.

La relación entre lo público y lo privado es otro de los dilemas. Kahle es partidario del acceso abierto, pero combinándolo con ser respetuoso con los derechos de autores. Piensa que puede haber un mundo online de libros comerciales tipo Amazon y, en paralelo, un mundo público ‘de bibliotecas’ coexistiendo y siendo mutuamente respetuosos. Pero no todos piensan así. Por eso rechaza el criterio de digitalización de libros que está llevando a cabo Google, especialmente por la exclusividad que la empresa usa restringiendo el acceso digital de otros sistemas de búsqueda a los libros que ellos digitalizan y archivan.

Una de sus frustraciones declaradas es la falta de un sistema de préstamo ‘decente’ para los materiales digitales. Según Kahle, la digitalización ha pasado del control local distribuido al control central, de lo no lucrativo a lo lucrativo, de lo diverso a lo homogéneo, y de lo regido por la ley a lo regido por el contrato. Uno de los problemas, de ahí sus críticas al gigante de las búsquedas, es que incluso el material ya en dominio público, publicado antes de 1923, ya no está sujeto a la ley de derechos de autor, sigue estando restringido por los contratos de Google y requiere su permiso para ser distribuido o copiado.

Luchando contra la extinción digital y también contra la desinformación

Una de las dificultades contra las que batalla Internet Archive es, aparte del problema de la falta de longevidad de lo digital por como lo ha desarrollado la industria informática. Constantemente, las web se actualizan, igual que las versiones sucesivas del software, en una casi enloquecida carrera de rápida sucesión de versiones al ritmo de la Ley de Moore.

Cuenta Kalhe en un documental de su iniciativa, que los formatos de vídeo .mpeg2 han tenido que actualizarlos cinco veces ya, desde que empezaron, en lo que parece un ‘mantenimiento sin fin’. Y surge la pregunta ¿Google o Flickr van a durar siempre? Además, menciona irónicamente un problema que tiene cierto paralelismo con la antigüedad, ya que su entidad está situada ‘sobre la falla de San Francisco’. Las bibliotecas se pueden quemar, como ya sucedió con la moderna Biblioteca del Congreso de EEUU y mucho antes con la antigua Biblioteca de Alejandría que desapareció consumida por el fuego. Kalhe señala que, si hubiera existido una copia de los libros de Alejandría en China, u otro lugar, ahora tendríamos otras obras de Aristóteles o de Eurípides, que no han llegado a nosotros. Esa, según él, es una de las nuevas diligencias que los bibliotecarios de internet deberán tener. Mantener y además hacer copias digitales y ponerlas, también, en otros lugares para diversificar riesgos de pérdida. Su Internet Archive ya lo está haciendo.

Por otra parte, el universo web es como una entidad viva: muchas webs cierran, otras permanecen (actualizándose continuamente) y algunas nuevas nacen, todo ello en grandes magnitudes. Es decir, la dinámica de la evolución de lo digital en la red tiene un ritmo constante de verdadera extinción digital por todo lo  que es borrado o no actualizado. Frente a eso, lo que da sentido a las bibliotecas es su voluntad de permanencia y de trascender. En muchas de las mejores hay libros impresos hace siglos que sigue siendo posible leer hoy sin mediar artefacto técnico alguno. Veremos si esta ‘preservación’ es posible mantenerla en internet a largo plazo, según la visión de Kalhe.

Y hay un punto aterrador reciente en el internet social. Está claro que el líder de Internet Archive prefiere un internet mejor, fiable, alejado de la falsedad y de la desinformación, al estilo de las bibliotecas clásicas. Esa es otras de sus batallas. Ahora, además de seguir potenciando la preservación, sobre todo desde las elecciones estadounidenses de 2016, a medida que se han intensificado los temores sobre el poder manipulador de las noticias falsas, Internet Archive ha intensificado sus esfuerzos para combatir la desinformación. Y hay una cosa positiva: ante el problema que ha empezado a plantear el nuevo internet social, en el que se crean y difunden más rápidamente contenidos falsos y ultra partidistas que los ciertos o verdaderos y dado que las webs de los medios sociales se actualizan constantemente, se ha vuelto decisiva la importancia de tener un registro inalterable sobre qué verdaderamente ocurrió; o de quién dijo qué; o hasta qué punto y cuándo se han magnificado o ‘viralizado’ informaciones dudosas. Este registro puede ser de gran ayuda, sobre todo para periodistas o usuarios que quieran comprobarlo. Así que Brewster Kahle como buen ‘bibliotecario’ es positivo y declara: “Estamos tratando de poner una capa de responsabilidad (en internet)”. Una dura y difícil tarea que hoy puede cargar aún más de sentido a la misión del Archivo de Internet.