miércoles, 18 de noviembre de 2015

¿Cómo se guarda Internet?

   En el mundo de los archiveros, bibliotecarios y documentalistas hay una prioridad más allá de la atención al usuario: conservar nuestro patrimonio documental. Con los libros, revistas y hasta CDs y DVDs la opción parece clara: el almacenaje. Pero, ¿qué sucede cuando el patrimonio es algo tan intangible como una página web?

   El pasado viernes tuve la oportunidad y la suerte de asistir a una charla-debate sobre este tema en la Biblioteca Nacional. La charla la realizó Mar Pérez Morillo acompaña de una presentación en power point que podéis ver en este enlace.

   Internet también debe archivarse y conservarse, pero las tareas para llevarlo a cabo son más complicadas que el almacenaje del patrimonio documental físico. El precedente de la conservación digital lo tenemos en Internet Archive, una biblioteca digital que lleva en marcha desde 1996 y se dedican a guardar la web mundial. A raíz de la fundación de Internet Archive, surgen más archivos en el mundo para conservar webs, blogs y demás sitios online. Primero las bibliotecas nacionales de distintos países (Suecia, Australia, EEUU) y después otras organizaciones como universidades o bibliotecas estatales.

Servidores de Internet Archive. Foto de aquí

   Pero, ¿cómo se guarda Internet? ¿Cómo se pueden conservar páginas webs, redes sociales o blogs? Internet Archive desarrolló un software que rastrea la web y guarda todo lo que encuentra (o todo lo que se le parametriza). Esto se almacena en formato WAR, que después otro software (Open Wayback) puede recuperar y mostrarlo como si se tratara de la web viva.

  Esto genera una cantidad de información digital descomunal, para cuyo almacenaje se necesitan unos servidores gigantescos. Es más, para poder poner en marcha el software de rastreo Heritrix (heredera en latín) se necesitan varios servidores por cada parámetros de búsqueda. El edificio de Internet Archive en San Francisco es enorme y en la empresa hay más de 200 empleados.

   En España, esta labor de conservación se lleva haciendo en la Biblioteca Nacional desde 2009, año en que se contrató una recolección a través de Internet Archive. En 2014, se desarrolló un software propio para llevar a cabo esas "recolecciones de información".

Servidores de la BNE. Foto extraída de su web

   ¿Y por qué es importante guardar esta información? En parte porque es patrimonio documental y como tal, ya tiene derecho propio a su conservación. En parte porque es nuestra memoria histórica, aunque ahora esto parezca de risa. Las páginas webs se cierran y desaparecen por completo y esto no sucede sólo cuando el dueño del sitio web decide cerrarlo sino también cuando un dominio entero desaparece porque ha desaparecido el país al que pertenecía, como sucedió en Yugoslavia.

   Aunque se está trabajando cada vez más por la conservación de esta información, su puesta al público es un tema espinoso -sobre todo por cuestiones de derechos de autor-, por lo que de momento, el contenido que tiene recopilado la BNE no está en acceso abierto. Otras bibliotecas, como la British Library o la Biblioteca Nacional de Australia tienen parte de contenido abierto: aquellas páginas web para las que han solicitado permiso previo.

   Queda mucho camino por recorrer en el campo de la preservación digital, pero los primeros pasos, que son recopilar la información, ya se están dando. Muchas gracias a Mar Pérez Morillo por la estupenda charla y a la Biblioteca Nacional de España por su organización.

No hay comentarios: