5-star Open Data: Esquema de desarrollo de 5 estrellas para Datos Abiertos

Fue en 2010, cuando Tim Berners-Lee, inventor de la World Wide Web (www) e iniciador de los Datos Enlazados (Linked Data), aludió a un esquema de desarrollo de 5 estrellas para Datos Abiertos. Se trata de un sistema de puntuación que puede utilizarse para medir el nivel de apertura y/o vinculación de los datos disponibles en la web, sea cual sea su formato, pero con una licencia abierta. Es decir, un formato donde las especificaciones del software están disponibles de manera gratuita para cualquier usuario, sin ninguna limitación en su reutilización impuesta por derechos de propiedad intelectual.

Andalucía, 10/05/2023
Esquema de desarrollo de cinco estrellas para datos abiertos

Los datos abiertos, según la definición de la organización Open Knowledge Foundation, son aquellos “datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requisito de atribución y de compartirse en la misma manera en que aparecen”.

De ahí que sus tres características fundamentales sean: disponibilidad y acceso, que la información esté disponible como un todo y descargable, de manera preferente, de Internet, así como en un formato conveniente y modificable; reutilización y distribución, datos que puedan ser reutilizados y redistribuidos, e incluso integrados en otros conjuntos de datos; y participación universal, que estén al alcance, sin discriminación alguna, de cualquier persona o grupo.

Web hipertextual vs. Web semántica

Antes de adentrarnos en el esquema de desarrollo de 5 estrellas para Datos Abiertos es necesario definir dos conceptos: web hipertextual y web semántica. La primera usa un sistema, en el que cualquier usuario puede poner su página en la Red y establecer enlaces a cualquiera de los documentos disponibles en ella, preparado para recorrer diferentes páginas web dispuestas en servidores accesibles desde cualquier ordenador conectado a Internet y enlazadas unas con otras conformando una estructura parecida a la de una tela de araña. Un sistema de distribución basado en hipertextos enlazados y accesibles.

La web semántica, por su parte, también conocida como Web 3.0, es el siguiente escalón en el desarrollo de la www. Su principal objetivo es conseguir que la información sea almacenada de manera que los buscadores puedan ‘comprenderla’, más allá de limitarse a almacenar documentos y establecer enlaces entre ellos. Se trata, por tanto, de una web dotada de mayor significado que va a permitir a los usuarios poder encontrar respuestas a sus preguntas de forma sencilla y rápida, superando los límites de la web actual mediante la introducción de descripciones explicitas del significado y de un estructura semántica global de los contenidos disponibles, de manera que estos sean procesables y entendibles por las máquinas.

Esquema de Tim Berners-Lee

Analicemos ahora las características que deben poseer los datos abiertos para situarse en cada uno de los escalones de la clasificación y que beneficios obtienen los usuarios de esos datos en función del escalón en el que se encuentran:

Datos abiertos de una estrella

Son aquellos datos disponibles en la Red, en cualquier formato y con licencia abierta, que los usuarios pueden:

  • Ver
  • Imprimir
  • Guardar localmente (en un disco duro o una memoria usb)
  • Insertados en cualquier otro sistema
  • Modificados
  • Compartidos con otros usuarios

Y además, como editor:

  • Su publicación es sencilla
  • No es necesario repetir a otros que esos datos pueden ser usados

"Es grandioso tener datos accesibles en la Web bajo una licencia abierta (como PDDL, ODC-by o CC0), sin embargo, los datos están atrapados en un documento. Además de requerir la creación de un software para extraer los datos, es difícil sacar los datos del documento".

Datos abiertos de dos estrellas

Para llegar a este segundo peldaño es necesario que los datos no sean sólo una imagen escaneada, sino que estén disponibles de una manera estructurada legible por máquinas como, por ejemplo, en una hoja de cálculo Excel. Con ellos, el usuario puede:

  • Todo lo expuesto en el nivel 1
  • Procesar los datos directamente con software propietario para agregarlos, hacer cálculos, visualizarlos, etc.
  • Exportarlos a otro formato (estructurado)

Y además, como editor:

  • Su publicación sigue siendo fácil

“Los datos son accesibles en la Web en forma estructurada (es decir, en formato para máquinas), sin embargo, los datos todavía están atrapados en un documento. Para extraerlos se necesita un software propietario”.

Datos abiertos de tres estrellas

Esta calificación se logra cuando los datos no requieren un paquete de software propietario para ser analizados por los usuarios. El formato de valores separados por comas (CSV), que almacena datos tabulares en texto sin formato, es buen ejemplo de ello. En este escalón, los datos están al alcance del usuario para poder:

  • Aquello recogido en el nivel 2
  • Manipular los datos de cualquier forma que quieras, sin limitación de características o de uso de algún tipo de software en particular

Y además, como editor:

  • Aún es relativamente simple su publicación

“Los datos no solo están disponibles en la Web sino que también cualquiera puede utilizarlos fácilmente. Por otro lado, todavía son solo datos publicados en la Web y no datos integrados a la Web”.

Datos abiertos de cuatro estrellas

En este nivel se trata ya de datos que utilizan estándares abiertos del World Wide Web Consortium (W3C), organismo mundial encargado de desarrollar las tecnologías y protocolos que han hecho posible la Web que hoy conocemos, como RDF y SPARQL, para identificar cosas.

Las siglas RDF hacen referencia a Resource Description Framework, un modelo conceptual para proporcionar información descriptiva sobre los recursos disponibles en la Web, permitiendo el intercambio de información sin que los datos pierdan su significado, lo que facilita su reutilización. SPARQL (SPARQL Protocol and RDF Query Language), por su parte, es un lenguaje para sondear bases de datos RDF y extraer valores de datos estructurados y semiestructurados, explorar datos mediante consultas a relaciones desconocidas y realizar búsquedas con combinaciones complejas de bases de datos dispares en una única consulta simple.

El usuario puede en este nivel:

  • Aquello ya expuesto en el nivel anterior
  • Enlazarlos desde cualquier otro sitio (Web o local)
  • Marcarlos como favoritos
  • Reutilizar partes de ellos
  • Reutilizar herramientas y librerías disponibles, incluso si éstas sólo entienden parte de los patrones que utilizó quien los publicó
  • Combinar sin problemas los datos con otros

Y además, como editor:

  • Tener control granular sobre los datos y poder optimizar su acceso (balanceo de carga, cacheo, etc.)
  • Que otros editores de datos pueden ahora enlazarse a esos datos

“Ahora los datos están integrados a la Web. Los datos (más importantes) tienen una URI y pueden ser compartidos en la Web. Una forma de representar los datos es utilizar RDF, sin embargo otros formatos como Atom pueden ser convertidos/mapeados, si se requiere”.

Datos abiertos de cinco estrellas

En la cúspide del esquema, los editores de datos, con la ayuda de los estándares W3C y los principios de los Datos Enlazados, vinculan sus datos con los datos de otras personas para proporcionar contexto. La base de datos de gráficos semánticos es capaz de manejar varios conjuntos de datos y enlaces de mapas a fuentes de datos abiertas vinculadas, como, por ejemplo, DBpedia o GeoNames. El usuario puede:

  • Las acciones recogidas en el apartado 4 estrellas
  • Descubrir más datos (relacionados) mientras consume los datos
  • Aprender directamente acerca del esquema de datos

Y además, como editor:

  • Hacer que los datos sean descubiertos
  • Incrementar el valor de esos datos
  • Obtener los mismos beneficios de los enlaces que los consumidores

“Ahora son datos integrados en la Web y enlazados a otros datos. Tanto el consumidor como el editor se benefician del efecto de red”.

Más información