Los datos abiertos en el sector de la salud
Una de las áreas con mayor potencial de aplicación en la Inteligencia Artificial la conforman los datos de salud, donde los datos abiertos suministrados por la administración son una parte determinante y el EEDS pretende potenciar su apertura y mejorar su acceso
El ámbito de la salud es uno de los principales sectores con mayor aplicación y tendencia de uso de las nuevas técnicas de Inteligencia Artificial (IA), en pleno auge a nivel de investigación y desarrollo de productos y servicios. Y para este desarrollo se necesitan datos.
Alineado con los objetivos de la nueva normativa de Reutilización de la Información del Sector Público (RISP), el Real Decreto-Ley 24/2021, cuya perspectiva es favorecer la generación de valor con dichos datos y ampliar su alcance, por ejemplo, con los datos de investigación, actualmente se están llevando a cabo dos iniciativas:
- Los organismos públicos y entidades del ámbito académico están incrementando la disponibilidad de datos abiertos del ámbito de la salud
- La Unión Europea presenta el Espacio Europeo de Datos Sanitarios (EEDS)
Espacio Europeo de Datos Sanitarios (EEDS)
La Comisión Europea (CE) ha presentado un reglamento para crear el Espacio Europeo de Datos Sanitarios (EEDS) cuya finalidad es liberar todo el potencial de los datos sanitarios. La propuesta europea aspira a ayudar a las personas a tomar el control de sus propios datos sanitarios, a apoyar el uso de los mismos para mejorar la prestación de asistencia sanitaria, la investigación, la innovación y la elaboración de políticas, y también permitir a la UE aprovechar plenamente el potencial que ofrece el intercambio, el uso y la reutilización de los datos sanitarios de manera segura y protegida.
El EEDS es, por tanto, un ecosistema específico para la salud formado por reglas, normas y prácticas comunes, infraestructuras y un marco de gobernanza cuyo objetivo es la creación de un mercado único de servicios y productos sanitarios digitales.
La doble vertiente reguladora del EEDS introduce así dos novedades:
- Uso primario de los datos: en los derechos de uso de los datos sanitarios digitales propios por parte de los ciudadanos: acceso, control, rectificación y trazabilidad. El objetivo es que las personas puedan tener un mayor control y acceso digital a sus datos sanitarios personales electrónicos, tanto a escala nacional como de la UE, así como apoyar su libre circulación, fomentando un auténtico mercado único para los sistemas de historiales médicos electrónicos, los productos sanitarios pertinentes y los sistemas de IA de alto riesgo.
- Uso secundario de los datos: ofrecer un marco coherente, fiable y eficiente para el uso de datos sanitarios en actividades de investigación, innovación, formulación de políticas y reglamentación. Desde la perspectiva RISP, permitirá a la UE aprovechar plenamente el potencial que ofrece el intercambio, el uso y la reutilización seguros y protegidos de los datos sanitarios. Es un marco legal sólido para que los investigadores públicos, las instituciones y la industria accedan, combinen y reutilicen los datos de salud.
Fuentes de datos abiertos en el ámbito de la salud
Actualmente, las administraciones públicas ofrecen un amplio catálogo de datos abiertos del ámbito de la salud a nivel europeo, estatal y autonómico, en continua ampliación. Estos datos están disponibles en los distintos portales de datos abiertos y tratan temáticas como la calidad del aire, estadísticas de emergencias y ambulancias, tabaquismo, accidentes, hospitalizaciones o mortalidad, entre otros.
- Sector de actividad 'Salud' en el Portal de Datos Abiertos de la Junta de Andalucía
- Categoría de datos de salud en datos.gob.es, con aprox. 5000 conjuntos de datos
- Categoría de datos de salud del portal europeo data.europa.eu, con más de 18000 conjuntos de datos
Alternativamente, otras fuentes abiertas disponibles que facilitan y favorecen la reutilización son iniciativas no gubernamentales de datos abiertos en el ámbito de la salud y la investigación biomédica:
- GHO data repository de la OMS. El depósito de datos del Observatorio Mundial de la Salud (GHO en sus siglas en inglés) es la puerta de entrada de la Organización Mundial de la Salud a las estadísticas relacionadas con la salud para sus 194 Estados miembros. Brinda acceso a más de 1.000 indicadores sobre temas de salud prioritarios, incluida la mortalidad y la carga de enfermedades, los Objetivos de Desarrollo del Milenio (nutrición infantil, salud infantil, salud materna y reproductiva, inmunización, VIH/SIDA, tuberculosis, malaria, enfermedades desatendidas, agua y saneamiento), enfermedades no transmisibles y factores de riesgo, enfermedades epidémicas, sistemas de salud, salud ambiental, violencia y lesiones, equidad entre otros. Muchos de estos conjuntos de datos representan las mejores estimaciones de la OMS utilizando metodologías para indicadores específicos que apuntan a la comparabilidad entre países y tiempos; se actualizan a medida que se dispone de datos más recientes o revisados, o cuando hay cambios en la metodología que se utiliza.
- Kaggle datasets. Kaggle es una plataforma web gratuita que reúne a la comunidad de Data Science más grande del mundo, con más de 500 miembros activos de casi 200 países. Este programa, con una interfaz Jupyter Notebooks personalizable y sin configuración, recibe más de 150.000 publicaciones mensuales que ponen a disposición de los usuarios una serie de herramientas y recursos para trabajar la ciencia de datos, el análisis predictivo y 'machine learning'.
- Proyecto 1000 genomas de AWS. Amazon reúne en el repositorio de AWS el conjunto de datos completo de una colaboración internacional que ha desarrollado el catálogo más detallado de la variación genética humana. El proyecto pone a disposición de la comunidad los conjuntos de datos públicos de 1.000 genomas de forma gratuita. El trabajo de investigación incluye polimorfismos de un solo nucleótido, variantes estructurales y el contexto del haplotipo. En la fase final del proyecto se secuenció a más de 2 500 personas de 26 poblaciones distintas de todo el mundo y se produjo un conjunto integrado de haplotipos de fase con más de 80 millones de variantes para esas personas.
- OASIS. La serie de estudios de imágenes de acceso abierto OASIS es un proyecto destinado a hacer que los conjuntos de datos de neuroimagen del cerebro estén disponibles gratuitamente para la comunidad científica. Concretamente OASIS-3 es la última versión de la serie, cuya finalidad es facilitar los estudios en neurociencia básica y clínica, y constituye una plataforma de fácil acceso para su uso en neuroimagen, investigación clínica y cognitiva centrada en el envejecimiento y el deterioro cognitivo.
- OpenNEURO. Esta plataforma gratuita y abierta (anteriormente conocida como OpenfMRI) es una base de datos de neuroinformática de ciencia abierta que almacena conjuntos de datos de estudios de investigación de imágenes del cerebro humano: MRI, PET, MEG, EEG e iEEG compatibles con BIDS. La base de datos está disponible en línea y los investigadores de neuroimagen, después de haber realizado sus estudios, pueden cargar sus datos en el sitio para que otros investigadores externos puedan descargar los datos y utilizarlos, e incluso volver a analizarlos.
- DisGeNET. Es una plataforma que contiene una de las mayores colecciones disponibles públicamente de genes y variantes asociadas a enfermedades humanas. Integra datos de repositorios seleccionados por expertos, catálogos GWAS, modelos animales y literatura científica. Los datos de DisGeNET se anotan de manera homogénea con vocabularios controlados y ontologías impulsadas por la comunidad. Además, se proporcionan varias métricas originales para ayudar a priorizar las relaciones genotipo-fenotipo.
Más información
- Análisis de la propuesta sobre el EEDS: https://lajunta.es/3rlgc
- Reglamento EEDS de la CE: https://lajunta.es/3rlgb