Documentar el trabajo realizado con los datos con notebooks

Introducción

En este tutorial vamos a mostrar cómo realizar un proceso de datos sencillo utilizando notebooks. Estas herramientas son bastante interesantes para el análisis de datos, ya que ofrecen ventajas como la inmediatez en obtener resultados o desarrollo interactivo, además de facilitar mucho la documentación sobre los pasos dados y las conclusiones obtenidas.

Se necesitan conocimientos de programación para poder sacarles todo el partido. En este tutorial vamos a utilizar los notebooks Jupyter y el lenguaje de programación Python, una pareja muy habitual en el análisis de información.

A continuación, vamos a ilustrar cómo documentar el proceso de análisis de un conjunto de datos abiertos. Para ello seguiremos las indicaciones generales del Portal de Datos abiertos de la Junta de Andalucía.

Puedes ver el desarrollo de este análisis mediante notebooks en:

Objetivo

Lo primero es plantearse una cuestión sobre la que trabajar. En nuestro caso, vamos a plantearnos analizar cómo es la distribución de los presupuestos de las administraciones locales respecto a la población. Este supuesto lo hemos incluido en el ejemplo de notebook.

Identificado el objeto de análisis, lo más conveniente es reflejarlo de alguna forma que permita a otros entender qué se pretende en el notebook sin tener que recorrer todo el documento hasta las posibles conclusiones.

Sobre el conjunto de datos

Para este tutorial utilizaremos el conjunto de datos Registro Andaluz de Entidades Locales, que la Junta de Andalucía ofrece en su catálogo de datos abiertos. Los datos de este conjunto se actualizan periódicamente. En el momento de elaborar este tutorial, los datos que están publicados son los siguientes: RAEL_DATOS_ENTIDADES.xls.

El conjunto de datos únicamente está disponible en formato '.xls', lo que nos permite analizarlo fácilmente con herramientas como las hojas de cálculo o, en este caso, mediante la utilización de lenguajes de programación. Puedes ver cómo se realiza la carga del fichero en el ejemplo de notebook.

Es importante observar el tipo de la licencia que tienen asociados los datos, ya que te permitirá saber si existe algún tipo de limitación en el posible uso que desees realizar. En este caso, los datos están asociados a la licencia Creative Commons 4.0 Reconocimiento, por lo que podemos hacer uso del conjunto de datos únicamente citando la fuente y haciendo referencia a la licencia.

Desarrolla el proyecto

Una vez seleccionado el conjunto de datos seleccionado y las cuestiones que queremos despejar, es el momento de ponernos manos a la obra.

Lo primero que debemos hacer es instalar la herramienta. Si no somos expertos en estas herramientas, podemos recurrir a alguna distribución como Anaconda, que incluye Jupyter y Python, junto con otras herramientas que nos facilitarán la tarea de análisis.

Una vez instalado, en función del sistema operativo de tu ordenador, podrás tener nuevos enlaces en el menú que te permitirán ejecutar Jupyter directamente. Si no es así, siempre puedes ejecutarlo en la consola del sistema operativo utilizando la siguiente instrucción: 'jupyter notebook'.

Una vez ejecutado, Jupyter abrirá un entorno de trabajo en tu navegador como este:

Entorno de Jupyter

 

Ya solo tendrás que pulsar sobre el botón 'New' para crear tu nuevo notebook y comenzar a trabajar. También puedes cargar un notebook ya creado, como el que vamos a elaborar en este tutorial, usando la función 'Upload'.

Recuerda documentar los pasos que vayas dando. Esta práctica no solo permite que otras personas puedan conocer fácilmente el proceso que te ha llevado a las conclusiones, también ayuda a validar el trabajo y generar confianza sobre los resultados que se obtengan.

Te recomendamos que hagas una introducción general sobre los bloques de código que consideres más importantes o de mayor complejidad, además de introducir en el propio código algunos comentarios que permitan aclarar alguna decisión técnica que no sea evidente. Por supuesto, intenta que la lectura del código sea sencilla, es la mejor forma de documentar.

Es importante que en el proceso no se pierda la fuente de información original para poder volver por tus pasos si algo no sale como tenías previsto.

Los notebooks se estructuran en 'celdas'. Estas celdas contienen partes de código que pueden ser ejecutadas independientemente tantas veces como sean necesarias. No obstante, debes tener en cuenta que las variables sobre las que trabajes son comunes, por lo que el resultado de una celda puede usarse en la siguiente. Una buena práctica es agrupar en la misma celda una parte diferenciada del proceso, por ejemplo la carga inicial de los datos. Intenta sacar partido de la capacidad de ejecutar celdas de forma diferenciada para hacer las pruebas necesarias y refinar tu análisis.

También te recomendamos introducir algunas celdas en el proceso que muestren el estado de los datos, con ello podrás seguir la evolución de tus cálculos y mostrarlos a un posible lector. Existen distintas formas de realizar esas observaciones, las más sencillas pueden ser en formato tabla y en algún caso puede interesarte mostrar una gráfica que te permita ver de forma más global los resultados, en el modelo podrás ver casos de ambas salidas.

En nuestro ejemplo puedes observar el desarrollo del análisis de la relación entre la población y el gasto municipal.

Elabora las conclusiones

Una vez que hayas terminado de trabajar con los datos, es importante incluir un apartado de conclusiones que permita explicar el resultado de tu análisis de forma sencilla. Puedes recurrir a apoyos gráficos cuando las conclusiones sean más complejas. En el ejemplo puedes ver algunas gráficas que sirven de apoyo a la conclusión.

Por último, no olvides incluir las referencias a los recursos que has utilizado (datos, librerías, artículos, etc...), ya que ayudan a poner en valor tu análisis y el de los trabajos que has utilizado para obtener las conclusiones.

¿Aún tienes dudas?

Si tienes cualquier duda o necesitas más información, puedes contactar a través del siguiente formulario.

Índice