Documentar el trabajo realizado con los datos con Notebooks

Introducción

En este tutorial vamos a mostrar cómo realizar un proceso de datos sencillo utilizando notebooks. Estás herramientas son bastante interesantes para el análisis de datos ya que ofrecen ventajas como la inmediatez en obtener resultados o desarrollo iterativo, además de facilitar mucho la documentación sobre los pasos dados y las conclusiones obtenidas.

Se necesitan conocimientos de programación para poder sacarles todo el partido. En este tutorial vamos a utilizar los notebooks Jupyter y el lenguaje de programación Python, una pareja muy habitual en el análisis de información.

A continuación vamos a ilustrar cómo documentar el proceso de análisis de un conjunto de datos abiertos. Para ello seguiremos las indicaciones generales del Portal de Datos abiertos de la Junta de Andalucía.

Puedes ver el desarrollo de este análisis mediante notebooks en:

Objetivo

Lo primero es plantearse una cuestión sobre la que trabajar. En nuestro caso, vamos a plantearnos analizar cómo es la distribución de los presupuestos de las administraciones locales respecto a la población. En nuestro notebook, de ejemplo, lo hemos incluido en el ejemplo de notebook.

Identificado el objeto de análisis lo más conveniente es reflejarlo de alguna forma que permita a otros entender que se pretende en el notebook sin tener que recorrer todo el documento hasta las posibles conclusiones.

Sobre el conjunto de datos

Para este tutorial utilizaremos el conjunto de datos Registro Andaluz de Entidades Locales, que la Junta de Andalucía ofrece en su catálogo de datos abiertos. Los datos de este conjunto de datos se actualizan periódicamente. En el momento de elaborar este tutorial, los datos que están publicados son los siguientes: RAEL_DATOS_ENTIDADES.xls.

El conjunto de datos únicamente está disponible en formato '.xls', lo que nos permite analizarlo fácilmente con herramientas como las hojas de cálculo o, en este caso, mediante la utilización de lenguajes de programación. Puedes ver como se realiza la carga del fichero en el ejemplo de notebook.

Es importante observar el tipo de la licencia que tienen asociados los datos, ya que te permitirá saber si existe algún tipo de limitación en el posible uso que desees realizar. En éste caso los datos están asociados a la licencia Creative Commons 4.0 Reconocimiento, por lo que podemos hacer uso del conjunto de datos únicamente citando la fuente y haciendo referencia a la licencia.

Desarrolla el proyecto

Una vez seleccionado el conjunto de datos seleccionados y las cuestiones que queremos despejar es el momento de ponernos manos a la obra.

Lo primero que debemos hacer es instalar la herramienta. Si no somos expertos en estas herramientas podemos recurrir a alguna distribución como Anaconda, que incluye Jupyter y Python junto con otras herramientas que nos facilitarán la tarea de análisis.

Una vez instalado, en función del sistema operativo de tu ordenador podrás tener nuevos enlaces en el menú que te permitirán ejecutar Jupyter directamente. Si no es así, siempre puedes ejecutarlo en la consola del sistema operativo utilizando la siguiente instrucción: 'jupyter notebook'.

Una vez ejecutado, Jupyter abrirá un entorno de trabajo en tu navegador como este:

Entorno de Jupyter

 

Ya sólo tendrás que pulsar sobre el botón 'New' para crear tu nuevo notebook y comenzar a trabajar. También puedes cargar un notebook ya creado, como el que vamos a elaborar en este tutorial, usando la función 'Upload'.

Recuerda documentar los pasos que vayas dando. Esta práctica no sólo permite que otras personas puedan conocer fácilmente el proceso que te ha llevado a las conclusiones, también ayuda a validar el trabajo y generar confianzar sobre los resultados que se obtengan.

Te recomendamos que hagas una introducción general sobre los bloques de código que consideres más importantes o de mayor complejidad, además de introducir en el propio código algunos comentarios que permitan aclarar alguna decisión técnica que no sea evidente. Por supuesto, intenta que la lectura del código sea sencilla, es la mejor forma de documentar.

Es importante que en el proceso no se pierda la fuente de información original para poder volver por tus pasos si algo no sale como tenías previsto.

Los notebooks se estructuran en 'celdas'. Estas celdas contienen partes de código que pueden ser ejecutadas independientemente tantas veces como lo sean necesarias. No obstante, debes tener encuenta que las variables sobre las que trabajes son comunes, por lo que el resultado de una celda puede usarse en la siguiente. Una buena práctica es agrupar en la misma celda una parte diferenciada del proceso, por ejemplo la carga inicial de los datos. Intenta sacar partido de la capacidad de ejecutar celdas de forma diferenciada para hacer las pruebas necesarias y refinar tu análisis.

También te recomendamos introducir algunas celdas en el proceso que muestren el estado de los datos, con ello podrás seguir la evolución de tus cálculos y mostrarlos a un posible lector. Existen distintas formas de realizar esas observaciones, las más sencillas pueden ser en formato tabla y en algún caso puede interesarte mostrar una gráfica que te permita ver de forma más global los resultados, en el ejemplo podrás ver ejemplos de ambas salidas.

En nuestro ejemplo puedes ver el desarrollo del análisis de la relación entre la población y el gasto municipal.

Elabora las conclusiones

Una vez que hayas terminado de trabajar con los datos es importante incluir un  apartado de conclusiones que permita explicar el resultado de tu análisis de forma sencilla. Puedes recurrir a apoyos gráficos cuando las conclusiones sean más complejas. En el ejemplo puedes ver algunas gráficas que sirven de apoyo a la conclusión.

Por último, no olvides incluir las referencias a los recursos que has utilizado (datos, librerias, artículos, etc...) ya que ayudan a poner el valor tu análisis y el de los trabajos que has utilizado para obtener las conclusiones.

¿Aún tienes dudas?

Si tienes cualquier duda o necesitas más información puedes contactar a través del siguiente formulario.

Índice