Extraer tablas de datos de documentos PDF con Tabula

Tabula es una herramienta que te permite extraer los datos de las tablas que aparecen en documentos pdf a través de una interfaz web sencilla.

En este tutorial aprenderemos cómo subir un archivo pdf para poder extraer los datos tabulares en formato csv, listos para su uso con un programa de hojas de cálculo. Tabula permite la extracción de tablas en aquellos documentos pdf basados en texto, no en los que contienen páginas escaneadas como imágenes.

En el tutorial trabajaremos a partir del siguiente conjunto de datos:

Calidad sanitaria de las aguas de baño

 

El conjunto de datos nos lleva a una página de la Consejería de Salud desde la que podemos descargar los distintos informes. Elegiremos los datos de calidad sanitaria de las aguas de baño en Málaga, en la segunda quincena del mes de junio de 2017. Para ello, accederemos dentro de 'Informes por quincena' al apartado 'junio-segunda quincena' y, cuando aparezca el mapa de Andalucía, pulsaremos sobre la provincia de Málaga.

Mapa de Andalucía

 

Se descargará un documento en formato pdf de dos páginas:

Informe PDFInforme PDF

 

Ya con los datos que vamos a trabajar descargados, instalaremos la herramienta Tabula, en la versión correspondiente al sistema operativo con el que estemos trabajando (Windows, Mac o Linux) de acuerdo con las instrucciones que aparecen en su sitio web. Una vez instalada abriremos en un navegador web (Chrome, Firefox, Explorer...) la dirección http://127.0.0.1:8080 para empezar a trabajar.

Herramienta Tabula

 

El siguiente paso es importar un pdf. Para ello pulsaremos el botón 'Browse' y elegiremos el fichero 'segunda_quincena_junio_2017_malaga.pdf' en nuestro sistema de archivos:

Abrir archivo Tabula

 

Una vez abierto el archivo, pulsaremos el botón 'Import'. Aparecerá en Tabula una página como la siguiente:

Botón Import en Tabula

 

A continuación, pulsaremos el botón 'Autodetect tables', ubicado en la parte superior de la página, para que la herramienta intente detectar las tablas disponibles. Si la detección automática falla, también es posible seleccionar a mano las zonas de extracción.

Autodetección de tablas

 

Una vez aparezcan marcadas las tablas, pulsaremos el botón 'Preview & Export extracted data' coloreado en verde y ubicado en la parte superior de la hoja. Cuando lo hayamos pulsado, se mostrará una previsualización de los datos:

Previsualización de datos en Tabula

 

Para obtener los datos en csv, seleccionaremos en el campo desplegable 'Export format' el formato csv y, a continuación, pulsaremos el botón 'Export'. Obtendremos un fichero como el siguiente:

Este fichero se puede abrir con un programa de hojas de cálculo como Excel, LibreOffice Calc o Google Hojas de Cálculo. Como se trata de un fichero csv, para que el programa lo interprete correctamente tendremos que seleccionar varias opciones al abrir el archivo: 

  • La codificación de caracteres: Unicode UTF-8.
  • El carácter separador: Coma (,).
  • El delimitador de texto: Comillas dobles (").

La siguiente imagen muestra cómo rellenar las opciones de importación en LibreOffice Calc:

Opciones de importación de texto

 

De una forma sencilla, tendremos los datos listos para trabajar con ellos en una hoja de cálculo. Si quieres aprender más sobre qué cosas puedes hacer con los datos a partir de este punto, te recomendamos que consultes nuestro tutorial 'Trabajar con los datos en hojas de cálculo con Libreoffice Calc'.

¿Aún tienes dudas?

Si tienes cualquier duda o necesitas más información puedes contactar a través del siguiente formulario.

Índice