Cómo transformar PDF a CSV usando Python y tabula

Cómo transformar PDF a CSV usando Python y tabula
Photo by Mika Baumeister / Unsplash

En ocasiones la información nos llega en una tabla en PDF. Imaginando que la tabla está en un buen formato, no es una imagen y la información está bien, tenemos la posibilidad de pasar lo que nos entrega esta tabla haciendo lo siguiente.

Ubica tu archivo PDF y crea un script de python con extensión .py. Antes de comenzar a hacer el script, vamos a necesitar la librería tabula-py, que es la que extraerá la tabla del PDF y la pasará a csv. Para descargar la libería sólo tienes que ir a la consola y teclear

pip install tabula-py

Si tienes python3, sólo cambia el comando pip por pip3 y todo debe de funcionar bien. Una vez esté instalado tabula, crea el siguiente script en python.

import tabula

def run():
	'''Transformar PDF a csv'''

	tabula.convert_into("ruta/del_archivo.pdf",
		"ruta/del_archivo.csv",
		output_format="csv", pages="all")


if __name__ == '__main__':
	run()

También puedes hacer esto usando una Jupyter Notebook sin la necesidad de darle el formato de función.