Cómo transformar PDF a CSV usando Python y tabula

Cómo transformar PDF a CSV usando Python y tabula
Photo by Mika Baumeister / Unsplash

En ocasiones la información nos llega en una tabla en PDF. Imaginando que la tabla está en un buen formato, no es una imagen y la información está bien, tenemos la posibilidad de pasar lo que nos entrega esta tabla haciendo lo siguiente.

Ubica tu archivo PDF y crea un script de python con extensión .py. Antes de comenzar a hacer el script, vamos a necesitar la librería tabula-py, que es la que extraerá la tabla del PDF y la pasará a csv. Para descargar la libería sólo tienes que ir a la consola y teclear

pip install tabula-py

Si tienes python3, sólo cambia el comando pip por pip3 y todo debe de funcionar bien. Una vez esté instalado tabula, crea el siguiente script en python.

import tabula

def run():
	'''Transformar PDF a csv'''

	tabula.convert_into("ruta/del_archivo.pdf",
		"ruta/del_archivo.csv",
		output_format="csv", pages="all")


if __name__ == '__main__':
	run()

También puedes hacer esto usando una Jupyter Notebook sin la necesidad de darle el formato de función.


¡Genial! Te has registrado exitosamente.

¡Bienvenido de vuelta! Has iniciado sesión correctamente.

Te has suscrito correctamente a Escribe tu primer paper de Economía.

¡Éxito! Revisa tu correo electrónico para obtener el enlace mágico para iniciar sesión.

¡Éxito! Se ha actualizado la información de facturación.

No se actualizó tu información de facturación.

Sígueme en Mastodon