En ocasiones la información nos llega en una tabla en PDF. Imaginando que la tabla está en un buen formato, no es una imagen y la información está bien, tenemos la posibilidad de pasar lo que nos entrega esta tabla haciendo lo siguiente.
Ubica tu archivo PDF y crea un script de python con extensión .py. Antes de comenzar a hacer el script, vamos a necesitar la librería tabula-py
, que es la que extraerá la tabla del PDF y la pasará a csv. Para descargar la libería sólo tienes que ir a la consola y teclear
pip install tabula-py
Si tienes python3, sólo cambia el comando pip
por pip3
y todo debe de funcionar bien. Una vez esté instalado tabula, crea el siguiente script en python.
import tabula
def run():
'''Transformar PDF a csv'''
tabula.convert_into("ruta/del_archivo.pdf",
"ruta/del_archivo.csv",
output_format="csv", pages="all")
if __name__ == '__main__':
run()
También puedes hacer esto usando una Jupyter Notebook sin la necesidad de darle el formato de función.