¿Que es un archivo csv y cómo se usa?

Conoce el formato más popular para hacer ciencia de datos

Una tabla en cs
Photo by Mika Baumeister / Unsplash

CSV significa comma separated values (valores separados por comas) y es uno de los formatos más populares para la transmisión de datos.

Entra a una página dedicada al análisis de datos como Kaggle y lo más posible que es encuentres que todas sus bases de datos están en formato csv.

Para qué se usan los archivos csv

El formato csv es muy popular para exportar datos y crear respaldos que se puedan transportar de un sistema a otro. En ciencia de datos, todos los datos de entrenamiento o de prueba se toman de un archivo csv.

Digamos por ejemplo que tienes un blog y deseas exportar los datos de analítica del mismo para identificar los tópicos con mayor engagement. Estos datos están en una base de datos en SQL, pero es probable que tu equipo de marketing no sepa realizar queries en este lenguaje. Ahí es cuando el formato se vuelve extremadamente útil: simplemente exportas los datos y los empiezas a analizar en Excel, Python, R o tu programa favorito.

Hay tres razones principales por las que yo encontrado que este es el formato ideal para trabajar con datos si estás desarrollando modelos para enseñar o en un ambiente profesional: portabilidad entre plataformas, visualización y la estabilidad.

🧳Portabilidad entre plataformas

Los archivos csv no son el formato más ligero en el que se pueden guardar los datos. Para ponerte en contexto, hay formatos como parquet que son mucho más ligeros para guardar la información. La razón de esto es el formato de almacenamiento. Los archivos csv son datos en columnas en un archivo de texto plano.

A pesar de ser de texto plano, los archivos csv pesan un poco más que los archivos de Excel. Pero a diferencia de un archivo de Excel, no necesitas preocuparte por la plataforma en la que lo estás leyendo o el sistema operativo.

Los puedes leer y editar en Excel, pero también los cargas fácilmente con Python y R sin arriesgarte a perder información. Si deseas importar información a una base de datos en SQL, es un gran formato.

Cómo leer los archivos csv

Generalmente los sistemas operativos ponen a Excel como primera opción para abrir los archivos csv. En ocasiones es necesario especificar, pero por lo general sólo es necesario usar doble click. Además, los repositorios en Github generan una previsualización de las tablas en csv bastante decente.

Cargar archivos csv en Python

Para abrir los archivos csv en Python, en cambio, es necesario usar la librería pandas. El siguiente bloque es un ejemplo de cómo se vería una carga de un archivo csv. Recuerda cambiar la ruta y el nombre del archivo por el que quieres importar.

import pandas as pd

ruta = "ruta/del/archivo.csv"
df = pd.read_csv(ruta)
print(df.head())

En la primera línea se importa el módulo pandas, que contiene la función read_csv(), especializada en la carga de los archivos csv. La segunda línea simplemente describe la ruta del archivo y se puede cargar directamente dentro de la función que se ejecuta en la tercera línea.

Al cargar la base de datos, la estamos asignando a un objeto con nombre df. Este nombre es sólo una convención, tu puedes ponerle el nombre que tu quieras a tu base de datos. La última línea muestra en pantalla las primeras filas de la base de datos (su encabezado).

Cargar archivos csv en R

El proceso para cargar archivos csv en R es muy similar. R tiene una función por defecto que tiene este fin. El código se vería así

ruta <- "ruta/del/archivo.csv"
df <- read.csv(ruta)
print(head(df))

La lógica es la misma que en el código de Python. La primera línea marca una ruta que tu debes cambiar para que sea la ruta del archivo que desear cargar en tu computadora.

¡Genial! Te has registrado exitosamente.

¡Bienvenido de vuelta! Has iniciado sesión correctamente.

Te has suscrito correctamente a Escribe tu primer paper de Economía.

¡Éxito! Revisa tu correo electrónico para obtener el enlace mágico para iniciar sesión.

¡Éxito! Se ha actualizado la información de facturación.

No se actualizó tu información de facturación.

Sígueme en Mastodon