Tu proyecto con Econometría

Guías de 5 minutos para resolver tus proyectos de econometría. Escribe un paper, una tesis o simplemente has estudios internos para tu empresa.

Economía (pero con datos)

La verdadera historia de las Brujas

La verdadera historia de las Brujas

Cerca de un millón de personas fueron ejecutadas en Europa entre el siglo 13 y el siglo 19 por el delito de brujería. El periodo más oscuro de esta historia se dió en los siglos 16 y 17, donde se llegaron a ejecutar hasta 400 personas el mismo día en un pueblo alemán.

La mayor parte de las personas ejecutadas eran mujeres, la gran mayoría eran pobres y una gran parte de ellas eran viudas. En un artículo se encontró que en los años en los que los inviernos eran más fríos y las cosechas más pobres, las ejecuciones por brujería aumentaban.

Los juicios por Brujería en la era medieval.

Los primeros juicios por brujería del siglo 13 fueron liderados por la iglesia católica, estos son los más conocidos en la cultura popular. Sin embargo, la gran mayoría de las ejecuciones por brujería se hicieron ya sin la intervención de la iglesia.

Una mujer en el suelo con muchas dedos acusatorios en su contra
Esta es una imagen famosa de los juicios de Salem

La creencia de las brujas data desde el antiguo testamento, pero no siempre ha estado claro lo que pueden y no pueden hacer. Por ejemplo, en el siglo nueve, el arzobispo de León escribió un panfleto donde descarta que las brujas sean capaces de controlar el clima.

La persecución por herejía y brujería fue impulsada por la iglesia católica desde la inquisición católica e impulsada por la caída de grupos herejes. Lo que hacía herejes a estos otros grupos eran cosas como pregonar sin el permiso del clero y traducir la biblia a las lenguas vernáculas. Si me lo preguntas a mi, se trataba más de acciones que rompían el poder de monopolio de la iglesia a que fueran en si dañinas.

El principal texto que recopila la información sobre las brujas, sus poderes, limitaciones y cómo interrogarlas es el famoso Malleus Malleficarum, publicado en 1484. En la carta papal que escribió Inocencio VIII se menciona que el control del clima si está dentro de los poderes que puede tener una bruja.

Una portada de panfleto o libro medieval en latín
El Martillo de Brujas. Se vendió pan caliente.

Aún sin la intervención de la iglesia y la inquisición, este texto permitió establecer la relación entre las brujas y el mal clima en el imaginario colectivo. De esta manera las ejecuciones siguieron aún sin la intervención de la iglesia hasta el siglo 19.

Temperatura y Brujas

Alrededor del siglo 14 las temperaturas empezaron a caer en Europa en el periodo de tiempo que se conoce como la pequeña era de hielo. Este periodo coincide con la época en la que las ejecuciones por brujería eran una constante y se acentuaron en la región.

Esta pequeña era de hielo se generó por una desaparición de las manchas solares conocido como el mínimo de Maunder, además de algunas erupciones volcánicas como la de Huaynaputina en Perú, que llevó a la hambruna rusa de 1601 a 1603.

En el gráfico se muestra cómo los picos de juicios por brujería coinciden con los periodos con menor temperatura en Europa. Este gráfico se generó con datos que van de 1520 a 1770 y se acompaña con modelos de regresión de efectos fijos que confirman que a menor temperatura, mayores ejecuciones por brujería.

Gráfico de líneas con los juicios y las temperaturas en diferentes direcciones
Cuando la temperatura cae, los juicios por brujas aumenta

Lo que este estudio implica es que las personas juzgadas por brujería eran simplemente chivos expiatorios: personas a quienes les recaía la culpa de las malas cosechas.

Resulta indicativo que una gran parte de ellas sean mujeres, mayormente pobres y viudas. Se trata de personas con pocas redes de apoyo, mujeres a quienes nadie defiende y que no se les extraña. De ahí que la imagen que tenemos de lo que representa una bruja sea de una mujer mayor.

Una mujer. Foto realista
La imagen clásica de una bruja

Este estudio encontró además una relación negativa entre el crecimiento de la población y el número de juicios por brujería en el periodo observado. El tamaño de la población y de las ciudades es una proxy muy común que se utiliza cuando se estudia el desempeño económico en periodos anteriores a la recolección de estadísticas económicas.

Se ve una línea con pendiente negativa
Población vs juicios promedio por año

En general las civilizaciones suelen contar con registros fiables de la población, con objetivos del cobro de impuestos. La idea es que un crecimiento poblacional pobre es reflejo de temporadas de malas cosechas.

Moraleja

La historia es conocida: las personas más vulnerables suelen ser las víctimas de la culpa de las calamidades en la historia. Lo mismo sucede cuando hay desempleo y se culpa a los migrantes: personas que no pueden recibir una defensa apropiada.

Cómo hacer un diagrama de caja y bigote en Python

Diagrama con los elementos de señalados

Este post viene código en python para hacer y personalizar uno de los gráficos más potentes y simples que existen. Puedes replicar todo lo que viene aquí en una notebook en

📸
Serie de Ciencia de Datos con Python* Guía para comenzar con python* Guía de estadística con Python* Visualización con Python (Este post)* Guía de regresión lineal con Python (próximamente)

¿Qué son los diagrama de caja y bigote?

Son una forma gráfica y estandarizada de mostrar la distribución de los datos basado en 5 números clave:

  1. Media (Q2). Es el valor medio de nuestra información.
  2. Mínimo y máximo. Estos generan las patitas en los extremos del gráfico.
  3. Primer y Tercer cuartil (Percentil 25 y 75, respectivamente).

En ocasiones el gráfico mostrará algunos puntos adicionales, que se consideran los valores atípicos (outliers). El siguiente gráfico te puede ayudar a identificar estos elementos.

¿Para qué se usan?

Los gráficos de caja y bigotes se usan para

  • Identificar valores atípicos y anomalías en los datos.
  • Encontrar sesgos en los datos
  • Entender de un vistazo los rangos que ocupa la información y cómo se distribuye.

Se pueden crear gráficos con varios diagramas de caja y bigotes. Estos ayudan a realizar una comparación de los datos y su distribución y compararlos por clasificación.

Cómo hacer un gráfico de caja y bigotes en Python

Comencemos por la creación de dos conjuntos de datos. Para tener certeza de antemano de la forma en la que se distribuyen los datos, usaremos una simulación.

El siguiente bloque de código crea dos arreglos de datos distribuidos normalmente alrededor de cero. Para diferenciarlos, les sumamos y restamos una unidad.

import numpy as np
np.random.seed(1)

b1 = np.random.randn(100) - 1
b2 = np.random.randn(100) + 1

Listo. Ahora podemos visualizar los gráficos que generamos. Usaremos el módulo maplotlib.pyplot para esto. Veamos cómo se ve una de las variables.

import matplotlib.pyplot as plt

plt.boxplot(x = b1, vert = False)
Un diagrama de caja y bigotes
El diagrama horizontal

Veamos el gráfico que generó y comparemos con lo que sabemos que hace el diagrama según la definición anterior. Primero, obtengamos la media, representada en la línea roja del centro.

print(np.median(b1))
# -0.9359260884377059

Como definimos la variable b1, esperaríamos que la mediana estaría cercana a -1. Entre más grande sea la simulación, este número se debería acercar aún más.

El siguiente código muestra los cuartiles Q1 y Q3, que representan el rango intercuartílico (la zona de la caja).

q1 = np.quantile(b1, 0.25)
q3 = np.quantile(b1, 0.75)

print(q1, q3)

# -1.6138175212245889 -0.36258965920138087

¿Logras ver cómo estas medidas corresponden a las líneas de la caja? Veamos ahora los mínimos y máximos como los definimos anteriormente en la figura.

iqr = np.quantile(b1, 0.75) - np.quantile(b1, 0.25)

min = q1 - 1.5 * iqr
max = q3 + 1.5 * iqr

print(min, max)
# -3.4906593142594007 1.5142521338334312

Enchúlame la gráfica

Vamos a personalizar el gráfico. Es posible añadir estilo, colores y otras características.

Primero veamos cómo se vería el gráfico con datos atípicos. Incluir datos a tu base no es algo que debieras hacer en la realidad, es sólo con fines ilustrativos.

b1 = np.append(b1, 1.8)

punto_rojo = dict(markerfacecolor='red', marker='o')
plt.boxplot(x = b1, vert = False, flierprops=punto_rojo)
Caja y bigotes con puntito a la derecha
El mismo diagrama con un puntito

La primera línea del código agrega un punto en la posición 1.8, que gracias a la estimación del máximo en la sección pasada sabemos que es mayor.

Nota que al definir el punto rojo le he indicado con 'red' el color que deseo. Puedes seleccionar entre los colores básicos o puedes personalizarlo con códigos hexadecimales.

Es posible modificarla forma de la gráfica para identificar la media. El siguiente gráfico “aprieta” la caja en la media para hacerlo parecer mas a un reloj de arena. También incluimos un rombo verde para identificar la mediana.

mean_shape = dict(markerfacecolor='green', marker='D', markeredgecolor='green')

plt.boxplot(x = b1, vert = False, flierprops=punto_rojo,
	showmeans=True, meanprops=mean_shape, notch=True)
Un relojito
Un relojito

Múltiples diagramas en una figura

Una de las ventajas del diagrama de caja y bigote es poder comparar las distribuciones de múltiples variables. Primero volvemos a crear las variables y las colocamos en un objeto tipo DataFrame de pandas.

import numpy as np
import pandas as pd
np.random.seed(1)

b1 = np.random.randn(100) - 1
b2 = np.random.randn(100) + 1

df = pd.DataFrame({'b1':b1, 'b2':b2})

Pandas tiene su propio método para crear diagramas de caja y bigotes que permite trabajar directamente sobre los datos.

df[['b1', 'b2']].plot(kind = 'box', showmeans = True)
Dos diagramas
El diagrama de caja y bigotes permite hacer comparaciones

El valor real de los pueblos mágicos

El valor real de los pueblos mágicos

Esta es un serie de los estudios que tengo en mira hacer algún día. Tal vez los llegue a hacer y tal vez no, pero creo que es importante que al menos la idea salga a la luz.

📸
Estudios que quisiera hacer
* El efecto de los paros magisteriales en los cuidados en México.
* El valor real de los pueblos mágicos (este post)

No existe una evaluación del valor que tuvo el programa de Pueblos Mágicos en los lugares en los que se aplicó. Y con buena razón: es tremendamente difícil de diseñar un método que sea válido a ese nivel.

Me explico: en primer lugar, el programa es a nivel municipal. Eso quiere decir que no tenemos información precisa sobre lo que se genera en los municipios: no hay un PIB municipal al cual seguirle la pista antes y después del programa.

En segundo lugar, es perfectamente posible que exista sesgo de selección entre los municipios que entraron al programa. Probablemente los municipios que aplicaron eran municipios que ya recibían visitas de turismo y cuyas condiciones ya les hubieran permitido crecer, independientemente de ser o no aceptados en el programa. Esto hace que si observamos que un municipio crece tras haberse incorporado al programa, no nos sea posible determinar si es su incorporación al programa Pueblos Mágicos el que lo ha generado, u otras condiciones macroeconómicas.

👯‍♀️Doppelgänger

Un doppelgänger es un doble. Una versión alterna que tiene todas las mismas características de lo que estás estudiando, excepto por aquello que te interesa. Los estudios con gemelos son muy atractivos porque ayudan a identificar si algún tratamiento tiene un efecto real, o los cambios vienen de la crianza o la genética.

Un estudio clásico que usa doppelgängers es el que hicieron Stacy Dale y Alan Krueger (que Dios lo tenga en su santa gloria). Se trata de un análisis del efecto que tienen las universidades de élite en los ingresos de las personas.

Cómo no es posible comparar a una persona que entra en Harvard contra otra en un community college, Dale y Krueger usaron a los aspirantes que fueron aceptados a las escuelas de elite, pero por alguna razón no entraron, como doppelgänger. Ellos fueron la variable de control.

Los Doppelganger en HIMYM

Algo parecido sería este estudio. Usaría como doppelgängers a los pueblos que aplicaron al programa, pero no fueron aceptados sino hasta después del segundo o tercer intento.

La idea es que un pueblo que se hizo mágico después del segundo o tercer intento ya cumplía con algunos requisitos básicos para entrar en el programa. Por lo tanto sería un pueblo comparable a los Pueblos Mágicos que si fueron aceptados al programa antes.

Lo que está implícito es que no es posible hacer una comparación directa de un pueblo mágico con otro que no lo es, solo por sus características observables.

📊Los datos

Tengo un problema con los datos. No existe información a nivel municipal de la actividad económica de los municipios con frecuencia anual. No hay. No se generan esos datos.

My workaround a este problema (y no se si funcione) sería intentar usar las imágenes satelitales de la iluminación nocturna para estimarlo. Este tipo de datos ya se usan en otras partes del mundo para dar seguimiento al desarrollo económico de algunas regiones en asia, África y otras regiones donde la recolección de datos es compleja.

Si por alguna razón no me es posible usar ese tipo de datos, tengo un plan B: reducir los datos a municipios de un tamaño medio sacando una estimación del PIB a nivel municipal. Lo he hecho anteriormente, aunque he revisado la técnica que usé en esa ocasión y no estoy 100% conforme con el algoritmo y no se me ocurre al momento como mejorarlo.

🏰Lo que espero encontrar

No sé cuál será el resultado de antemano. De verdad. Puede ser que el programa haya sido exitoso (lo que sea que eso signifique), o puede que encontremos que los flujos de turismo y el ingreso de un municipio no cambie en absoluto con la entrada al programa ceteris paribus.

¿Por qué no podríamos determinar esto sin hacer este comparativo como el que estoy planteando? Después de todo, los mismos municipios deben de poder observar si les ha ido mejor o no. Básicamente es necesario plantear un contrafactual: la versión del mismo municipio que no entró al programa.

El valor real de los pueblos mágicos

El valor real de los pueblos mágicos

Esta es un serie de los estudios que tengo en mira hacer algún día. Tal vez los llegue a hacer y tal vez no, pero creo que es importante que al menos la idea salga a la luz.

📸

Estudios que quisiera hacer
* El efecto de los paros magisteriales en los cuidados en México.
* El valor real de los pueblos mágicos (este post)

No existe una evaluación del valor que tuvo el programa de Pueblos Mágicos en los lugares en los que se aplicó. Y con buena razón: es tremendamente difícil de diseñar un método que sea válido a ese nivel.

Me explico: en primer lugar, el programa es a nivel municipal. Eso quiere decir que no tenemos información precisa sobre lo que se genera en los municipios: no hay un PIB municipal al cual seguirle la pista antes y después del programa.

En segundo lugar, es perfectamente posible que exista sesgo de selección entre los municipios que entraron al programa. Probablemente los municipios que aplicaron eran municipios que ya recibían visitas de turismo y cuyas condiciones ya les hubieran permitido crecer, independientemente de ser o no aceptados en el programa. Esto hace que si observamos que un municipio crece tras haberse incorporado al programa, no nos sea posible determinar si es su incorporación al programa Pueblos Mágicos el que lo ha generado, u otras condiciones macroeconómicas.

👯‍♀️Doppelgänger

Un doppelgänger es un doble. Una versión alterna que tiene todas las mismas características de lo que estás estudiando, excepto por aquello que te interesa. Los estudios con gemelos son muy atractivos porque ayudan a identificar si algún tratamiento tiene un efecto real, o los cambios vienen de la crianza o la genética.

Un estudio clásico que usa doppelgängers es el que hicieron Stacy Dale y Alan Krueger (que Dios lo tenga en su santa gloria). Se trata de un análisis del efecto que tienen las universidades de élite en los ingresos de las personas.

Cómo no es posible comparar a una persona que entra en Harvard contra otra en un community college, Dale y Krueger usaron a los aspirantes que fueron aceptados a las escuelas de elite, pero por alguna razón no entraron, como doppelgänger. Ellos fueron la variable de control.

Los Doppelganger en HIMYM

Artistas vs Inteligencia Artificial ¿cómo cambiará el mercado?

Dos laptops en una casa con colores brillantes

Esta es la tercera parte de esta serie sobre hacia dónde va el mercado del arte ante la inteligencia artificial.

En el post anterior explicamos un poco cómo funcionan las inteligencias artificiales y los modelos de difusión. En este post hablaremos de cómo se verán reflejados los mercados con el crecimiento de estos modelos y sus aplicaciones.

🧑🏽‍🎨
Arte e Inteligencia Artificial: la serie
* ¿Cómo se vería un gráfico pintado por Van Gogh?
* Inteligencia Artificial y el futuro del arte.
* Artistas vs Inteligencia Artificial (este post)
* Diseño de Mecanismos en el arte post-IA (próximamente)
* Cómo hacer arte con Inteligencia Artificial (próximamente)

🎨Arte de utilería

Solemos pensar en el arte como el que vemos en cuadros y en galerías, pero también existe el arte que realiza un freelance para una marca. El arte por inteligencia artificial va a cambiar radicalmente este mercado en particular: el arte comercial.

En adelante el arte por encargo que es parte de un proceso comercial no necesitará la imaginación y el tiempo de un artista. Simplemente se le encargará a una inteligencia artificial que lo realice. En ocasiones incluso de manera automatizada por medio de una API.

Considera como ejemplo la siguiente imagen. Parece hecha al estilo de un Van Gogh, incluso se parece a dos autorretratos de sus originales, pero los hizo un artista para una marca famosa de pañuelos. Esta imagen es una foto a la caja de los pañuelos.

Caras de Van Gogh
De mi caja de pañuelos

Alguien (un humano) tuvo que hacer este arte. Hacer este nivel de detalle con las dimensiones requeridas toma tiempo y atención. Es un trabajo que requirió que el artista practicara el estilo de Van Gogh y aprendiera a crear el tipo de composiciones y los colores que debía utilizar. Esto le debió tomar horas de realizar, incluso si es un artista experimentado.

Yo soy personalmente menos artista que un amateur. Una vez tomé un curso de dibujo a lápiz cuando vivía en CDMX, pero creo que no he agarrado un pincel desde la infancia. Y así, fui capaz de “crear” este cuadro al estilo de Van Gogh de dos laptops con los colores vivos que le caracterizan.

Colores vivos como en el cuadro del café
Una laptop pintada por Van Gogh

De antemano me disculpo por el sacrilegio. Yo sé que Van Gogh solía pintar mucho la naturaleza, pero también pintaba lo cotidiano y me gustó pensar que si estuviera vivo habría pintado esto simplemente porque lo tenía enfrente.

¿Cómo funcionaría en el futuro que yo imagino? Tomemos como ejemplo la caja de pañuelos desechables y la pintura en ella. El proceso tradicional fue acercarse a un artista, darle los detalles de lo que desean, las dimensiones y detalles técnicos sobre los colores y la absorción de los mismos en la caja. Se hacen pruebas y se lanza al mercado.

Ese mismo diseño se genera para miles de cajas. Todas tienen el mismo diseño y es un modelo que puede durar meses o años.

Pero ¿que tal si deseas no una decena, sino miles de diseños diferentes? Con pequeñas variaciones en los prompts y las semillas, es posible hacer una aplicación que genere una pintura para cada diseño. Si lo llevamos al extremo, cada caja de pañuelos desechables podría tener su propia pieza de arte y sería única.

El arte reacciona

Este escenario podría parecer horroroso para alguien que se dedica al arte. En pocos años una gran parte de lo que hacen podría quedar sustituido por trabajo de máquinas. Excepto que no es así para quienes reconocen el verdadero valor del arte y se saben adaptar a los tiempos.

En primer lugar, hay un gran espacio para el trabajo de detallado específico. Aunque el equipo de Google ha publicado una solución que llamaron prompt-to-prompt para realizar ediciones a una creación, sospecho que por algún tiempo aún será necesario hacer los últimos retoques usando Photoshop o una herramienta similar.

Se solicitan artistas

En segundo lugar, los modelos para hacer arte tienen un sesgo. Sólo se puede realizar arte con las pinturas que ya están disponibles. Para entrenar un modelo de este tipo es necesario alimentarlo con mucho arte.

Pero como sabemos, el arte no es algo que se mantiene estático. Es más, el arte justamente reacciona a su entorno y a las condiciones de la economía. En ocasiones de maneras radicales.

Considera lo que pasó cuando la fotografía apareció. El primer proceso para capturar imágenes fue inventado en 1837 por Louis Jacques Daguerre: el daguerrotipo.

El daguerrotipo fue un gran avance de la química práctica. Antes de su existencia, ya se sabía usar la cámara oscura y se podía preservar la imagen en láminas de cobre, pero no se podían sacar del cuarto oscuro sin que se perdiera la imagen.

Ante los avances en la fotografía, los artistas reaccionaron de dos diferentes maneras: algunos lo adoptaron y lo tomaron como parte de su proceso creativo y quienes lo rechazaron y enfocaron el arte en aquello que la fotografía no podía hacer.

🖼 Lo que adoptaron

Antes de la invención de la fotografía, el enfoque de la pintura era el realismo. Las técnicas mejoraban en cada iteración con el propósito de mostrar cada vez más de la realidad.

La promesa de la fotografía es la captura inmediata de la realidad. Los fotógrafos han mejorado su técnica, cuidando aspectos como la composición, el color y la relación figura-fondo.

Luego llegó Photoshop, que permitió dar los últimos retoques para crear el efecto deseado en las imágenes. En la actualidad la fotografía es una forma de arte por si misma, con resultados profesionales impresionantes como los de esta cuenta en Instagram.

Fotos de una cuenta de Instagram
Karen fue mi alumna y admiro mucho su trabajo. Fuente: @karen__photography

Esperaría una reacción similar por parte de algunos artistas que decidan adoptar la inteligencia artificial y mejorar sus técnicas para crear el mejor producto posible usando este medio.

Las herramientas para que esto se logre están avanzando muy rápido. En dos meses desde el lanzamiento de Stable Diffusion se han generado más de siete implementaciones muy populares para usarlo de manera gratuita o muy barato.

Como vimos en posts pasados, realizar los prompts correctos tiene un reto en si mismo. Requiere entender de estilos de arte, de artistas y de técnicas específicas para lograr los efectos deseados. Tal vez alguien con formación en historia del arte pueda tener una ventaja, pero también para esto se han creado rápidamente servicios y comunidades para emprenderlo fácilmente.

Los que lo rechazaron

Por otro lado están quienes rechazaron la fotografía y decidieron enfocarse en hacer con la pintura aquello que la fotografía no puede lograr. De ahí nació el impresionismo en los años 1870s y 1880s, que optimiza las emociones que la pintura genera, dejando de lado los intentos de realismo.

Árboles al frente y el Izztaccihuatl al fondo.
Vista del Iztaccihuatl. Francisco Romano Guillemin. Public Domain.

Esta reacción supone la evolución del arte en respuesta a la tecnología prevalente y también esperaría una reacción similar de los artistas actuales ante las pinturas realizadas con inteligencia artificial.

La inteligencia artificial es muy buena, pero depende del arte que lo alimenta. Un artista que quisiera seguir usando sus técnicas tendría que usar materiales nuevos y conjuntos de palabras que no estén contenidos en el léxico de las inteligencias artificiales o bien, que puedan confundirlas.

Por ejemplo, si yo fuera pintor en este momento me enfocaría en animales antropomorfos haciendo cosas de humanos. Si yo te digo: “un caballo tocando el piano”, ¿qué te imaginas? yo imagino un caballo sentado como un humano poniendo sus pesuñas en las teclas de un piano. Pero la inteligencia artificial no tiene suficientes imágenes para generar eso que para la imaginación es inmediato ¿lo logras ver? Aquí una muestra de lo que se obtiene con Stable Difussion.

Un santo tocando el piano.
Te juro que la imagen pedía explícitamente un caballo tocando el piano.

Si que hay esperanza para los artistas ante la inteligencia artificial. Pero requiere que entiendan bien cómo funciona, para poder vencerlo.

¿Que es un archivo csv y cómo se usa?

Una tabla en cs

CSV significa comma separated values (valores separados por comas) y es uno de los formatos más populares para la transmisión de datos.

Entra a una página dedicada al análisis de datos como Kaggle y lo más posible que es encuentres que todas sus bases de datos están en formato csv.

Para qué se usan los archivos csv

El formato csv es muy popular para exportar datos y crear respaldos que se puedan transportar de un sistema a otro. En ciencia de datos, todos los datos de entrenamiento o de prueba se toman de un archivo csv.

Digamos por ejemplo que tienes un blog y deseas exportar los datos de analítica del mismo para identificar los tópicos con mayor engagement. Estos datos están en una base de datos en SQL, pero es probable que tu equipo de marketing no sepa realizar queries en este lenguaje. Ahí es cuando el formato se vuelve extremadamente útil: simplemente exportas los datos y los empiezas a analizar en Excel, Python, R o tu programa favorito.

Hay tres razones principales por las que yo encontrado que este es el formato ideal para trabajar con datos si estás desarrollando modelos para enseñar o en un ambiente profesional: portabilidad entre plataformas, visualización y la estabilidad.

🧳Portabilidad entre plataformas

Los archivos csv no son el formato más ligero en el que se pueden guardar los datos. Para ponerte en contexto, hay formatos como parquet que son mucho más ligeros para guardar la información. La razón de esto es el formato de almacenamiento. Los archivos csv son datos en columnas en un archivo de texto plano.

A pesar de ser de texto plano, los archivos csv pesan un poco más que los archivos de Excel. Pero a diferencia de un archivo de Excel, no necesitas preocuparte por la plataforma en la que lo estás leyendo o el sistema operativo.

Los puedes leer y editar en Excel, pero también los cargas fácilmente con Python y R sin arriesgarte a perder información. Si deseas importar información a una base de datos en SQL, es un gran formato.

Cómo leer los archivos csv

Generalmente los sistemas operativos ponen a Excel como primera opción para abrir los archivos csv. En ocasiones es necesario especificar, pero por lo general sólo es necesario usar doble click. Además, los repositorios en Github generan una previsualización de las tablas en csv bastante decente.

Cargar archivos csv en Python

Para abrir los archivos csv en Python, en cambio, es necesario usar la librería pandas. El siguiente bloque es un ejemplo de cómo se vería una carga de un archivo csv. Recuerda cambiar la ruta y el nombre del archivo por el que quieres importar.

import pandas as pd

ruta = "ruta/del/archivo.csv"
df = pd.read_csv(ruta)
print(df.head())

En la primera línea se importa el módulo pandas, que contiene la función read_csv(), especializada en la carga de los archivos csv. La segunda línea simplemente describe la ruta del archivo y se puede cargar directamente dentro de la función que se ejecuta en la tercera línea.

Al cargar la base de datos, la estamos asignando a un objeto con nombre df. Este nombre es sólo una convención, tu puedes ponerle el nombre que tu quieras a tu base de datos. La última línea muestra en pantalla las primeras filas de la base de datos (su encabezado).

Cargar archivos csv en R

El proceso para cargar archivos csv en R es muy similar. R tiene una función por defecto que tiene este fin. El código se vería así

ruta <- "ruta/del/archivo.csv"
df <- read.csv(ruta)
print(head(df))

La lógica es la misma que en el código de Python. La primera línea marca una ruta que tu debes cambiar para que sea la ruta del archivo que desear cargar en tu computadora.

Al igual que en python, la segunda línea ejecuta una función que lee el archivo y guarda la base de datos en un objeto especial de tipo Data Frame.

En Excel

Cargar tus archivos csv en Excel es extremadamente simple: sólo tienes que dar doble click al archivo y dejar que Excel lo abra. Sólo tienes que recordar algunos detalles:

  • No le puedes dar formato. Si le pones color a tu archivo csv, letras en negritas o tamaños de letra, todos esos detalles se van a perder al grabar el archivo si lo vuelves a guardar como csv.
  • No puedes hacer gráficos. De hecho no puedes hacer ninguna de las funciones especiales que tiene Excel. De la misma manera que con el formato, te tienes que asegurar de que estás cambiando el formato a tipo Excel para que se guarde todo lo que hagas que no sea trabajo directo en los datos.

🗿Estabilidad

De manera similar que con la portabilidad entre plataformas, con csv no es necesario preocuparse por la versión del software que lo lee. Cuando hay actualizaciones de Excel, hay un riesgo de que algunos elementos no los lea la versión nueva del software. También podría desacomodar elementos y dejar tu archivo hecho un desastre.

En csv esto no pasa. Como es un archivo de texto plano con tus datos, no hay información adicional que se genere a partir de imágenes o tablas dinámicas. Python y R se actualizan también constantemente, pero no importa las versiones que usen, tu archivo csv es el mismo y se lee igual.

🔍Visualización

Una gran ventaja de los archivos csv es que es relativamente fácil visualizarlos en forma de tabla. Los puedes abrir en Excel y comenzar a interpretarlos en esa forma ya familiar. O bien, si el archivo termina en un repositorio en GitHub, la página mostrará una previsualización muy buena del archivo.

Esto es a diferencia de formatos como un archivo JSON. Por eso es tan popular como una forma de exportar los datos, en particular cuando los va a trabajar personal de otras áreas en nuestra organización que tal vez no está tan familiarizada con archivos XML, JSON o bases de datos SQL.

⛔Desventajas de los archivos csv

Lo hemos mencionado: como son archivos en tablas columnares, los archivos csv no son particularmente archivos pequeños. Esto quiere decir que si estás tratando de hacer almacenamiento masivo de datos, probablemente te interese buscar otra estructura diferente para la base de datos. Con csv lo importante es la portabilidad entre sistemas y la capacidad de trabajarlos entre diferentes áreas.

Otro problema es que se trata de archivos que no te permiten incluir nada especial: no hay gráficas, no hay tablas dinámicas ni filtros ni funciones. Sólo es un archivo de texto plano con la información.

El efecto de los paros magisteriales en los cuidados en México

Una imagen psicodélica pero que da la idea

Como investigador a veces lo que me falta es tiempo para hacer todos los estudios que quisiera. En ocasiones hago notas para no perder la idea y hacerlos posteriormente, pero se que no siempre podré hacerlo. Por eso te dejo aquí tres estudios que me gustaría hacer junto a parte de la metodología que me gustaría hacer para realizarlos.

Muchas personas no publican estas ideas porque piensan que alguien más se los va a robar, pero como estos son estudios que requieren de mucho trabajo y conocimiento de los temas y las técnicas, realmente me harían un favor si alguien de ustedes me los roba. Si lo haces, sólo te pediría que me mandaras un mensajito a mi correo para avisarme y así ya no lo hago y me enfoco en otras cosas.

🏫🙆‍♀️Las huelgas

De vez en cuando los sindicatos de educación hacen paros. En ocasiones esos paros son largos y muchas veces surgen de manera repentina y sin previo aviso, pero no se dan en todos los estados al mismo tiempo.

La educación cumple un papel de cuidados importante en la sociedad. Cuando falta, esto puede afectar de manera importante a la economía en maneras que no son obvias en un inicio. Cuando las escuelas dejan de operar de manera repentina, las personas que cuidan —generalmente mujeres —resultan afectadas.

Mi plan es aprovechar las huelgas para identificar sus efectos en el mercado laboral de las mujeres. Esperaría observar una caída en los niveles de empleo en los períodos en qué hay paro en un estado o zona urbana. Particularmente mujeres y particularmente las más pobres. Especial atención al efecto en el empleo a largo plazo de los adultos mayores.

📊¿De dónde salen los datos?

La fuente de datos de empleo “fácil” es la de empleo, pues se puede usar la ENOE. Sin embargo, hay dos detalles importantes a los que poner atención.

Valor Esperado

Valor Esperado

Una variable aleatoria es una formalización matemática de una cantidad u objeto que depende de un evento aleatorio. Por ejemplo, el lanzamiento de una moneda suele considerarse un evento aleatorio, porque no podemos predecir el lado de la moneda que este nos arrojará.

Sea entonces \(X\) una variable aleatoria. Su valor esperado se describe con

$$ E(X) = \sum_{j=1}^kx_jf(x_j) = x_1 f(x_1) + x_2 f(x_2) + \cdots + x_kf(x_k) $$

La \(f(x_j)\) indica una función que depende del valor de \(x_j\) y que toma su forma a partir de la distribución que tienen los datos. Por ejemplo, si se tratara del lanzamiento de una moneda, la distribución de Bernoulli ayuda a describir el comportamiento de los lanzamientos. En este caso, nuestra variable aleatoria \(X \sim b(1,p)\) tiene como valor esperado

$$ E(X) = 0 \cdot(1-p) + 1 \cdot p = p $$

Veamos cómo sería ese comportamiento en Python. Hagamos 10 lanzamientos de moneda con \(p=0.5\), es decir que cada cara tiene un 50% de probabilidad de salir.

import numpy as np

np.random.seed(42)

n = 10
lista = [np.random.randint(2) for i in range(n)]
print(lista)

np.mean(lista)
# [0, 1, 0, 0, 0, 1, 0, 0, 0, 1]
# 0.3

¡Genial! Te has registrado exitosamente.

¡Bienvenido de vuelta! Has iniciado sesión correctamente.

Te has suscrito correctamente a Economía (pero con datos).

¡Éxito! Revisa tu correo electrónico para obtener el enlace mágico para iniciar sesión.

¡Éxito! Se ha actualizado la información de facturación.

No se actualizó tu información de facturación.