Escribe tu primer paper de economía

Guías de 5 minutos para economistas ocupados para escribir (y publicar) su primer paper de economía usando datos y modelos de econometría.

Marionomics: Escribe tu paper de economía

📊9 fuentes de datos para Economistas

📊9 fuentes de datos para Economistas

Los datos son la materia prima del economista. Aquí te dejo 9 lugares donde puedes encontrar información para hacer tus estudios y análisis de Economía.

📊
Las fuentes que veremos en este post
* INEGI
* Kaggle
* Our World in Data
* Luces nocturnas
* OCDE
* Complejidad Económica
* Statista
* Bloomberg

📊INEGI (México)

México concentra una gran parte del trabajo de recolección de datos estadísticos, económicos y geográficos en una gran institución descentralizada. El Instituto Nacional de Estadística y Geografía (INEGI) es en realidad una institución excepcional: no todos los países tienen un INEGI a su disposición.

Te recomiendo que comiences con los indicadores básicos y empieces poco a poco a jugar con la aplicación, aumentando las dimensiones que solicitas. Puedes encontrar datos económicos, de seguridad, población y hasta de género.

Instituto Nacional de Estadística y Geografía (INEGI)
Página oficial del INEGI donde se ofrece información estadística, geográfica y económica a nivel nacional y por entidad federativa. Información generada por el Instituto y otras dependencias del gobierno nacional.

La página de INEGI

🚀Kaggle

Kaggle no sólo es una gran fuente de bases de datos para practicar, también es un lugar de oportunidades para generar un portafolio e incluso ganar oportunidades de trabajo.

Kaggle es un repositorio de bases de datos donde los usuarios pueden subir sus modelos y resultados de regresión, clasificación o de inteligencia artificial. De este modo no sólo tienes datos, también tienes las soluciones que otros usuarios de la plataforma suben para inspirarte en forma de notebooks o scripts.

Un gran punto a favor de Kaggle es que puedes buscar bases de datos en función de los modelos que se han usado para obtener resultados. Digamos que quieres aprender a hacer visualización de datos con python y matplotlib. Simplemente reduce tu búsqueda a estos términos para obtener bases de datos y tutoriales en orden de relevancia.

Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

Empieza aquí para trabajar con datos de Kaggle

🌍 Our World in Data

Desde datos de COVID hasta mapas de los países que han puesto (o no) un impuesto a las emisiones de dióxido de carbono, Our World in Data es un esfuerzo increíble para llevar datos al mundo.

Encuentra cientos de bases de datos gratuitos en formato csv listos para ser usados. O bien, usa la aplicación interactiva para pedir los datos en forma de gráficos o mapas.

Mapa del mundo. Son pocos los países con un impuesto al carbono.
Países que tienen un impuesto al carbono

En una gran parte de sus datos, la aplicación permite ajustar las fechas y los países que incluyes. También el proyecto aloja bases de datos interesantes sobre diferentes temas que vale la pena explorar.

💡Luces nocturnas (Banco Mundial)

Un montón de dinero de inversión se ha ido a China basado en los datos que el gobierno Chino muestra. Pero hay evidencia de que una parte de estos datos son falsos. La evidencia viene de las luces nocturnas mostradas desde fotografías satelitales.

El banco mundial tiene un montón de datos de diferentes países. Cuando quieres hacer un panel completo para estudiar un fenómeno a nivel mundial (por ejemplo, datos de pobreza) no necesitas meterte a las páginas de estadística cómo INEGI de todos los países para descargar la información.

En cambio, puedes entrar simplemente a la web del Banco mundial y encontrar las bases ya seleccionadas y estandarizadas. En ocasiones no vas a encontrar datos de algún país en algún año, pero ese es el precio de que tu información esté en orden para tantos países.

La base de datos es un caso particular de bases de datos que se pueden considerar Big Data. Esta base está alojada en un bucket de AWS entre las bases de datos abiertas. Aprovecha para hacer análisis usando estos datos.

World Bank - Light Every Night - Registry of Open Data on AWS
Light Every Night - World Bank Nighttime Light Data – provides open access to all nightly imagery and data from the Visible Infrared Imaging Radiometer Suite Day-Night Band (VIIRS DNB) from 2012-2020 and the Defense Meteorological Satellite Program Operational Linescan System (DMSP-OLS) from 1992-20…

🌐OCDE

Al igual que el banco mundial, la Organización para la Cooperación y el Desarrollo Económicos (OCDE u OCDE por sus siglas en inglés) tiene su aplicación y repositorio de datos de los países que lo conforman.

Por lo general las bases de datos de la OCDE son muy buenas y detalladas y es posible hacer un montón de cosas con ellas.

OECD data
Find, compare and share OECD data.

🚢Complejidad Económica

En algunos posts pasados tal vez hayas notado que presento gráficos muy monos sobre las exportaciones de los países. Por ejemplo, aquí está un gráfico que muestra las exportaciones de Perú.

Gráfico de muchos cuadritos. La mayor parte de sus exportaciones son minerales.
Las exportaciones de Perú

Los datos de exportación ayudan a ver de un vistazo la complejidad económica que tiene un país. Entre más variedad de productos haha y exporte un país, hay más oportunidad de crecimiento y más resistencia a problemas exógenos.

En la página del Observatorio de Complejidad Económica (OEC) puedes ver y descargar cientos de bases de datos de comercio exterior. Los datos más actualizados requieren una suscripción de paga.

Observatorio de Complejidad Económica | OEC
La herramienta de visualización de datos líder en el mundo del comercio internacional.

📊Statista

Otra fuente de datos de más de 150 países con cientos de temáticas distintas es statista. Statista tiene datos sobre industrias específicas muy actualizadas. Generalmente lo mejor de su información es de paga, pero también tiene muchos datos públicos que pueden ser interesantes para algún proyecto más de investigación.

Por ejemplo, si deseas datos de E-commerce, de uso de redes sociales o de vehículos eléctricos, statista es una fuente muy interesante.

Statista - The Statistics Portal
Find statistics, consumer survey results and industry studies from over 22,500 sources on over 60,000 topics on the internet’s leading statistics database

📈Bloomberg

Esta es la fuente primaria de datos financieros por excelencia. La terminal de Bloomberg es el aparato famoso con dos pantallas donde se puede encontrar la información más oportuna, veraz y rápida en el mercado.

Si trabajas en finanzas y necesitas tomar decisiones en las que el tiempo es esencial, la terminal de Bloomberg es para ti.

Una computadora con dos pantallas y colores amarillos y fondo negro
La famosa terminal de Bloomberg

Los que saben dicen que lo que vale de la terminal de Bloomberg ya no es tanto la información que provee, sino el chat. En el chat de Bloomberg hay información de expertos que es más rápida aún y extremadamente especializada.

El único problema de la terminal de Bloomberg es el costo. La renta de esos aparatos y su información cuesta cerca de 2 mil dólares al mes, o 24 mil dólares al año. Si necesitas tener una estrategia de trading muy clara y los recursos para hacer que la inversión valga la pena.

Hay más...

Realmente hay muchas más fuentes de datos para casi todo lo que te imagines. Nos faltó ahondar sobre APIs de datos que podrían ser interesantes. En próximos posts podemos trabajar en ellos. Recuerda que me puedes mandar correo a hola@marionomics.com para solicitarme algún tema, o simplemente para saludarme.

Me da mucho gusto contarles que la comunidad premium sigue creciendo poco a poco. Esto me motiva y me ayuda a seguir con este proyecto para traerles más valor. Puedes apoyar este proyecto compartiendo este post e invitando a más personas a suscribirse a la versión gratuita.

La verdadera historia de las Brujas

La verdadera historia de las Brujas

Cerca de un millón de personas fueron ejecutadas en Europa entre el siglo 13 y el siglo 19 por el delito de brujería. El periodo más oscuro de esta historia se dió en los siglos 16 y 17, donde se llegaron a ejecutar hasta 400 personas el mismo día en un pueblo alemán.

La mayor parte de las personas ejecutadas eran mujeres, la gran mayoría eran pobres y una gran parte de ellas eran viudas. En un artículo se encontró que en los años en los que los inviernos eran más fríos y las cosechas más pobres, las ejecuciones por brujería aumentaban.

Los juicios por Brujería en la era medieval.

Los primeros juicios por brujería del siglo 13 fueron liderados por la iglesia católica, estos son los más conocidos en la cultura popular. Sin embargo, la gran mayoría de las ejecuciones por brujería se hicieron ya sin la intervención de la iglesia.

Una mujer en el suelo con muchas dedos acusatorios en su contra
Esta es una imagen famosa de los juicios de Salem

La creencia de las brujas data desde el antiguo testamento, pero no siempre ha estado claro lo que pueden y no pueden hacer. Por ejemplo, en el siglo nueve, el arzobispo de León escribió un panfleto donde descarta que las brujas sean capaces de controlar el clima.

La persecución por herejía y brujería fue impulsada por la iglesia católica desde la inquisición católica e impulsada por la caída de grupos herejes. Lo que hacía herejes a estos otros grupos eran cosas como pregonar sin el permiso del clero y traducir la biblia a las lenguas vernáculas. Si me lo preguntas a mi, se trataba más de acciones que rompían el poder de monopolio de la iglesia a que fueran en si dañinas.

El principal texto que recopila la información sobre las brujas, sus poderes, limitaciones y cómo interrogarlas es el famoso Malleus Malleficarum, publicado en 1484. En la carta papal que escribió Inocencio VIII se menciona que el control del clima si está dentro de los poderes que puede tener una bruja.

Una portada de panfleto o libro medieval en latín
El Martillo de Brujas. Se vendió pan caliente.

Aún sin la intervención de la iglesia y la inquisición, este texto permitió establecer la relación entre las brujas y el mal clima en el imaginario colectivo. De esta manera las ejecuciones siguieron aún sin la intervención de la iglesia hasta el siglo 19.

Temperatura y Brujas

Alrededor del siglo 14 las temperaturas empezaron a caer en Europa en el periodo de tiempo que se conoce como la pequeña era de hielo. Este periodo coincide con la época en la que las ejecuciones por brujería eran una constante y se acentuaron en la región.

Esta pequeña era de hielo se generó por una desaparición de las manchas solares conocido como el mínimo de Maunder, además de algunas erupciones volcánicas como la de Huaynaputina en Perú, que llevó a la hambruna rusa de 1601 a 1603.

En el gráfico se muestra cómo los picos de juicios por brujería coinciden con los periodos con menor temperatura en Europa. Este gráfico se generó con datos que van de 1520 a 1770 y se acompaña con modelos de regresión de efectos fijos que confirman que a menor temperatura, mayores ejecuciones por brujería.

Gráfico de líneas con los juicios y las temperaturas en diferentes direcciones
Cuando la temperatura cae, los juicios por brujas aumenta

Lo que este estudio implica es que las personas juzgadas por brujería eran simplemente chivos expiatorios: personas a quienes les recaía la culpa de las malas cosechas.

Resulta indicativo que una gran parte de ellas sean mujeres, mayormente pobres y viudas. Se trata de personas con pocas redes de apoyo, mujeres a quienes nadie defiende y que no se les extraña. De ahí que la imagen que tenemos de lo que representa una bruja sea de una mujer mayor.

Una mujer. Foto realista
La imagen clásica de una bruja

Este estudio encontró además una relación negativa entre el crecimiento de la población y el número de juicios por brujería en el periodo observado. El tamaño de la población y de las ciudades es una proxy muy común que se utiliza cuando se estudia el desempeño económico en periodos anteriores a la recolección de estadísticas económicas.

Se ve una línea con pendiente negativa
Población vs juicios promedio por año

En general las civilizaciones suelen contar con registros fiables de la población, con objetivos del cobro de impuestos. La idea es que un crecimiento poblacional pobre es reflejo de temporadas de malas cosechas.

Moraleja

La historia es conocida: las personas más vulnerables suelen ser las víctimas de la culpa de las calamidades en la historia. Lo mismo sucede cuando hay desempleo y se culpa a los migrantes: personas que no pueden recibir una defensa apropiada.

Cómo hacer un diagrama de caja y bigote en Python

Diagrama con los elementos de señalados

Este post viene código en python para hacer y personalizar uno de los gráficos más potentes y simples que existen. Puedes replicar todo lo que viene aquí en una notebook en

📸
Serie de Ciencia de Datos con Python* Guía para comenzar con python* Guía de estadística con Python* Visualización con Python (Este post)* Guía de regresión lineal con Python (próximamente)

¿Qué son los diagrama de caja y bigote?

Son una forma gráfica y estandarizada de mostrar la distribución de los datos basado en 5 números clave:

  1. Media (Q2). Es el valor medio de nuestra información.
  2. Mínimo y máximo. Estos generan las patitas en los extremos del gráfico.
  3. Primer y Tercer cuartil (Percentil 25 y 75, respectivamente).

En ocasiones el gráfico mostrará algunos puntos adicionales, que se consideran los valores atípicos (outliers). El siguiente gráfico te puede ayudar a identificar estos elementos.

¿Para qué se usan?

Los gráficos de caja y bigotes se usan para

  • Identificar valores atípicos y anomalías en los datos.
  • Encontrar sesgos en los datos
  • Entender de un vistazo los rangos que ocupa la información y cómo se distribuye.

Se pueden crear gráficos con varios diagramas de caja y bigotes. Estos ayudan a realizar una comparación de los datos y su distribución y compararlos por clasificación.

Cómo hacer un gráfico de caja y bigotes en Python

Comencemos por la creación de dos conjuntos de datos. Para tener certeza de antemano de la forma en la que se distribuyen los datos, usaremos una simulación.

El siguiente bloque de código crea dos arreglos de datos distribuidos normalmente alrededor de cero. Para diferenciarlos, les sumamos y restamos una unidad.

import numpy as np
np.random.seed(1)

b1 = np.random.randn(100) - 1
b2 = np.random.randn(100) + 1

Listo. Ahora podemos visualizar los gráficos que generamos. Usaremos el módulo maplotlib.pyplot para esto. Veamos cómo se ve una de las variables.

import matplotlib.pyplot as plt

plt.boxplot(x = b1, vert = False)
Un diagrama de caja y bigotes
El diagrama horizontal

Veamos el gráfico que generó y comparemos con lo que sabemos que hace el diagrama según la definición anterior. Primero, obtengamos la media, representada en la línea roja del centro.

print(np.median(b1))
# -0.9359260884377059

Como definimos la variable b1, esperaríamos que la mediana estaría cercana a -1. Entre más grande sea la simulación, este número se debería acercar aún más.

El siguiente código muestra los cuartiles Q1 y Q3, que representan el rango intercuartílico (la zona de la caja).

q1 = np.quantile(b1, 0.25)
q3 = np.quantile(b1, 0.75)

print(q1, q3)

# -1.6138175212245889 -0.36258965920138087

¿Logras ver cómo estas medidas corresponden a las líneas de la caja? Veamos ahora los mínimos y máximos como los definimos anteriormente en la figura.

iqr = np.quantile(b1, 0.75) - np.quantile(b1, 0.25)

min = q1 - 1.5 * iqr
max = q3 + 1.5 * iqr

print(min, max)
# -3.4906593142594007 1.5142521338334312

Enchúlame la gráfica

Vamos a personalizar el gráfico. Es posible añadir estilo, colores y otras características.

Primero veamos cómo se vería el gráfico con datos atípicos. Incluir datos a tu base no es algo que debieras hacer en la realidad, es sólo con fines ilustrativos.

b1 = np.append(b1, 1.8)

punto_rojo = dict(markerfacecolor='red', marker='o')
plt.boxplot(x = b1, vert = False, flierprops=punto_rojo)
Caja y bigotes con puntito a la derecha
El mismo diagrama con un puntito

La primera línea del código agrega un punto en la posición 1.8, que gracias a la estimación del máximo en la sección pasada sabemos que es mayor.

Nota que al definir el punto rojo le he indicado con 'red' el color que deseo. Puedes seleccionar entre los colores básicos o puedes personalizarlo con códigos hexadecimales.

Es posible modificarla forma de la gráfica para identificar la media. El siguiente gráfico “aprieta” la caja en la media para hacerlo parecer mas a un reloj de arena. También incluimos un rombo verde para identificar la mediana.

mean_shape = dict(markerfacecolor='green', marker='D', markeredgecolor='green')

plt.boxplot(x = b1, vert = False, flierprops=punto_rojo,
	showmeans=True, meanprops=mean_shape, notch=True)
Un relojito
Un relojito

Múltiples diagramas en una figura

Una de las ventajas del diagrama de caja y bigote es poder comparar las distribuciones de múltiples variables. Primero volvemos a crear las variables y las colocamos en un objeto tipo DataFrame de pandas.

import numpy as np
import pandas as pd
np.random.seed(1)

b1 = np.random.randn(100) - 1
b2 = np.random.randn(100) + 1

df = pd.DataFrame({'b1':b1, 'b2':b2})

Pandas tiene su propio método para crear diagramas de caja y bigotes que permite trabajar directamente sobre los datos.

df[['b1', 'b2']].plot(kind = 'box', showmeans = True)
Dos diagramas
El diagrama de caja y bigotes permite hacer comparaciones

El valor real de los pueblos mágicos

El valor real de los pueblos mágicos

Esta es un serie de los estudios que tengo en mira hacer algún día. Tal vez los llegue a hacer y tal vez no, pero creo que es importante que al menos la idea salga a la luz.

📸

Estudios que quisiera hacer
* El efecto de los paros magisteriales en los cuidados en México.
* El valor real de los pueblos mágicos (este post)

No existe una evaluación del valor que tuvo el programa de Pueblos Mágicos en los lugares en los que se aplicó. Y con buena razón: es tremendamente difícil de diseñar un método que sea válido a ese nivel.

Me explico: en primer lugar, el programa es a nivel municipal. Eso quiere decir que no tenemos información precisa sobre lo que se genera en los municipios: no hay un PIB municipal al cual seguirle la pista antes y después del programa.

En segundo lugar, es perfectamente posible que exista sesgo de selección entre los municipios que entraron al programa. Probablemente los municipios que aplicaron eran municipios que ya recibían visitas de turismo y cuyas condiciones ya les hubieran permitido crecer, independientemente de ser o no aceptados en el programa. Esto hace que si observamos que un municipio crece tras haberse incorporado al programa, no nos sea posible determinar si es su incorporación al programa Pueblos Mágicos el que lo ha generado, u otras condiciones macroeconómicas.

👯‍♀️Doppelgänger

Un doppelgänger es un doble. Una versión alterna que tiene todas las mismas características de lo que estás estudiando, excepto por aquello que te interesa. Los estudios con gemelos son muy atractivos porque ayudan a identificar si algún tratamiento tiene un efecto real, o los cambios vienen de la crianza o la genética.

Un estudio clásico que usa doppelgängers es el que hicieron Stacy Dale y Alan Krueger (que Dios lo tenga en su santa gloria). Se trata de un análisis del efecto que tienen las universidades de élite en los ingresos de las personas.

Cómo no es posible comparar a una persona que entra en Harvard contra otra en un community college, Dale y Krueger usaron a los aspirantes que fueron aceptados a las escuelas de elite, pero por alguna razón no entraron, como doppelgänger. Ellos fueron la variable de control.

Los Doppelganger en HIMYM

El valor real de los pueblos mágicos

El valor real de los pueblos mágicos

Esta es un serie de los estudios que tengo en mira hacer algún día. Tal vez los llegue a hacer y tal vez no, pero creo que es importante que al menos la idea salga a la luz.

📸
Estudios que quisiera hacer
* El efecto de los paros magisteriales en los cuidados en México.
* El valor real de los pueblos mágicos (este post)

No existe una evaluación del valor que tuvo el programa de Pueblos Mágicos en los lugares en los que se aplicó. Y con buena razón: es tremendamente difícil de diseñar un método que sea válido a ese nivel.

Me explico: en primer lugar, el programa es a nivel municipal. Eso quiere decir que no tenemos información precisa sobre lo que se genera en los municipios: no hay un PIB municipal al cual seguirle la pista antes y después del programa.

En segundo lugar, es perfectamente posible que exista sesgo de selección entre los municipios que entraron al programa. Probablemente los municipios que aplicaron eran municipios que ya recibían visitas de turismo y cuyas condiciones ya les hubieran permitido crecer, independientemente de ser o no aceptados en el programa. Esto hace que si observamos que un municipio crece tras haberse incorporado al programa, no nos sea posible determinar si es su incorporación al programa Pueblos Mágicos el que lo ha generado, u otras condiciones macroeconómicas.

👯‍♀️Doppelgänger

Un doppelgänger es un doble. Una versión alterna que tiene todas las mismas características de lo que estás estudiando, excepto por aquello que te interesa. Los estudios con gemelos son muy atractivos porque ayudan a identificar si algún tratamiento tiene un efecto real, o los cambios vienen de la crianza o la genética.

Un estudio clásico que usa doppelgängers es el que hicieron Stacy Dale y Alan Krueger (que Dios lo tenga en su santa gloria). Se trata de un análisis del efecto que tienen las universidades de élite en los ingresos de las personas.

Cómo no es posible comparar a una persona que entra en Harvard contra otra en un community college, Dale y Krueger usaron a los aspirantes que fueron aceptados a las escuelas de elite, pero por alguna razón no entraron, como doppelgänger. Ellos fueron la variable de control.

Los Doppelganger en HIMYM

Algo parecido sería este estudio. Usaría como doppelgängers a los pueblos que aplicaron al programa, pero no fueron aceptados sino hasta después del segundo o tercer intento.

La idea es que un pueblo que se hizo mágico después del segundo o tercer intento ya cumplía con algunos requisitos básicos para entrar en el programa. Por lo tanto sería un pueblo comparable a los Pueblos Mágicos que si fueron aceptados al programa antes.

Lo que está implícito es que no es posible hacer una comparación directa de un pueblo mágico con otro que no lo es, solo por sus características observables.

📊Los datos

Tengo un problema con los datos. No existe información a nivel municipal de la actividad económica de los municipios con frecuencia anual. No hay. No se generan esos datos.

My workaround a este problema (y no se si funcione) sería intentar usar las imágenes satelitales de la iluminación nocturna para estimarlo. Este tipo de datos ya se usan en otras partes del mundo para dar seguimiento al desarrollo económico de algunas regiones en asia, África y otras regiones donde la recolección de datos es compleja.

Si por alguna razón no me es posible usar ese tipo de datos, tengo un plan B: reducir los datos a municipios de un tamaño medio sacando una estimación del PIB a nivel municipal. Lo he hecho anteriormente, aunque he revisado la técnica que usé en esa ocasión y no estoy 100% conforme con el algoritmo y no se me ocurre al momento como mejorarlo.

🏰Lo que espero encontrar

No sé cuál será el resultado de antemano. De verdad. Puede ser que el programa haya sido exitoso (lo que sea que eso signifique), o puede que encontremos que los flujos de turismo y el ingreso de un municipio no cambie en absoluto con la entrada al programa ceteris paribus.

¿Por qué no podríamos determinar esto sin hacer este comparativo como el que estoy planteando? Después de todo, los mismos municipios deben de poder observar si les ha ido mejor o no. Básicamente es necesario plantear un contrafactual: la versión del mismo municipio que no entró al programa.

Artistas vs Inteligencia Artificial ¿cómo cambiará el mercado?

Dos laptops en una casa con colores brillantes

Esta es la tercera parte de esta serie sobre hacia dónde va el mercado del arte ante la inteligencia artificial.

En el post anterior explicamos un poco cómo funcionan las inteligencias artificiales y los modelos de difusión. En este post hablaremos de cómo se verán reflejados los mercados con el crecimiento de estos modelos y sus aplicaciones.

🧑🏽‍🎨
Arte e Inteligencia Artificial: la serie
* ¿Cómo se vería un gráfico pintado por Van Gogh?
* Inteligencia Artificial y el futuro del arte.
* Artistas vs Inteligencia Artificial (este post)
* Diseño de Mecanismos en el arte post-IA (próximamente)
* Cómo hacer arte con Inteligencia Artificial (próximamente)

🎨Arte de utilería

Solemos pensar en el arte como el que vemos en cuadros y en galerías, pero también existe el arte que realiza un freelance para una marca. El arte por inteligencia artificial va a cambiar radicalmente este mercado en particular: el arte comercial.

En adelante el arte por encargo que es parte de un proceso comercial no necesitará la imaginación y el tiempo de un artista. Simplemente se le encargará a una inteligencia artificial que lo realice. En ocasiones incluso de manera automatizada por medio de una API.

Considera como ejemplo la siguiente imagen. Parece hecha al estilo de un Van Gogh, incluso se parece a dos autorretratos de sus originales, pero los hizo un artista para una marca famosa de pañuelos. Esta imagen es una foto a la caja de los pañuelos.

Caras de Van Gogh
De mi caja de pañuelos

Alguien (un humano) tuvo que hacer este arte. Hacer este nivel de detalle con las dimensiones requeridas toma tiempo y atención. Es un trabajo que requirió que el artista practicara el estilo de Van Gogh y aprendiera a crear el tipo de composiciones y los colores que debía utilizar. Esto le debió tomar horas de realizar, incluso si es un artista experimentado.

Yo soy personalmente menos artista que un amateur. Una vez tomé un curso de dibujo a lápiz cuando vivía en CDMX, pero creo que no he agarrado un pincel desde la infancia. Y así, fui capaz de “crear” este cuadro al estilo de Van Gogh de dos laptops con los colores vivos que le caracterizan.

Colores vivos como en el cuadro del café
Una laptop pintada por Van Gogh

De antemano me disculpo por el sacrilegio. Yo sé que Van Gogh solía pintar mucho la naturaleza, pero también pintaba lo cotidiano y me gustó pensar que si estuviera vivo habría pintado esto simplemente porque lo tenía enfrente.

¿Cómo funcionaría en el futuro que yo imagino? Tomemos como ejemplo la caja de pañuelos desechables y la pintura en ella. El proceso tradicional fue acercarse a un artista, darle los detalles de lo que desean, las dimensiones y detalles técnicos sobre los colores y la absorción de los mismos en la caja. Se hacen pruebas y se lanza al mercado.

Ese mismo diseño se genera para miles de cajas. Todas tienen el mismo diseño y es un modelo que puede durar meses o años.

Pero ¿que tal si deseas no una decena, sino miles de diseños diferentes? Con pequeñas variaciones en los prompts y las semillas, es posible hacer una aplicación que genere una pintura para cada diseño. Si lo llevamos al extremo, cada caja de pañuelos desechables podría tener su propia pieza de arte y sería única.

El arte reacciona

Este escenario podría parecer horroroso para alguien que se dedica al arte. En pocos años una gran parte de lo que hacen podría quedar sustituido por trabajo de máquinas. Excepto que no es así para quienes reconocen el verdadero valor del arte y se saben adaptar a los tiempos.

En primer lugar, hay un gran espacio para el trabajo de detallado específico. Aunque el equipo de Google ha publicado una solución que llamaron prompt-to-prompt para realizar ediciones a una creación, sospecho que por algún tiempo aún será necesario hacer los últimos retoques usando Photoshop o una herramienta similar.

Se solicitan artistas

En segundo lugar, los modelos para hacer arte tienen un sesgo. Sólo se puede realizar arte con las pinturas que ya están disponibles. Para entrenar un modelo de este tipo es necesario alimentarlo con mucho arte.

Pero como sabemos, el arte no es algo que se mantiene estático. Es más, el arte justamente reacciona a su entorno y a las condiciones de la economía. En ocasiones de maneras radicales.

Considera lo que pasó cuando la fotografía apareció. El primer proceso para capturar imágenes fue inventado en 1837 por Louis Jacques Daguerre: el daguerrotipo.

El daguerrotipo fue un gran avance de la química práctica. Antes de su existencia, ya se sabía usar la cámara oscura y se podía preservar la imagen en láminas de cobre, pero no se podían sacar del cuarto oscuro sin que se perdiera la imagen.

Ante los avances en la fotografía, los artistas reaccionaron de dos diferentes maneras: algunos lo adoptaron y lo tomaron como parte de su proceso creativo y quienes lo rechazaron y enfocaron el arte en aquello que la fotografía no podía hacer.

🖼 Lo que adoptaron

Antes de la invención de la fotografía, el enfoque de la pintura era el realismo. Las técnicas mejoraban en cada iteración con el propósito de mostrar cada vez más de la realidad.

La promesa de la fotografía es la captura inmediata de la realidad. Los fotógrafos han mejorado su técnica, cuidando aspectos como la composición, el color y la relación figura-fondo.

Luego llegó Photoshop, que permitió dar los últimos retoques para crear el efecto deseado en las imágenes. En la actualidad la fotografía es una forma de arte por si misma, con resultados profesionales impresionantes como los de esta cuenta en Instagram.

Fotos de una cuenta de Instagram
Karen fue mi alumna y admiro mucho su trabajo. Fuente: @karen__photography

Esperaría una reacción similar por parte de algunos artistas que decidan adoptar la inteligencia artificial y mejorar sus técnicas para crear el mejor producto posible usando este medio.

Las herramientas para que esto se logre están avanzando muy rápido. En dos meses desde el lanzamiento de Stable Diffusion se han generado más de siete implementaciones muy populares para usarlo de manera gratuita o muy barato.

Como vimos en posts pasados, realizar los prompts correctos tiene un reto en si mismo. Requiere entender de estilos de arte, de artistas y de técnicas específicas para lograr los efectos deseados. Tal vez alguien con formación en historia del arte pueda tener una ventaja, pero también para esto se han creado rápidamente servicios y comunidades para emprenderlo fácilmente.

Los que lo rechazaron

Por otro lado están quienes rechazaron la fotografía y decidieron enfocarse en hacer con la pintura aquello que la fotografía no puede lograr. De ahí nació el impresionismo en los años 1870s y 1880s, que optimiza las emociones que la pintura genera, dejando de lado los intentos de realismo.

Árboles al frente y el Izztaccihuatl al fondo.
Vista del Iztaccihuatl. Francisco Romano Guillemin. Public Domain.

Esta reacción supone la evolución del arte en respuesta a la tecnología prevalente y también esperaría una reacción similar de los artistas actuales ante las pinturas realizadas con inteligencia artificial.

La inteligencia artificial es muy buena, pero depende del arte que lo alimenta. Un artista que quisiera seguir usando sus técnicas tendría que usar materiales nuevos y conjuntos de palabras que no estén contenidos en el léxico de las inteligencias artificiales o bien, que puedan confundirlas.

Por ejemplo, si yo fuera pintor en este momento me enfocaría en animales antropomorfos haciendo cosas de humanos. Si yo te digo: “un caballo tocando el piano”, ¿qué te imaginas? yo imagino un caballo sentado como un humano poniendo sus pesuñas en las teclas de un piano. Pero la inteligencia artificial no tiene suficientes imágenes para generar eso que para la imaginación es inmediato ¿lo logras ver? Aquí una muestra de lo que se obtiene con Stable Difussion.

Un santo tocando el piano.
Te juro que la imagen pedía explícitamente un caballo tocando el piano.

Si que hay esperanza para los artistas ante la inteligencia artificial. Pero requiere que entiendan bien cómo funciona, para poder vencerlo.

¿Que es un archivo csv y cómo se usa?

Una tabla en cs

CSV significa comma separated values (valores separados por comas) y es uno de los formatos más populares para la transmisión de datos.

Entra a una página dedicada al análisis de datos como Kaggle y lo más posible que es encuentres que todas sus bases de datos están en formato csv.

Para qué se usan los archivos csv

El formato csv es muy popular para exportar datos y crear respaldos que se puedan transportar de un sistema a otro. En ciencia de datos, todos los datos de entrenamiento o de prueba se toman de un archivo csv.

Digamos por ejemplo que tienes un blog y deseas exportar los datos de analítica del mismo para identificar los tópicos con mayor engagement. Estos datos están en una base de datos en SQL, pero es probable que tu equipo de marketing no sepa realizar queries en este lenguaje. Ahí es cuando el formato se vuelve extremadamente útil: simplemente exportas los datos y los empiezas a analizar en Excel, Python, R o tu programa favorito.

Hay tres razones principales por las que yo encontrado que este es el formato ideal para trabajar con datos si estás desarrollando modelos para enseñar o en un ambiente profesional: portabilidad entre plataformas, visualización y la estabilidad.

🧳Portabilidad entre plataformas

Los archivos csv no son el formato más ligero en el que se pueden guardar los datos. Para ponerte en contexto, hay formatos como parquet que son mucho más ligeros para guardar la información. La razón de esto es el formato de almacenamiento. Los archivos csv son datos en columnas en un archivo de texto plano.

A pesar de ser de texto plano, los archivos csv pesan un poco más que los archivos de Excel. Pero a diferencia de un archivo de Excel, no necesitas preocuparte por la plataforma en la que lo estás leyendo o el sistema operativo.

Los puedes leer y editar en Excel, pero también los cargas fácilmente con Python y R sin arriesgarte a perder información. Si deseas importar información a una base de datos en SQL, es un gran formato.

Cómo leer los archivos csv

Generalmente los sistemas operativos ponen a Excel como primera opción para abrir los archivos csv. En ocasiones es necesario especificar, pero por lo general sólo es necesario usar doble click. Además, los repositorios en Github generan una previsualización de las tablas en csv bastante decente.

Cargar archivos csv en Python

Para abrir los archivos csv en Python, en cambio, es necesario usar la librería pandas. El siguiente bloque es un ejemplo de cómo se vería una carga de un archivo csv. Recuerda cambiar la ruta y el nombre del archivo por el que quieres importar.

import pandas as pd

ruta = "ruta/del/archivo.csv"
df = pd.read_csv(ruta)
print(df.head())

En la primera línea se importa el módulo pandas, que contiene la función read_csv(), especializada en la carga de los archivos csv. La segunda línea simplemente describe la ruta del archivo y se puede cargar directamente dentro de la función que se ejecuta en la tercera línea.

Al cargar la base de datos, la estamos asignando a un objeto con nombre df. Este nombre es sólo una convención, tu puedes ponerle el nombre que tu quieras a tu base de datos. La última línea muestra en pantalla las primeras filas de la base de datos (su encabezado).

Cargar archivos csv en R

El proceso para cargar archivos csv en R es muy similar. R tiene una función por defecto que tiene este fin. El código se vería así

ruta <- "ruta/del/archivo.csv"
df <- read.csv(ruta)
print(head(df))

La lógica es la misma que en el código de Python. La primera línea marca una ruta que tu debes cambiar para que sea la ruta del archivo que desear cargar en tu computadora.

Al igual que en python, la segunda línea ejecuta una función que lee el archivo y guarda la base de datos en un objeto especial de tipo Data Frame.

En Excel

Cargar tus archivos csv en Excel es extremadamente simple: sólo tienes que dar doble click al archivo y dejar que Excel lo abra. Sólo tienes que recordar algunos detalles:

  • No le puedes dar formato. Si le pones color a tu archivo csv, letras en negritas o tamaños de letra, todos esos detalles se van a perder al grabar el archivo si lo vuelves a guardar como csv.
  • No puedes hacer gráficos. De hecho no puedes hacer ninguna de las funciones especiales que tiene Excel. De la misma manera que con el formato, te tienes que asegurar de que estás cambiando el formato a tipo Excel para que se guarde todo lo que hagas que no sea trabajo directo en los datos.

🗿Estabilidad

De manera similar que con la portabilidad entre plataformas, con csv no es necesario preocuparse por la versión del software que lo lee. Cuando hay actualizaciones de Excel, hay un riesgo de que algunos elementos no los lea la versión nueva del software. También podría desacomodar elementos y dejar tu archivo hecho un desastre.

En csv esto no pasa. Como es un archivo de texto plano con tus datos, no hay información adicional que se genere a partir de imágenes o tablas dinámicas. Python y R se actualizan también constantemente, pero no importa las versiones que usen, tu archivo csv es el mismo y se lee igual.

🔍Visualización

Una gran ventaja de los archivos csv es que es relativamente fácil visualizarlos en forma de tabla. Los puedes abrir en Excel y comenzar a interpretarlos en esa forma ya familiar. O bien, si el archivo termina en un repositorio en GitHub, la página mostrará una previsualización muy buena del archivo.

Esto es a diferencia de formatos como un archivo JSON. Por eso es tan popular como una forma de exportar los datos, en particular cuando los va a trabajar personal de otras áreas en nuestra organización que tal vez no está tan familiarizada con archivos XML, JSON o bases de datos SQL.

⛔Desventajas de los archivos csv

Lo hemos mencionado: como son archivos en tablas columnares, los archivos csv no son particularmente archivos pequeños. Esto quiere decir que si estás tratando de hacer almacenamiento masivo de datos, probablemente te interese buscar otra estructura diferente para la base de datos. Con csv lo importante es la portabilidad entre sistemas y la capacidad de trabajarlos entre diferentes áreas.

Otro problema es que se trata de archivos que no te permiten incluir nada especial: no hay gráficas, no hay tablas dinámicas ni filtros ni funciones. Sólo es un archivo de texto plano con la información.

El efecto de los paros magisteriales en los cuidados en México

Una imagen psicodélica pero que da la idea

Como investigador a veces lo que me falta es tiempo para hacer todos los estudios que quisiera. En ocasiones hago notas para no perder la idea y hacerlos posteriormente, pero se que no siempre podré hacerlo. Por eso te dejo aquí tres estudios que me gustaría hacer junto a parte de la metodología que me gustaría hacer para realizarlos.

Muchas personas no publican estas ideas porque piensan que alguien más se los va a robar, pero como estos son estudios que requieren de mucho trabajo y conocimiento de los temas y las técnicas, realmente me harían un favor si alguien de ustedes me los roba. Si lo haces, sólo te pediría que me mandaras un mensajito a mi correo para avisarme y así ya no lo hago y me enfoco en otras cosas.

🏫🙆‍♀️Las huelgas

De vez en cuando los sindicatos de educación hacen paros. En ocasiones esos paros son largos y muchas veces surgen de manera repentina y sin previo aviso, pero no se dan en todos los estados al mismo tiempo.

La educación cumple un papel de cuidados importante en la sociedad. Cuando falta, esto puede afectar de manera importante a la economía en maneras que no son obvias en un inicio. Cuando las escuelas dejan de operar de manera repentina, las personas que cuidan —generalmente mujeres —resultan afectadas.

Mi plan es aprovechar las huelgas para identificar sus efectos en el mercado laboral de las mujeres. Esperaría observar una caída en los niveles de empleo en los períodos en qué hay paro en un estado o zona urbana. Particularmente mujeres y particularmente las más pobres. Especial atención al efecto en el empleo a largo plazo de los adultos mayores.

📊¿De dónde salen los datos?

La fuente de datos de empleo “fácil” es la de empleo, pues se puede usar la ENOE. Sin embargo, hay dos detalles importantes a los que poner atención.

¡Genial! Te has registrado exitosamente.

¡Bienvenido de vuelta! Has iniciado sesión correctamente.

Te has suscrito correctamente a Marionomics: Escribe tu paper de economía.

¡Éxito! Revisa tu correo electrónico para obtener el enlace mágico para iniciar sesión.

¡Éxito! Se ha actualizado la información de facturación.

No se actualizó tu información de facturación.