Escribe tu primer paper de economía

La mayoría de los economistas tienen problemas para escribir textos académicos. Explorar sobre econometría es complejo y es difícil estar al corriente con las tendencias de investigación. Aquí encontrarás tutoriales de econometría en R y Python, deep dives en literatura reciente y modelos de trabajo para hacer tu escritura más fácil y publicar con éxito. Publica un paper que te posicione en tu área y te permita obtener un trabajo de investigador.

Escribe tu primer paper de Economía

Busco profes para experimento

Un robot escribiendo lleno de libros

La inteligencia artificial nos alcanzó. Muchos de nuestros alumnos pronto descubrirán que ya es posible hacer ensayos usando inteligencia artificial.

Esta herramienta ya puede hacer noticias y reseñas. ¿Podría hacer un texto especializado sobre algún tema de nivel universitario? Dicho de otra manera: ¿los profesores seríamos capaces de detectar si un texto viene de una inteligencia artificial o lo hicieron nuestros alumnos?

Para responder esta pregunta he diseñado un experimento. En este texto voy a explicar más a fondo en qué consiste, pero antes te quiero pedir dos cosas: si eres profesor y te interesa participar en el proyecto da click abajo y regístrate como parte de este proyecto. Si conoces a alguien a quien piensas que le podría interesar participar, mándale este post para que se registe. Tenemos hasta el 8 de Noviembre.

✍🏽
En este post
* Un experimento para detectar si la inteligencia artificial ya nos superó a los profesores
* Cómo funciona la inteligencia artificial basada en texto

El experimento

El objetivo de este trabajo es identificar la capacidad de la inteligencia artificial de engañar a los profesores en la creación de un ensayo.

Los profesores

Para participar en este experimento, tienes que ser profesor en alguna universidad hispanohablante. Este experimento es en español. Se aceptan profesores de posgrado o de nivel medio superior con restricciones (pregunta si eres candidato en hola@marionomics.com).

Regístrate en este formulario antes del 8 de Noviembre.

El ensayo

El profesor debe encargar un ensayo de una cuartilla sobre un tema relacionado con la clase. Este ensayo puede ser parte del mismo programa o puede contar como puntos adicionales por participación.

Importante. El ensayo se manda en formato de texto por medio de un formulario y no deben mandarlo al profesor directamente. El formulario se lo haré llegar a los profesores para que lo distribuyan entre sus alumnos. En él les pido que coloquen su ensayo, además de información básica que me permitirá identificarlos y entenderlos mejor.

📖
¿Cómo debo pedir el ensayo?
* Extensión máxima: una cuartilla (el equivalente a una cuartilla escrita en Word o Google Sheets con letra Times a 12 puntos).
* No es necesario que le pidas una estructura específica. Puedes pedirles que se componga de introducción, desarrollo y conclusión, pero que no incluyan títulos. Si el documento tiene títulos yo los quitaré para entregarte todos los ensayos (con y sin IA) homologados y no los puedas distinguir.
* Recuerda: El ensayo se escribe en un formulario de google. No habrá oportunidad de incluir formato, imágenes o tablas en el texto.

Evalúa los ensayos

Detrás de bambalinas hay un trabajo de organización en el que algunos ensayos los cambiaré por ensayos hechos por una inteligencia artificial. Tu no sabrás cuáles fueron intercambiados, incluso no sabrás si realmente te cambié los ensayos o no.

A tu correo te llegará el acceso a los ensayos y al formulario para calificarlos. Necesito que me des dos cosas: una calificación en algunas áreas del ensayo (independientemente de si piensas que viene de un humano o de una inteligencia artificial) y que me digas si fue hecho por humano o IA.

Este instrumento te lo haré llegar a tu correo electrónico.

📅
Fechas importantes:
* 8 de Noviembre. Cierre del registro de profesores
* Del 9 al 13 de Noviembre. Envío de formulario e instrucciones a los profesores participantes.
* Del 14 al 22 de Noviembre. Recepción de trabajos de los estudiantes.
* 23 al 30 de Noviembre. Profesores califican ensayos.
* Diciembre - Enero. Procesamiento de la información y redacción de la investigación.
* Enero 2023. Publicación de los resultados preliminares en marionomics.com.

Sobre la Inteligencia Artificial

El 28 de Mayo de 2020, un grupo de 31 ingenieros e investigadores del laboratorio Open AI publicaron un preprint en ArXiv que describe la tercera generación de un modelo de inteligencia artificial que genera texto a partir de texto.

El modelo se llama GPT-3 (Generative Pre-trained Transformer 3), y con un poco de texto es capaz de generar textos, novelas y noticias. También se está implementando este tipo de modelos en la auto-generación de código, como lo hace copilot, de Github.

Las opciones son infinitas. Actualmente GPT-3 es capaz de crear recetas de cocina (no hay garantía de que sean buenas), reseñas de películas, traducir entre lenguajes de programación y resúmenes de textos. Pero hay un uso interesante que quiero poner a prueba. GPT-3 es al día de hoy capaz de crear ensayos breves y traducirlos a diferentes idiomas.

Esta es una guía que generó sobre la forma de escribir un ensayo sobre las contribuciones de Nicolás Tesla a la tecnología.

Imagen de muestra del texto que arroja gpt-3
GPT-3 es capaz de redactar una guía para un ensayos muy decente.

Cómo funciona GPT-3

¿Por qué no mejor le preguntamos directamente a GPT-3?

🤖
GPT-3 es una plataforma de aprendizaje estadístico de máquina que permite a los desarrolladores entrenar y publicar modelos de Inteligencia Artificial. También se dice que es escalable y eficiente en su habilidad de manejar grandes cantidades de datos. ¿Cómo funciona GPT-3? GPT-3 funciona entrenando modelos en una base de datos grande y desplegándolos en una base de datos más pequeña. Se dice que la plataforma es eficiente en su habilidad de manejo de grandes cantidades de datos. También se dice que los modelos son escalables, lo que significa que pueden incrementarse y reducirse como se necesite.

Este bloque de arriba es la respuesta que me dió el mismo GPT-3 al solicitarle que me describiera cómo funciona. Le hice unos pequeños arreglos durante la traducción, pero en general es impecable.

El punto de esto es que GPT-3 toma un montón de textos de internet y predice lo que debería decir el párrafo siguiente. Es un modelo similar al que utiliza tu teléfono cuando estás escribiendo y te empieza a sugerir la siguiente palabra, pero mucho más poderoso.

Teclado. Está escrito: "Tengo mucho" y el teléfono sugiere "trabajo"
Tu celular sabe más o menos lo que quieres escribir ya

¿Alguna pregunta?

Este blog tiene una sección de comentarios. Todas las dudas que salgan durante estos días las estaré recolectando en este mismo post en la sección de preguntas frecuentes. Mientras tanto, regístrate en el formulario aquí abajo y comparte este post a quien crees que le gustaría participar.

Busco profes para experimento

Busco profes para experimento

La inteligencia artificial nos alcanzó. Muchos de nuestros alumnos pronto descubrirán que ya es posible hacer ensayos usando inteligencia artificial.

Esta herramienta ya puede hacer noticias y reseñas. ¿Podría hacer un texto especializado sobre algún tema de nivel universitario? Dicho de otra manera: ¿los profesores seríamos capaces de detectar si un texto viene de una inteligencia artificial o lo hicieron nuestros alumnos?

Para responder esta pregunta he diseñado un experimento. En este texto voy a explicar más a fondo en qué consiste, pero antes te quiero pedir dos cosas: si eres profesor y te interesa participar en el proyecto da click abajo y regístrate como parte de este proyecto. Si conoces a alguien a quien piensas que le podría interesar participar, mándale este post para que se registe. Tenemos hasta el 8 de Noviembre.

Me quiero registrar

✍🏽

En este post
* Un experimento para detectar si la inteligencia artificial ya nos superó a los profesores
* Cómo funciona la inteligencia artificial basada en texto

El experimento

El objetivo de este trabajo es identificar la capacidad de la inteligencia artificial de engañar a los profesores en la creación de un ensayo.

Los profesores

Para participar en este experimento, tienes que ser profesor en alguna universidad hispanohablante. Este experimento es en español. Se aceptan profesores de posgrado o de nivel medio superior con restricciones (pregunta si eres candidato en hola@marionomics.com).

Regístrate en este formulario antes del 8 de Noviembre.

Quiero participar en el experimento

El ensayo

El profesor debe encargar un ensayo de una cuartilla sobre un tema relacionado con la clase. Este ensayo puede ser parte del mismo programa o puede contar como puntos adicionales por participación.

Importante. El ensayo se manda en formato de texto por medio de un formulario y no deben mandarlo al profesor directamente. El formulario se lo haré llegar a los profesores para que lo distribuyan entre sus alumnos. En él les pido que coloquen su ensayo, además de información básica que me permitirá identificarlos y entenderlos mejor.

📖

¿Cómo debo pedir el ensayo?
* Extensión máxima:
una cuartilla (el equivalente a una cuartilla escrita en Word o Google Sheets con letra Times a 12 puntos).
* No es necesario que le pidas una estructura específica. Puedes pedirles que se componga de introducción, desarrollo y conclusión, pero que no incluyan títulos. Si el documento tiene títulos yo los quitaré para entregarte todos los ensayos (con y sin IA) homologados y no los puedas distinguir.
* Recuerda: El ensayo se escribe en un formulario de google. No habrá oportunidad de incluir formato, imágenes o tablas en el texto.

Evalúa los ensayos

Detrás de bambalinas hay un trabajo de organización en el que algunos ensayos los cambiaré por ensayos hechos por una inteligencia artificial. Tu no sabrás cuáles fueron intercambiados, incluso no sabrás si realmente te cambié los ensayos o no.

A tu correo te llegará el acceso a los ensayos y al formulario para calificarlos. Necesito que me des dos cosas: una calificación en algunas áreas del ensayo (independientemente de si piensas que viene de un humano o de una inteligencia artificial) y que me digas si fue hecho por humano o IA.

Este instrumento te lo haré llegar a tu correo electrónico.

📅

Fechas importantes:
* 8 de Noviembre.
Cierre del registro de profesores
* Del 9 al 13 de Noviembre. Envío de formulario e instrucciones a los profesores participantes.
* Del 14 al 22 de Noviembre. Recepción de trabajos de los estudiantes.
* 23 al 30 de Noviembre. Profesores califican ensayos.
* Diciembre - Enero. Procesamiento de la información y redacción de la investigación.
* Enero 2023. Publicación de los resultados preliminares en marionomics.com.

Sobre la Inteligencia Artificial

El 28 de Mayo de 2020, un grupo de 31 ingenieros e investigadores del laboratorio Open AI publicaron un preprint en ArXiv que describe la tercera generación de un modelo de inteligencia artificial que genera texto a partir de texto.

El modelo se llama GPT-3 (Generative Pre-trained Transformer 3), y con un poco de texto es capaz de generar textos, novelas y noticias. También se está implementando este tipo de modelos en la auto-generación de código, como lo hace copilot, de Github.

Las opciones son infinitas. Actualmente GPT-3 es capaz de crear recetas de cocina (no hay garantía de que sean buenas), reseñas de películas, traducir entre lenguajes de programación y resúmenes de textos. Pero hay un uso interesante que quiero poner a prueba. GPT-3 es al día de hoy capaz de crear ensayos breves y traducirlos a diferentes idiomas.

Esta es una guía que generó sobre la forma de escribir un ensayo sobre las contribuciones de Nicolás Tesla a la tecnología.

Busco profes para experimento
GPT-3 es capaz de redactar una guía para un ensayos muy decente.

Cómo funciona GPT-3

¿Por qué no mejor le preguntamos directamente a GPT-3?

🤖

GPT-3 es una plataforma de aprendizaje estadístico de máquina que permite a los desarrolladores entrenar y publicar modelos de Inteligencia Artificial. También se dice que es escalable y eficiente en su habilidad de manejar grandes cantidades de datos. ¿Cómo funciona GPT-3? GPT-3 funciona entrenando modelos en una base de datos grande y desplegándolos en una base de datos más pequeña. Se dice que la plataforma es eficiente en su habilidad de manejo de grandes cantidades de datos. También se dice que los modelos son escalables, lo que significa que pueden incrementarse y reducirse como se necesite.

Este bloque de arriba es la respuesta que me dió el mismo GPT-3 al solicitarle que me describiera cómo funciona. Le hice unos pequeños arreglos durante la traducción, pero en general es impecable.

El punto de esto es que GPT-3 toma un montón de textos de internet y predice lo que debería decir el párrafo siguiente. Es un modelo similar al que utiliza tu teléfono cuando estás escribiendo y te empieza a sugerir la siguiente palabra, pero mucho más poderoso.

Busco profes para experimento
Tu celular sabe más o menos lo que quieres escribir ya

¿Alguna pregunta?

Este blog tiene una sección de comentarios. Todas las dudas que salgan durante estos días las estaré recolectando en este mismo post en la sección de preguntas frecuentes. Mientras tanto, regístrate en el formulario aquí abajo y comparte este post a quien crees que le gustaría participar.

Regístrame

Las cinco preguntas para definir tu tema de investigación

Las cinco preguntas para definir tu tema de investigación

Primero te aclaro: nunca empieces de cero a trabajar con un problema de investigación. Generalmente al empezar a investigar ya debes tener un conjunto de notas que te den un punto de partida. Puedes crear un sistema de notas inteligentes al estilo de un Zettelkasten, puedes crear un blog o puedes usar una libreta.

Este es un modelo de cinco preguntas para definir un protocolo de investigación que nos pidió hacer el Dr. Adrián Valles en el IPN. El Dr. Valles venía regresando de una estancia en Columbia y nos planteó este trabajo en su clase de seminario. En este post te lo voy a compartir, junto con algunas observaciones que he tenido en los últimos años de revisar trabajos de investigación de licenciatura, maestría y doctorado.

He visto que en ocasiones cuando se pide hacer el protocolo se piden aspectos como los objetivos y justificación. Aunque es lo correcto y en algún momento se tienen que redactar, este es un modelo práctico que te va a llevar a las respuestas que necesitas para de verdad avanzar en tu proyecto. Aunque el proyecto final acabe siendo muy diferente al que planteaste, este ejercicio te ayudará a generar claridad.

📊
Las cinco preguntas que debes hacer para definir tu investigación1. ¿Cuál es el problema?2. ¿Por qué el problema es un problema?3. ¿Quién lo ha estudiado previamente?4. ¿Con qué resultados?5. ¿Cuál es mi aportación?

¿Cuál es el problema?

La razón de la investigación es resolver problemas. Son raras las ocasiones en las que una investigación se realiza por mera curiosidad y genera algo valioso (si sucede, pero es raro).

Este es el primer paso y el más complicado. ¿De dónde voy a sacar un problema? Sobre todo un problema que sea relevante y que no se haya investigado lo suficiente.

En casi todas las guías que he leído dice lo mismo: Puedes encontrar problemas relevantes para investigar en todas partes. En la literatura del área, si, pero también en una película, en una canción, en las calles.

💡
¿Te interesa usar la IA en la educación? Este curso te llegará a tu correo con la clave para diseñar tus actividades de clase para trabajar con la IA y no contra ella.

La clave es tener buen gusto

La realidad es que elegir un buen problema de investigación requiere que tengas buen gusto. Escuché por primera vez el término en un curso que tomé de Fabián Oloarte sobre contenido de YouTube: el buen gusto es todo ese conocimiento que tienes sobre un tema que te ayuda a identificar lo que es bueno y lo que no. Si tienes muy buen gusto en algo, aprovéchalo para identificar tu problema ahí.

Si no tienes aún, empieza a trabajar en tu buen gusto. Lee mucho sobre los temas que te interesan desde la ciencia que te ocupa. Busca buenos divulgadores de la ciencia que te llama la atención. Este mismo blog es buen punto de inicio: puedes usar la barra de búsqueda para ver un tema que te interesa y te vas a las fuentes que utilizo para profundizar.

Aprovecha para ayudar a alguien más

Puede ser sobre algún problema que hayas vivido personalmente o que viva alguien que conozcas. Aunque en mi experiencia los temas más importan son aquellos en los que no conoces a nadie que haya vivido y que están fuera de tu círculo.

Creo esto firmemente, porque las personas que conoces probablemente tienen los mismos privilegios que tu has vivido (si estás leyendo esto, felicidades, tienes acceso a internet). Hay miles de personas que no conocieron ese privilegio y no tienen una voz. Si estás buscando tema de investigación es porque alguien te ha dado voz para hablar de un tema. Aprovéchala para darle voz a quienes no la tienen.

¿Que pasa si mi tema es urgente?

¿Qué pasa si tienes que definir tu proyecto de manera urgente y no tienes tiempo para crear buen gusto sobre algún tema? Crear gusto puede tomar años, y hasta cierto punto de nuestras vidas, nuestro buen gusto va sobre temas que son difíciles de transformar en un problema de investigación.

En este punto tienes dos opciones: te pones creativo sobre cómo transformar tu buen gusto en un tema de tesis (como el ejemplo de arriba) o te montas en un proyecto existente.

Para subirte a un proyecto existente puedes preguntar a tu asesor(a) de tesis en qué está trabajando. Puedes ofrecerte a trabajar sobre su mismo tema y aprovechar el buen gusto que haya generado ya en el tiempo.

No es necesario que tu tema vaya exactamente sobre lo que trabaja tu asesor. Puedes sugerir una variación ligera del tema o una ampliación. Pregunta a tu asesor cuáles son las preguntas abiertas que deja esa investigación. Si estás al inicio de tu carrera puedes tratar de identificar los que son low hanging fruit (el fruto alcanzable).

Si no puedes basarte en el trabajo de tu asesor, los congresos son el lugar por excelencia donde puedes obtener ideas para investigar. Participa, entra en las charlas, incluso aquellas que no son directamente sobre el tema que te interesa y habla con los ponentes. No sólo saldrás con tema de investigación, muy seguramente saldrás de ahí con nuevas amistades.

¿Por qué el problema es un problema?

Esta es la justificación de tu trabajo. Para que un tema de investigación tenga suficiente impacto es importante que le afecte a suficientes personas y que tenga una aplicación generalizable.

¿A quién le importa?

No se trate de que salves el mundo con una tesis, pero debe haber una población identificable a quien le importen de verdad los resultados que vas a presentar.

En esta sección puedes describir a tu población de interés como un grupo demográfico o con nombre y apellido, si tu estudio es sobre algo muy específico.

Hacer este ejercicio ya es la mitad de tu justificación. Si alguien te pregunta por qué este estudio es relevante, puedes simplemente hablar de este grupo que tienes identificado y de cómo el problema les afecta.

¿En qué se usa la solución?

Pregúntate si las soluciones que estás proponiendo son generalizables. Por ejemplo, Nicholas Bloom es un investigador de la universidad de Stanford que ha encontrado un nicho en la investigación del trabajo desde casa. Realizó una encuesta alrededor del mundo para identificar patrones de trabajo y cómo el trabajo desde casa se incorpora en sus vidas.

Encontró que las personas que trabajan desde casa son más productivas, que los empleadores desean menos tiempo de trabajo desde casa que los empleados y que los empleados están dispuestos a ceder alrededor de 5% de sus ingresos por la posibilidad de trabajar 2 a 3 días desde casa.

Cada uno de estos resultados en si mismo es aplicable. Los mejores proyectos de investigación no sólo muestran los resultados, también muestran cómo estos resultados pueden aplicarse.

¿Por qué no lo ha solucionado el mercado?

Aquí va mi sesgo de economista: hay problemas que, si bien son importantes, el mercado los puede solucionar mejor que tú y que yo. En estos casos, la urgencia de una solución que venga de la investigación se puede perder.

Por ejemplo, los resultados de los modelos microeconómicos son muy poderosos. Hay un antes y un después de que google empezó a usar modelos microeconómicos para hacer subastas a gran escala. Pero ahora esos son modelos que ya tienen resueltos y el beneficio marginal que puedes hacer con modelos nuevos no es mejor que el que los mismos ingenieros de google pueden lograr haciendo experimentos en su propia plataforma.

¿Quién lo ha abordado antes?

En todo protocolo siempre hay una sección de estado del arte. Es importante ver los resultados previos al problema que estás estudiando antes de querer inventar la rueda.

La pregunta es ¿cómo encuentro ese estado del arte? Y eso depende mucho del área en la que estás trabajando. Si como yo, tú creciste con internet, te podría parecer que la respuesta está de alguna manera indexada en un buscador como google.

La realidad es que tus dos fuentes más confiables siguen siendo otras personas que trabajan en el área. Lo ideal es que sea tu asesor quien te guíe y que el estado del arte sea ese último artículo que publicó del tema. Entonces tu aportación claramente se construye a partir del trabajo de tu asesor.

Si por alguna razón no tienes esta oportunidad, Google Scholar es un buscador especializado en artículos académicos que funciona igual que google. Por mucho tiempo yo usé este buscador para entender los temas que me interesaban.

Hay otros buscadores, pero Google Scholar es sin duda alguna el principal para todas las áreas de estudio. Respaldado por la tecnología (Y los fondos. Y la popularidad) de Google, se encontró que la mayoría de las citas encontradas venían de este motor de búsqueda. También puedes utilizar las que vienen en la imagen, incluyendo Scopus y Web of Science.

Una vez que empiezas a tener más experiencia en el área e identificas las revistas especializadas en tu área, puedes tomar lo que esa revista publica como referencia para construir tu estado del arte.

¿Cuáles fueron sus resultados?

Una vez que has identificado tus fuentes, toca revisar los resultados. Si los artículos están bien escritos, esto debe venir claramente escrito desde el resumen, pero si no, es tu tarea revisar el documento a detalle.

Esta pregunta la puedes responder en conjunto con la anterior. La regla general sería que cada párrafo se enfoque en un estudio y su respectivo resultado. Esto generaría un párrafo como el siguiente:

📖
“En 1980, cerca de 125 mil cubanos migraron a Florida, EEUU en un evento que se conoce como el Éxodo de Mariel. Card (1990) estudió los efectos que este evento tuvo en el mercado laboral en el lugar de destino. Contrario a lo que la teoría neoclásica marca (Borjas, 1990), no se encontró ningún efecto en los salario ni en las tasas de desempleo de los trabajadores en la zona”

Me inventé este párrafo basado en el trabajo de David Card. Si algún día vas a hablar sobre este tema relacionado a la migración, siéntete libre de robarlo y adaptarlo a tu documento.

Nota que de manera natural surgieron dos citas en este párrafo. Originalmente sólo quería citar a Card, pero era importante contrastar de una manera compacta los resultados con la teoría neoclásica. Rompe las reglas una vez que sepas usarlas.

Mi aportación a la investigación

Felicidades. Una vez que ya tienes el panorama más claro ya es más fácil identificar cuál es tu aportación a la investigación. Algunos puntos a recordar:

  • No tienes por qué salvar el mundo con tu investigación. Que una investigación sea significativa no quiere decir que tenga que apuntar a ganarse un Nobel. Puede ser un avance modesto en un nicho específico.
  • Identifica el low hanging fruit para hacer tu investigación. A menos de que busques un trabajo en una de las diez universidades más prestigiosas del planeta, ahí es donde está tu investigación. Puedes encontrar el mínimo viable para que tu proyecto pase y te permita avanzar. Una vez que te sientas en comodidad con lo que esto implica puedes pensar en aumentar el alcance de tu investigación.

El protocolo no está en piedra

Al momento en que escribo esto pareciera que el protocolo es un plan fijo y ya no tendrá cambios después de que lo realices. Algo así como el plan de cinco años. Nada más alejado de la realidad.

Para que un protocolo de investigación sea efectivo, es necesario regresar a él, rayonearlo, tacharlo, morderlo y verificarlo cuantas veces sea necesario para lograr que se aproxime a tus objetivos en la investigación.


📊9 fuentes de datos para Economistas

📊9 fuentes de datos para Economistas

Los datos son la materia prima del economista. Aquí te dejo 9 lugares donde puedes encontrar información para hacer tus estudios y análisis de Economía.

📊
Las fuentes que veremos en este post
* INEGI
* Kaggle
* Our World in Data
* Luces nocturnas
* OCDE
* Complejidad Económica
* Statista
* Bloomberg

📊INEGI (México)

México concentra una gran parte del trabajo de recolección de datos estadísticos, económicos y geográficos en una gran institución descentralizada. El Instituto Nacional de Estadística y Geografía (INEGI) es en realidad una institución excepcional: no todos los países tienen un INEGI a su disposición.

Te recomiendo que comiences con los indicadores básicos y empieces poco a poco a jugar con la aplicación, aumentando las dimensiones que solicitas. Puedes encontrar datos económicos, de seguridad, población y hasta de género.

Instituto Nacional de Estadística y Geografía (INEGI)
Página oficial del INEGI donde se ofrece información estadística, geográfica y económica a nivel nacional y por entidad federativa. Información generada por el Instituto y otras dependencias del gobierno nacional.

La página de INEGI

🚀Kaggle

Kaggle no sólo es una gran fuente de bases de datos para practicar, también es un lugar de oportunidades para generar un portafolio e incluso ganar oportunidades de trabajo.

Kaggle es un repositorio de bases de datos donde los usuarios pueden subir sus modelos y resultados de regresión, clasificación o de inteligencia artificial. De este modo no sólo tienes datos, también tienes las soluciones que otros usuarios de la plataforma suben para inspirarte en forma de notebooks o scripts.

Un gran punto a favor de Kaggle es que puedes buscar bases de datos en función de los modelos que se han usado para obtener resultados. Digamos que quieres aprender a hacer visualización de datos con python y matplotlib. Simplemente reduce tu búsqueda a estos términos para obtener bases de datos y tutoriales en orden de relevancia.

Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

Empieza aquí para trabajar con datos de Kaggle

🌍 Our World in Data

Desde datos de COVID hasta mapas de los países que han puesto (o no) un impuesto a las emisiones de dióxido de carbono, Our World in Data es un esfuerzo increíble para llevar datos al mundo.

Encuentra cientos de bases de datos gratuitos en formato csv listos para ser usados. O bien, usa la aplicación interactiva para pedir los datos en forma de gráficos o mapas.

Mapa del mundo. Son pocos los países con un impuesto al carbono.
Países que tienen un impuesto al carbono

En una gran parte de sus datos, la aplicación permite ajustar las fechas y los países que incluyes. También el proyecto aloja bases de datos interesantes sobre diferentes temas que vale la pena explorar.

💡Luces nocturnas (Banco Mundial)

Un montón de dinero de inversión se ha ido a China basado en los datos que el gobierno Chino muestra. Pero hay evidencia de que una parte de estos datos son falsos. La evidencia viene de las luces nocturnas mostradas desde fotografías satelitales.

El banco mundial tiene un montón de datos de diferentes países. Cuando quieres hacer un panel completo para estudiar un fenómeno a nivel mundial (por ejemplo, datos de pobreza) no necesitas meterte a las páginas de estadística cómo INEGI de todos los países para descargar la información.

En cambio, puedes entrar simplemente a la web del Banco mundial y encontrar las bases ya seleccionadas y estandarizadas. En ocasiones no vas a encontrar datos de algún país en algún año, pero ese es el precio de que tu información esté en orden para tantos países.

La base de datos es un caso particular de bases de datos que se pueden considerar Big Data. Esta base está alojada en un bucket de AWS entre las bases de datos abiertas. Aprovecha para hacer análisis usando estos datos.

World Bank - Light Every Night - Registry of Open Data on AWS
Light Every Night - World Bank Nighttime Light Data – provides open access to all nightly imagery and data from the Visible Infrared Imaging Radiometer Suite Day-Night Band (VIIRS DNB) from 2012-2020 and the Defense Meteorological Satellite Program Operational Linescan System (DMSP-OLS) from 1992-20…

🌐OCDE

Al igual que el banco mundial, la Organización para la Cooperación y el Desarrollo Económicos (OCDE u OCDE por sus siglas en inglés) tiene su aplicación y repositorio de datos de los países que lo conforman.

Por lo general las bases de datos de la OCDE son muy buenas y detalladas y es posible hacer un montón de cosas con ellas.

OECD data
Find, compare and share OECD data.

🚢Complejidad Económica

En algunos posts pasados tal vez hayas notado que presento gráficos muy monos sobre las exportaciones de los países. Por ejemplo, aquí está un gráfico que muestra las exportaciones de Perú.

Gráfico de muchos cuadritos. La mayor parte de sus exportaciones son minerales.
Las exportaciones de Perú

Los datos de exportación ayudan a ver de un vistazo la complejidad económica que tiene un país. Entre más variedad de productos haha y exporte un país, hay más oportunidad de crecimiento y más resistencia a problemas exógenos.

En la página del Observatorio de Complejidad Económica (OEC) puedes ver y descargar cientos de bases de datos de comercio exterior. Los datos más actualizados requieren una suscripción de paga.

Observatorio de Complejidad Económica | OEC
La herramienta de visualización de datos líder en el mundo del comercio internacional.

📊Statista

Otra fuente de datos de más de 150 países con cientos de temáticas distintas es statista. Statista tiene datos sobre industrias específicas muy actualizadas. Generalmente lo mejor de su información es de paga, pero también tiene muchos datos públicos que pueden ser interesantes para algún proyecto más de investigación.

Por ejemplo, si deseas datos de E-commerce, de uso de redes sociales o de vehículos eléctricos, statista es una fuente muy interesante.

Statista - The Statistics Portal
Find statistics, consumer survey results and industry studies from over 22,500 sources on over 60,000 topics on the internet’s leading statistics database

📈Bloomberg

Esta es la fuente primaria de datos financieros por excelencia. La terminal de Bloomberg es el aparato famoso con dos pantallas donde se puede encontrar la información más oportuna, veraz y rápida en el mercado.

Si trabajas en finanzas y necesitas tomar decisiones en las que el tiempo es esencial, la terminal de Bloomberg es para ti.

Una computadora con dos pantallas y colores amarillos y fondo negro
La famosa terminal de Bloomberg

Los que saben dicen que lo que vale de la terminal de Bloomberg ya no es tanto la información que provee, sino el chat. En el chat de Bloomberg hay información de expertos que es más rápida aún y extremadamente especializada.

El único problema de la terminal de Bloomberg es el costo. La renta de esos aparatos y su información cuesta cerca de 2 mil dólares al mes, o 24 mil dólares al año. Si necesitas tener una estrategia de trading muy clara y los recursos para hacer que la inversión valga la pena.

Hay más...

Realmente hay muchas más fuentes de datos para casi todo lo que te imagines. Nos faltó ahondar sobre APIs de datos que podrían ser interesantes. En próximos posts podemos trabajar en ellos. Recuerda que me puedes mandar correo a hola@marionomics.com para solicitarme algún tema, o simplemente para saludarme.

Me da mucho gusto contarles que la comunidad premium sigue creciendo poco a poco. Esto me motiva y me ayuda a seguir con este proyecto para traerles más valor. Puedes apoyar este proyecto compartiendo este post e invitando a más personas a suscribirse a la versión gratuita.

La verdadera historia de las Brujas

La verdadera historia de las Brujas

Cerca de un millón de personas fueron ejecutadas en Europa entre el siglo 13 y el siglo 19 por el delito de brujería. El periodo más oscuro de esta historia se dió en los siglos 16 y 17, donde se llegaron a ejecutar hasta 400 personas el mismo día en un pueblo alemán.

La mayor parte de las personas ejecutadas eran mujeres, la gran mayoría eran pobres y una gran parte de ellas eran viudas. En un artículo se encontró que en los años en los que los inviernos eran más fríos y las cosechas más pobres, las ejecuciones por brujería aumentaban.

Los juicios por Brujería en la era medieval.

Los primeros juicios por brujería del siglo 13 fueron liderados por la iglesia católica, estos son los más conocidos en la cultura popular. Sin embargo, la gran mayoría de las ejecuciones por brujería se hicieron ya sin la intervención de la iglesia.

Una mujer en el suelo con muchas dedos acusatorios en su contra
Esta es una imagen famosa de los juicios de Salem

La creencia de las brujas data desde el antiguo testamento, pero no siempre ha estado claro lo que pueden y no pueden hacer. Por ejemplo, en el siglo nueve, el arzobispo de León escribió un panfleto donde descarta que las brujas sean capaces de controlar el clima.

La persecución por herejía y brujería fue impulsada por la iglesia católica desde la inquisición católica e impulsada por la caída de grupos herejes. Lo que hacía herejes a estos otros grupos eran cosas como pregonar sin el permiso del clero y traducir la biblia a las lenguas vernáculas. Si me lo preguntas a mi, se trataba más de acciones que rompían el poder de monopolio de la iglesia a que fueran en si dañinas.

El principal texto que recopila la información sobre las brujas, sus poderes, limitaciones y cómo interrogarlas es el famoso Malleus Malleficarum, publicado en 1484. En la carta papal que escribió Inocencio VIII se menciona que el control del clima si está dentro de los poderes que puede tener una bruja.

Una portada de panfleto o libro medieval en latín
El Martillo de Brujas. Se vendió pan caliente.

Aún sin la intervención de la iglesia y la inquisición, este texto permitió establecer la relación entre las brujas y el mal clima en el imaginario colectivo. De esta manera las ejecuciones siguieron aún sin la intervención de la iglesia hasta el siglo 19.

Temperatura y Brujas

Alrededor del siglo 14 las temperaturas empezaron a caer en Europa en el periodo de tiempo que se conoce como la pequeña era de hielo. Este periodo coincide con la época en la que las ejecuciones por brujería eran una constante y se acentuaron en la región.

Esta pequeña era de hielo se generó por una desaparición de las manchas solares conocido como el mínimo de Maunder, además de algunas erupciones volcánicas como la de Huaynaputina en Perú, que llevó a la hambruna rusa de 1601 a 1603.

En el gráfico se muestra cómo los picos de juicios por brujería coinciden con los periodos con menor temperatura en Europa. Este gráfico se generó con datos que van de 1520 a 1770 y se acompaña con modelos de regresión de efectos fijos que confirman que a menor temperatura, mayores ejecuciones por brujería.

Gráfico de líneas con los juicios y las temperaturas en diferentes direcciones
Cuando la temperatura cae, los juicios por brujas aumenta

Lo que este estudio implica es que las personas juzgadas por brujería eran simplemente chivos expiatorios: personas a quienes les recaía la culpa de las malas cosechas.

Resulta indicativo que una gran parte de ellas sean mujeres, mayormente pobres y viudas. Se trata de personas con pocas redes de apoyo, mujeres a quienes nadie defiende y que no se les extraña. De ahí que la imagen que tenemos de lo que representa una bruja sea de una mujer mayor.

Una mujer. Foto realista
La imagen clásica de una bruja

Este estudio encontró además una relación negativa entre el crecimiento de la población y el número de juicios por brujería en el periodo observado. El tamaño de la población y de las ciudades es una proxy muy común que se utiliza cuando se estudia el desempeño económico en periodos anteriores a la recolección de estadísticas económicas.

Se ve una línea con pendiente negativa
Población vs juicios promedio por año

En general las civilizaciones suelen contar con registros fiables de la población, con objetivos del cobro de impuestos. La idea es que un crecimiento poblacional pobre es reflejo de temporadas de malas cosechas.

Moraleja

La historia es conocida: las personas más vulnerables suelen ser las víctimas de la culpa de las calamidades en la historia. Lo mismo sucede cuando hay desempleo y se culpa a los migrantes: personas que no pueden recibir una defensa apropiada.

Cómo hacer un diagrama de caja y bigote en Python

Diagrama con los elementos de señalados

Este post viene código en python para hacer y personalizar uno de los gráficos más potentes y simples que existen. Puedes replicar todo lo que viene aquí en una notebook en

📸
Serie de Ciencia de Datos con Python* Guía para comenzar con python* Guía de estadística con Python* Visualización con Python (Este post)* Guía de regresión lineal con Python (próximamente)

¿Qué son los diagrama de caja y bigote?

Son una forma gráfica y estandarizada de mostrar la distribución de los datos basado en 5 números clave:

  1. Media (Q2). Es el valor medio de nuestra información.
  2. Mínimo y máximo. Estos generan las patitas en los extremos del gráfico.
  3. Primer y Tercer cuartil (Percentil 25 y 75, respectivamente).

En ocasiones el gráfico mostrará algunos puntos adicionales, que se consideran los valores atípicos (outliers). El siguiente gráfico te puede ayudar a identificar estos elementos.

¿Para qué se usan?

Los gráficos de caja y bigotes se usan para

  • Identificar valores atípicos y anomalías en los datos.
  • Encontrar sesgos en los datos
  • Entender de un vistazo los rangos que ocupa la información y cómo se distribuye.

Se pueden crear gráficos con varios diagramas de caja y bigotes. Estos ayudan a realizar una comparación de los datos y su distribución y compararlos por clasificación.

Cómo hacer un gráfico de caja y bigotes en Python

Comencemos por la creación de dos conjuntos de datos. Para tener certeza de antemano de la forma en la que se distribuyen los datos, usaremos una simulación.

El siguiente bloque de código crea dos arreglos de datos distribuidos normalmente alrededor de cero. Para diferenciarlos, les sumamos y restamos una unidad.

import numpy as np
np.random.seed(1)

b1 = np.random.randn(100) - 1
b2 = np.random.randn(100) + 1

Listo. Ahora podemos visualizar los gráficos que generamos. Usaremos el módulo maplotlib.pyplot para esto. Veamos cómo se ve una de las variables.

import matplotlib.pyplot as plt

plt.boxplot(x = b1, vert = False)
Un diagrama de caja y bigotes
El diagrama horizontal

Veamos el gráfico que generó y comparemos con lo que sabemos que hace el diagrama según la definición anterior. Primero, obtengamos la media, representada en la línea roja del centro.

print(np.median(b1))
# -0.9359260884377059

Como definimos la variable b1, esperaríamos que la mediana estaría cercana a -1. Entre más grande sea la simulación, este número se debería acercar aún más.

El siguiente código muestra los cuartiles Q1 y Q3, que representan el rango intercuartílico (la zona de la caja).

q1 = np.quantile(b1, 0.25)
q3 = np.quantile(b1, 0.75)

print(q1, q3)

# -1.6138175212245889 -0.36258965920138087

¿Logras ver cómo estas medidas corresponden a las líneas de la caja? Veamos ahora los mínimos y máximos como los definimos anteriormente en la figura.

iqr = np.quantile(b1, 0.75) - np.quantile(b1, 0.25)

min = q1 - 1.5 * iqr
max = q3 + 1.5 * iqr

print(min, max)
# -3.4906593142594007 1.5142521338334312

Enchúlame la gráfica

Vamos a personalizar el gráfico. Es posible añadir estilo, colores y otras características.

Primero veamos cómo se vería el gráfico con datos atípicos. Incluir datos a tu base no es algo que debieras hacer en la realidad, es sólo con fines ilustrativos.

b1 = np.append(b1, 1.8)

punto_rojo = dict(markerfacecolor='red', marker='o')
plt.boxplot(x = b1, vert = False, flierprops=punto_rojo)
Caja y bigotes con puntito a la derecha
El mismo diagrama con un puntito

La primera línea del código agrega un punto en la posición 1.8, que gracias a la estimación del máximo en la sección pasada sabemos que es mayor.

Nota que al definir el punto rojo le he indicado con 'red' el color que deseo. Puedes seleccionar entre los colores básicos o puedes personalizarlo con códigos hexadecimales.

Es posible modificarla forma de la gráfica para identificar la media. El siguiente gráfico “aprieta” la caja en la media para hacerlo parecer mas a un reloj de arena. También incluimos un rombo verde para identificar la mediana.

mean_shape = dict(markerfacecolor='green', marker='D', markeredgecolor='green')

plt.boxplot(x = b1, vert = False, flierprops=punto_rojo,
	showmeans=True, meanprops=mean_shape, notch=True)
Un relojito
Un relojito

Múltiples diagramas en una figura

Una de las ventajas del diagrama de caja y bigote es poder comparar las distribuciones de múltiples variables. Primero volvemos a crear las variables y las colocamos en un objeto tipo DataFrame de pandas.

import numpy as np
import pandas as pd
np.random.seed(1)

b1 = np.random.randn(100) - 1
b2 = np.random.randn(100) + 1

df = pd.DataFrame({'b1':b1, 'b2':b2})

Pandas tiene su propio método para crear diagramas de caja y bigotes que permite trabajar directamente sobre los datos.

df[['b1', 'b2']].plot(kind = 'box', showmeans = True)
Dos diagramas
El diagrama de caja y bigotes permite hacer comparaciones

El valor real de los pueblos mágicos

El valor real de los pueblos mágicos

Esta es un serie de los estudios que tengo en mira hacer algún día. Tal vez los llegue a hacer y tal vez no, pero creo que es importante que al menos la idea salga a la luz.

📸
Estudios que quisiera hacer
* El efecto de los paros magisteriales en los cuidados en México.
* El valor real de los pueblos mágicos (este post)

No existe una evaluación del valor que tuvo el programa de Pueblos Mágicos en los lugares en los que se aplicó. Y con buena razón: es tremendamente difícil de diseñar un método que sea válido a ese nivel.

Me explico: en primer lugar, el programa es a nivel municipal. Eso quiere decir que no tenemos información precisa sobre lo que se genera en los municipios: no hay un PIB municipal al cual seguirle la pista antes y después del programa.

En segundo lugar, es perfectamente posible que exista sesgo de selección entre los municipios que entraron al programa. Probablemente los municipios que aplicaron eran municipios que ya recibían visitas de turismo y cuyas condiciones ya les hubieran permitido crecer, independientemente de ser o no aceptados en el programa. Esto hace que si observamos que un municipio crece tras haberse incorporado al programa, no nos sea posible determinar si es su incorporación al programa Pueblos Mágicos el que lo ha generado, u otras condiciones macroeconómicas.

👯‍♀️Doppelgänger

Un doppelgänger es un doble. Una versión alterna que tiene todas las mismas características de lo que estás estudiando, excepto por aquello que te interesa. Los estudios con gemelos son muy atractivos porque ayudan a identificar si algún tratamiento tiene un efecto real, o los cambios vienen de la crianza o la genética.

Un estudio clásico que usa doppelgängers es el que hicieron Stacy Dale y Alan Krueger (que Dios lo tenga en su santa gloria). Se trata de un análisis del efecto que tienen las universidades de élite en los ingresos de las personas.

Cómo no es posible comparar a una persona que entra en Harvard contra otra en un community college, Dale y Krueger usaron a los aspirantes que fueron aceptados a las escuelas de elite, pero por alguna razón no entraron, como doppelgänger. Ellos fueron la variable de control.

Los Doppelganger en HIMYM

Algo parecido sería este estudio. Usaría como doppelgängers a los pueblos que aplicaron al programa, pero no fueron aceptados sino hasta después del segundo o tercer intento.

La idea es que un pueblo que se hizo mágico después del segundo o tercer intento ya cumplía con algunos requisitos básicos para entrar en el programa. Por lo tanto sería un pueblo comparable a los Pueblos Mágicos que si fueron aceptados al programa antes.

Lo que está implícito es que no es posible hacer una comparación directa de un pueblo mágico con otro que no lo es, solo por sus características observables.

📊Los datos

Tengo un problema con los datos. No existe información a nivel municipal de la actividad económica de los municipios con frecuencia anual. No hay. No se generan esos datos.

My workaround a este problema (y no se si funcione) sería intentar usar las imágenes satelitales de la iluminación nocturna para estimarlo. Este tipo de datos ya se usan en otras partes del mundo para dar seguimiento al desarrollo económico de algunas regiones en asia, África y otras regiones donde la recolección de datos es compleja.

Si por alguna razón no me es posible usar ese tipo de datos, tengo un plan B: reducir los datos a municipios de un tamaño medio sacando una estimación del PIB a nivel municipal. Lo he hecho anteriormente, aunque he revisado la técnica que usé en esa ocasión y no estoy 100% conforme con el algoritmo y no se me ocurre al momento como mejorarlo.

🏰Lo que espero encontrar

No sé cuál será el resultado de antemano. De verdad. Puede ser que el programa haya sido exitoso (lo que sea que eso signifique), o puede que encontremos que los flujos de turismo y el ingreso de un municipio no cambie en absoluto con la entrada al programa ceteris paribus.

¿Por qué no podríamos determinar esto sin hacer este comparativo como el que estoy planteando? Después de todo, los mismos municipios deben de poder observar si les ha ido mejor o no. Básicamente es necesario plantear un contrafactual: la versión del mismo municipio que no entró al programa.

¡Genial! Te has registrado exitosamente.

¡Bienvenido de vuelta! Has iniciado sesión correctamente.

Te has suscrito correctamente a Escribe tu primer paper de Economía.

¡Éxito! Revisa tu correo electrónico para obtener el enlace mágico para iniciar sesión.

¡Éxito! Se ha actualizado la información de facturación.

No se actualizó tu información de facturación.

Sígueme en Mastodon