
Si quieres hacer investigación, en algún momento tendrás que trabajar con datos.
La buena noticia es que la gran mayoría del trabajo con datos es algo que alguien más ya hizo. Todos los teoremas, toda la paquetería de software y todos los modelos que puedes usar ya están establecidos y validados por alguien más. A nosotros nos toca únicamente darles uso.
Esta sección es una checklist sobre cuándo usar datos cuantitativos (y cuándo es mejor alejarnos de ellos).
¿Por qué usamos datos para nuestra investigación?
Como economistas, damos por sentado que estaremos usando datos. Pero eso es algo reciente.
Cuando el premio Nobel David Card hizo su estudio en el que comparaba el efecto que tuvo el aumento del salario mínimo en Nueva Jersey, lo hizo con una metodología muy clara. Sin embargo, en ese tiempo la tradición de la argumentación económica era el uso de modelos microeconómicos que equiparaban el mercado laboral con cualquier otro mercado y que predecían que ese aumento venía acompañado de un desempleo que jamás sucedió.
Nos encontramos ante la llamada revolución de la credibilidad, donde todos los argumentos que hemos de hacer como economistas tienen que basarse en datos.
Estas son las principales razones por las que usamos datos cuando hacemos investigación.
- Para dar validez a nuestros argumentos. Podemos hacer tantos modelos como queramos, pero en algún momento lo tendremos que contrastar con la realidad.
- Para hablar en un lenguaje común. Transformar nuestros argumentos a números nos obliga a pensar con mucha precisión y claridad lo que queremos decir. No se vale dar un argumento vago para indicar si el salario mínimo es “malo” o “bueno”. Tienes que tener una medida objetiva sobre cómo vas a medirlo.
- Para distinguir con claridad los efectos causales y no permitir que la correlación nos confunda. Esta es la razón más importante. Es fácil por ejemplo observar que los bonos de carbono están llevando dinero a las comunidades que cuidan bosques y manglares. Pero si se trata de zonas que ya estarían protegidas de cualquier forma, entonces un bono de carbono podría ser un permiso para contaminar que está creando más problemas de los que trata de resolver.
Checklist de 12 pasos para hacer un estudio cuantitativo de inferencia causal
Cada estudio es diferente, pero todos mas o menos siguen la misma estructura.
Aquí te dejo esta checklist para hacer tu estudio cuantitativo:
- Paso #1: Identifica el problema a resolver. Este es el paso más importante. Por mucho. ¿Puedes hacer un estudio simplemente porque tienes curiosidad de un fenómeno? definitivamente. Pero tener un buen problema a resolver se convierte en una brújula que te guiará a lo largo de tu estudio.
- Paso #2: ¿Cuáles son las variables de interés?. Lo común es identificar cuál será tu variable $X$ (la causa) y cuál será $Y$ (el efecto). Por ejemplo, el efecto de los años de educación en los ingresos.
- Paso #3: Identifica las variables de control. ¿Cuáles son esas otras variables que también influyen en $Y$? Algunas de esas variables podrían ser observables (e.g. nivel de ingresos de los padres), pero hay otras que por su naturaleza no las podemos conocer (e.g. habilidades del individuo).
- Paso #4: Establece cuál crees que es la relación causal entre las variables. ¿Cómo afecta $X$ a $Y$? En dos sentidos: si es positiva o negativa y también hacemos una teoría sobre los mecanismos de esta relación. Por ejemplo, nos podemos imaginar que mayor educación proporciona habilidades más valiosas a las personas que les permiten obtener mejores salarios.
- Paso #5: Inventa un experimento ideal. Este paso es el que muchos se saltan, pero es clave: imagina un experimento en el que aíslas las variables como en un laboratorio. ¿Cómo se vería? Por ejemplo, podríamos asignar de manera aleatoria a diferentes personas diferentes años de educación. Hacer esto en la realidad podría no ser factible, ni ético (nadie te puede dictar que ya no puedes estudiar o aprender), pero por eso es un ejercicio de la imaginación.
- Paso #6: A partir del experimento ideal, identifica la estrategia de identificación. El experimento ideal es muy revelador, y permite imaginar la forma ideal en que capturaremos los datos y los estudiaremos. Podría tratarse de una regresión lineal o de un modelo de diferencias en diferencias.
- Paso #7: Definir las fuentes de los datos. Una vez definidos los modelos, podemos entrar en los detalles tácticos sobre la forma de obtener los datos. Hay tres formas básicas de obtener datos:
- Capturar nuestros propios datos a partir de un instrumento.
- Usar fuentes externas ya validadas.
- Extraerlos por medio de scraping o alguna API.
- Paso #8: Diseñar los instrumentos para la medición. En el caso de haber elegido capturar datos por nuestra cuenta, necesitas diseñar los instrumentos. En caso de elegir fuentes externas, estudia el documento metodológico de la fuente que estamos usando.
- Paso #9: Aplicar los instrumentos de medición / Extraer los datos. Esta es la actividad por la que muchas personas empiezan, pero ¿notaste cuántos pasos hay que hacer antes de llegar aquí?
- Paso #10: Limpiar los datos y prepararlos para su análisis. No es común que los datos vengan listos para usarse. Generalmente hay que lidiar con datos nulos, crear variables a partir de las existentes y resolver una lista interminable de problemas, datos faltantes e inconsistencias. Mucha suerte en esta etapa.
- Paso #11: Aplicar los métodos para identificar los efectos. Este es el momento de aplicar los modelos y revisar los resultados.
- Paso #12: Revisar que se cumplan las pruebas de hipótesis. No lo hagas como una lista de lavandería. Si comprendes los supuestos y por qué están ahí, sabrás cuándo puedes romper las reglas como un artista.
Y naturalmente, quedaría toda una etapa de presentación de datos de la que podemos hablar por horas.