La econometría moderna sufrió un cambio de paradigma a partir del modelo de resultados potenciales. Es este modelo el que permite pensar en términos de experimentos aún cuando los datos son observacionales para obtener inferencia causal.
El truco está en pensar en términos de universos paralelos, para identificar los efectos que tiene algún tratamiento.
Cómo se hacen los experimentos en la vida real
Desde que soy un niño siempre quise ser científico. Crecí con shows que mostraban personas ingeniosas haciendo experimentos interesantes para resolver sus problemas.
No fue sino hasta que fui un adolescente que me di cuenta de que mi papá era un científico de la vida real. Él me pedía que le ayudara a revisar el inglés de sus artículos, que son la forma en que se comunican los resultados científicos.
Lo interesante es que es precisamente en los estudios agrícolas donde nace la tradición de hacer experimentos para identificar los efectos que tiene un tratamiento sobre un campo.
El procedimiento es el siguiente: supón que deseas conocer si un insecticida es efectivo, i.e. logra matar muchos insectos. Tu objetivo no es realmente matar insectos, lo que tú deseas en realidad es aumentar tu producción de tomates, o lo que sea que estás sembrando.
Algo de notación
Para este ejercicio la variable resultado es el nivel de producción del campo, que denotamos con $Y$.
Llamamos tratamiento al insecticida y lo denotamos con $D$, que es una variable dummy, es decir, sus valores pueden ser $1$ o $0$, según si se aplica o no el tratamiento.
Las variables $Y$ y $D$ son vectores que contienen diferentes unidades de medición $Y_i$ y $D_i$, respectivamente. La $i$ es un indicador que nos ayuda a identificar a un invernadero específico. Puedes imaginar que tenemos un campo con $N$ invernaderos (si tienes problemas para imaginar $N$ piensa en 100 hasta que alguien te diga lo contrario) y que todos están numerados del $1$ al $N=100$. Entonces $i$ puede ser el invernadero $1$ o el $100$, o cualquier otro número intermedio.
Puede ser que algunos invernaderos reciban tratamiento. Esto lo denotamos con $D_i = 1$. Por lo tanto, cuando el invernadero $i$ no recibe tratamiento escribimos $D_i = 0$.
Entonces tenemos dos tipos de valores para la producción del invernadero $i$.
Si nunca habías visto una fórmula con llaves así, no te preocupes. Del lado derecho estamos planteando dos escenarios para $Y_i$ que dependen del valor de $D_i$. Estos dos valores no pueden darse al mismo tiempo: no puedes ponerle y a la vez no ponerle insecticida a un invernadero.
Para distinguir cada uno de estos dos escenarios le incluimos un número adicional en el superíndice. Este no es un exponente, es una forma de indicar si la producción proviene de un invernadero con tratamiento o sin él. Entonces $Y_{i}^1$ nos dice el nivel de producción del invernadero $i$ si se aplica el insecticida y $Y_{i}^0$ es el nivel de producción del mismo invernadero si no se le aplicara este tratamiento.
Como puedes imaginar, no podemos observar $Y_{i}^1$ y $Y_{i}^0$ al mismo tiempo, pues están en diferentes universos. Pero esto es justo lo que necesitamos medir si deseamos medir el efecto que tiene el insecticida en nuestro invernadero. Si pudiéramos acceder a los dos universos al mismo tiempo, la medición del efecto sería tan fácil como tomar la diferencia del rendimiento con insecticida y sin insecticida.
Para este caso, idealmente estaríamos esperando un número positivo, que nos indica que el insecticida incrementa nuestro rendimiento. Denotamos entonces al efecto del tratamiento con $\delta_i$.
No hagas una diferencia de medias simple
¿Has seguido el hilo hasta el momento? Que bueno, porque aquí es la parte en la que la mayoría se equivoca.
No podemos ir a visitar universos alternos para revisar el efecto de nuestro tratamiento, pero sí podemos observar lo que sucede en los invernaderos que aplican el insecticida y compararlos con lo que no lo aplican.
Considera que tenemos $N^0$ invernaderos a los que no se les ha aplicado el insecticida y $N^1$ a los que sí. Lo que muchos hacen en este punto es tomar una diferencia de medias para comparar.
A la ecuación anterior se le conoce como el efecto promedio del tratamiento y se denota por $E[\delta_i]$.
Falso. Tomar una diferencia de medias significa asumir que los dos invernaderos son iguales en todos los demás aspectos además del tratamiento que se les aplicó. Todo lo demás igual: ceteris paribus.
Pero la realidad normalmente es más compleja. Si tú observas dos invernaderos y notas que el que aplicó insecticida tiene mayor rendimiento que el que no, no puedes asumir inmediatamente que el efecto que estás midiendo viene del insecticida. Podría ser que en el invernadero sin insecticida la semilla es de mala calidad. Ambas cosas se deben a que el agricultor está invirtiendo menor presupuesto al invernadero.
Universos Paralelos
Intenta generalizar el ejemplo anterior a otros problemas. Si quieres conocer por ejemplo si la educación (tratamiento) representa un aumento en los ingresos (resultado), no es posible tomar la diferencia de los valores esperados. Hacer esto nos dejaría con un sesgo que conocemos como el sesgo de selección. Veamos cómo funciona.
Consideremos el siguiente caso hipotético para notar cómo la diferencia de medias puede ser engañosa. Alicia y Bob quieren decidir si asistir a una fiesta la noche antes a un examen muy importante de la clase de Econometría. Todo en economía se mide en términos de su costo de oportunidad y asistir a esa fiesta puede afectar sus calificaciones, por lo que en teoría, el efecto de asistir ($D_i = 1$) debería ser negativo.
Sin embargo, podemos encontrar cosas curiosas si no somos atentos. Alicia es una alumna que tiene un excelente promedio, habilidades matemáticas excepcionales y puso mucha atención en clase. Digamos que Alicia decidió asistir a la fiesta y aún así se sacó un 10. Lo podemos expresar en la ecuación
Donde el subíndice A nos sirve para indicar que se trata de Alicia. En este caso, si Alicia se hubiera quedado en casa para estudiar, también se hubiera sacado un 10 (Y_A^0 = 10), por lo que el efecto habría sido cero:
Naturalmente, $Y_A^0$ se refiere a algo que no existe y que no podemos ver. A estos casos que no podemos ver los vamos a llamaar contrafactuales. Para el caso de Alicia es fácil ver que se hubiera también sacado 10 porque es la máxima calificación, pero no siempre tenemos tanta suerte.
Por ejemplo, consideremos a Bob. Bob se perdió algunas clases y no tiene tantas ventajas en Econometría como las tiene Alicia, por lo que decide mejor quedarse en casa y estudiar para el examen. Imaginemos que llega el día del examen y Bob se sacó un 9.
Bob está contento con su resultado, porque si no hubiera estudiado para ese examen, seguro se habría sacado un 8 (Y_B^1 = 8). Ese 8 no existe en nuestra realidad, pero si lo pudiéramos observar, nos indicaría exactamente cuál es el efecto que asistir a la fiesta hubiera tenido para Bob:
Pero este es el efecto que encontramos si pudiéramos observar el universo paralelo en el que Bob si asistió a la fiesta. En la realidad sólo tenemos los datos de la calificación de Alicia, que si asistió a la fiesta, y Bob, que no lo hizo.
Sesgo de selección
¿Qué sucede cuando hacemos una diferencia simple de los datos que observamos? Veamos lo que sucede en la siguiente ecuación.
Esta diferencia la podemos interpretar como si asistir a la fiesta hubiera ayudado a subir las calificaciones. Nosotros sabemos que esto no es verdad, pero es lo que nos indican los datos. ¿Cuál es el error?
La ecuación anterior está contaminada con el sesgo de selección. Para verlo, podemos introducir a $Y_B^1$ en la ecuación. Hacer esto requiere que lo cancelemos para no afectar la igualdad. Manipulando un poco la ecuación, el resultado se vería así:
Esta última parte la escribí separando en dos paréntesis. El primer paréntesis muestra el efecto $\delta_B$, que mide la diferencia de lo que pasó y un contrafactual. Pero, ¿qué es lo que quedó en el segundo paréntesis? Ese es el que conocemos como el sesgo de selección, y es lo que no nos permite determinar el efecto real.
Nota que el primer paréntesis suma $-1$ mientras que el segundo deja un resultado de $+2$, que sumados nos dan el $1$ observado. Pero este no es el efecto de la fiesta, lo que pasa es que el sesgo de selección es suficientemente fuerte para cambiar el signo.