Esta es la última parte del primer capítulo de Econometría con Python que estoy haciendo. El siguiente post (la próxima semana) ya comenzaré con el capítulo de regresión lineal. El outline está increíble: nos vamos directo a las tripas de la regresión con ejemplos y simulaciones. Todo lo que estoy publicando aquí va a ser en Python, pero el libro también tendrá sus versiones en R. Ya estoy emocionado por todo lo que veremos.
Hay una manera gráfica de representar las relaciones causales. Se llaman Grafos Acíclicos Dirigidos (GAD). Básicamente son dibujos donde se relacionan las variables que nos interesan usando flechas para representar la causalidad.
Los DAG se usan para plantear un modelo del estado del arte del fenómeno que estamos estudiando. También se usan para encontrar posibles problemas que el modelo nos plantea.
Mi primer DAG
Para mostrar el poder de los GAD, comencemos con un ejemplo sencillo.
Considera el siguiente diagrama:
Es sencillo. Muestra únicamente la relación de $D$ con $Y$. Pero es común que las relaciones causales sean afectadas por otros factores externos. Veamos un ejemplo.
El efecto de asistir a una universidad de elite
¿Cuál el efecto que puede tener asistir a una universidad de elite? Existen muchos estudios que estiman que las personas que entran a las universidades Ivy League (Harvard, Stanford, MIT, etc) tienen más ingresos que las personas que estudian en otras instituciones.
Pero como hemos visto antes, la correlación no necesariamente significa que haya causalidad. Hay otros factores detrás de los ingresos de las personas que son difícil separar de la entrada a una universidad particular. Por ejemplo, la educación de los padres o los ingresos familiares pueden influir en la entrada a la universidad. Todos estos aspectos suelen interactuar entre si, lo cual vuelve complejo estudiar causas y efectos.
En 1999 se publicó un estudio hecho por Stacy Berg Dale y Alan Krueger que abordó este problema de una forma ingeniosa. No es posible simplemente comparar los ingresos de aquellos que ingresaron a las universidades de elite con quienes no lo hicieron, pues ambos podrían ser radicalmente diferentes.
Por lo tanto, lo que hicieron ellos fue comparar doppelgängers. Un doppelgänger es un gemelo o réplica idéntica, en este caso de los jóvenes que entraron a las escuelas de élite en los Estados Unidos.
Este tipo de estudios no es muy común. ¿De donde sacaron los doppelgängers para su estudio? Se requiere que sean jóvenes con las mismas características que los chicos que entraron a estas universidades: con mismo nivel socioeconómico, ingresos familiares y educación de los padres en promedio. La única diferencia es que son chicos que no entraron a la universidad de élite.
La respuesta que encontraron a este acertijo fue usar los datos de jóvenes que fueron aceptados, pero que por alguna circunstancia externa al final decidieron enrolarse en otra universidad. Estos alumnos son verdaderos doppelgängers de los alumnos que fueron admitidos y asistieron, pues en teoría tienen todas las otras características que sirven para hacer una comparación: tienen el nivel educativo y probablemente características socioeconómicas comparables.
Incluso los atributos inobservables como las habilidades o la inteligencia deberían ser comparables bajo este diseño.
Con este diseño, los investigadores encontraron que quienes fueron alumnos de escuelas más selectivas no tienen realmente mayores ingresos que los que fueron aceptados, pero no asistieron.
¿Qué significa esto? La conclusión es que son las otras características, como la educación e ingresos de sus padres y sus condiciones socioeconómicas las que representan una mayor influencia en los ingresos de una persona. Esto explica por qué personas como Mark Zuckerberg o Bill Gates se pudieron salir de la universidad y aún así sus empresas resultaron ser exitosas, mientras que para el resto de nosotros la educación resulta importante para hacer que nuestro emprendimiento tenga buenos resultados.
Cerrando Puertas traseras
No siempre tenemos la dicha de encontrar datos que nos permitan hacer este tipo de diseños para nuestro estudio. Pero eso no significa que no debamos poner atención a las puertas traseras, como es el caso de los factores socioeconómicos en nuestro estudio. El objetivo al momento de diseñar nuestro análisis es crear las condiciones para que nuestro análisis encuentre una interpretación causal.
Por ejemplo, el siguiente diagrama muestra una historia más completa sobre nuestra teoría de cómo la situación familiar y la educación podrían afectar a los ingresos de formas directas e indirectas.
Observa que hemos incluido la educación de los padres como factor que influencia a los ingresos de los individuos, pero sólo de manera indirecta a través de los ingresos familiares. Cuando esto pasa se dice que hay mediación o que la educación afecta a los ingresos por medio de los ingresos familiares.
Lo mismo podemos observar que pasa con la entrada a la universidad. La educación de los padres es un factor que influye en si una persona entra o no a la universidad, pero es por este medio que afecta de manera indirecta a los ingresos.
Hay factores que pueden afectar de manera directa e indirecta al mismo tiempo. Por ejemplo, los ingresos familiares afectan los ingresos de manera directa así como afectan la probabilidad de que una persona entre a la universidad. Este es un caso de dependencia mutua.
Finalmente, hemos incluido una variable no observable de habilidades que afecta tanto al ingreso a la universidad como a los ingresos. Las variables no observables pueden representar problemas importantes en la estimación de las variables, como veremos más adelante. Pero precisamente por los problemas que pueden representar es importante reconocerlos en nuestros modelos y tomarlos en consideración.
Las reglas de los GAD
Diseñar gráficos acíclicos dirigidos tiene una serie de reglas que se deben seguir para que los modelos que resulten tengan sentido.
En primer lugar, los GAD no tienen ciclos: no hay ninguna ruta en el grafo que comienza y termina en el mismo nodo. Esto asegura que el modelo no tiene dependencias cíclicas y, por lo tanto, es más fácil de entender y analizar.
Otra regla importante es que cada nodo debe tener al menos una flecha entrante y una flecha saliente. Esto garantiza que todos los nodos están conectados y participan en el modelo. Además, las flechas van en una sola dirección, lo que significa que cada flecha tiene un origen y un destino. Si A causa B, no es posible que B cause A al mismo tiempo. Esto ayuda a representar relaciones causales y jerárquicas entre diferentes elementos.