En mi clase de Aplicación de Principios Económicos estamos viendo sobre ensayos controlados aleatorizados (En inglés se llaman Randomized Controlled Trials y tienen RCT como siglas).
Y como parte de mi filosofía en mis clases es que los alumnos tienen que poner en práctica lo aprendido, naturalmente los puse a diseñar sus propios ensayos y llevarlos a la práctica.
Usamos chatGPT como apoyo para generar las ideas del diseño de los experimentos, pero al final fueron ellos los que definieron el alcance de sus experimentos.
Me interesaba más que aprendieran el proceso a que los resultados fueran los correctos o que incluso sus teorías estuvieran totalmente respaldadas (ya habrá tiempo en su vida profesional en el que les exigirán eso). Por eso su muestra fue pequeña, pero lo que descubrieron en clase fue que:
- Hacer un examen con música clásica de fondo puede hacer que baje tu calificación (tal vez es demasiada distracción).
- Estudiar para un examen con tarjetas de memoria genera peores resultados que simplemente dejar que aprenda cada quien de la manera que considere apropiada.
- No desayunar afecta el rendimiento escolar de manera negativa.
- Dejar las redes sociales durante una semana ayuda a mejorar la autopercepción, mejora el estado de ánimo y reduce los niveles de ansiedad en adolescentes.
- La meditación tiene efectos positivos muy claros y muy fuertes en el rendimiento académico (esta si me sorprendió).
Pero a los alumnos también les tocó ser el conejillo de Indias. Para mostrarles cómo calcular sus resultados para mostrarlos, hice un experimento muy corto en clase con ellos.
¿Cómo va tu día?
La variable de interés era que me respondieran en una escala de likert cómo va su día. La escala va del 1 al 5 donde 1 significa “mi día va pésimo” y 5 es “mi día va excelente”.
Dividí al grupo en tratamiento y control y al tratamiento les puse a ver durante un minuto videos de gatitos en YouTube.
Los resultados están en esta tabla de Google sheets. Como asumimos que los grupos se dividieron de manera aleatoria, basta una diferencia de medias para examinar el efecto que tuvieron los videos de gatitos en mis alumnos. Por lo tanto
\( E[Y_i | D_i=1] - E[Y_i | D_i=0]= 0.105 \)
Nos indica que en promedio ver un video de gatito sube el ánimo en una décima de puntos en la escala de Likert. ¡Eso es muy interesante! Implicaría que alguien que está entre una respuesta de 3 podría subir su nivel de ánimo a 4 con un 10% de probabilidad.
Si te suena demasiado bueno para ser verdad es porque aún no hemos revisado nada respecto a si estos resultados son significativos.
¿Es significativo?
Me habría sorprendido mucho si hubiera encontrado un resultado significativo. Aprovechamos el ejercicio para aprender la lógica detrás de la desviación estándar y el estadístico \(t\).
Estos temas merecen su propio post. En cuanto vi que la desviación estándar era de 0.544 supe que los resultados no eran significativos.
¿Cómo saber eso? Si el tamaño de la variación de tus datos es más grande que el efecto que estás analizando, entonces el resultado bien podría deberse a la naturaleza aleatoria de los datos. Es decir: la misma variación de los datos sube más de lo que detectamos como efecto.
Para calcular el nivel de significancia de los datos usamos el estadístico t:
\( t = \frac{\mu_1 - \mu_0}{\frac{\sigma}{\sqrt{n}}} = 1.19 \)
donde \(\mu_1\) y \(\mu_0\) son los valores medios con el tratamiento (ver videos de gatitos) y el control (no ver videos de gatitos), respectivamente. Cuando le incluímos a la desviación estándar \(\sigma\) el número de observaciones, estamos usando en realidad el error estándar. Nota que entre más grande sea el tamaño de muestra, más pequeño es el error estándar y el valor de \(t\) aumenta.
El valor de 1.19 nos dice que la señal es apenas poco más fuerte que el ruido. La diferencia de medias no es lo suficientemente grande para justificar que su aumento se deba a ver videos de gatitos.
El tamaño de muestra es pequeño. Si lográramos ver ese mismo efecto en una muestra más grande y más representativa que mi grupo de cuarto semestre, podríamos reconocer que el efecto se debe a nuestro tratamiento.
Otra posible solución podría ser identificar fuentes de ruido y controlarlas. Por ejemplo, puede ser que, adicional a la medición de su estado de ánimo incluya preguntas sobre su día que podría afectar su humor. ¡Haber desayunado (o no) podría afectar de una manera más fuerte al estado de ánimo que un video de gatitos!