¿Cómo calcular mi tamaño de muestra usando python?

Un tutorial y algunos regaños para quienes sólo meten una fórmula y esperan que les escupa su número de regreso

¿Cómo calcular mi tamaño de muestra usando python?

Calcular el tamaño de muestra no se trata de sólo introducir una fórmula y usar el número que te arroja la computadora. Necesitas entender lo que estás estudiando.

Suponiendo que quieres una muestra simple de una población que tiene distribución normal y que el tamaño de la población es mucho más grande que la muestra, esta sería la fórmula que deberías usar.

Este código usa la librería scipy para calcular la puntuación z (z-score) a un nivel de confianza dado. Una convención es usar el nivel de confianza de 95%, pero puedes usar esta misma fórmula con 99% sin problemas.

En el código anterior sólo necesitas cambiar los parámetros en la fórmula

¿Qué pasa si no se cumplen los supuestos?

Hay casos en los que el tamaño de la población no es realmente más grande que el tamaño de muestra o la población no se distribuye de manera normal. En estos casos, la fórmula se vuelve un poco más compleja.

Veamos dos casos específicos: la fórmula del puntaje $t$ y la fórmula de Chi-cuadrada.

La fórmula del puntaje t

La fórmula del puntaje $t$ se usa cuando el tamaño de la población es pequeño o la población no se distribuye normalmente. Se puede obtener a partir de la siguiente ecuación:

Donde $n$ es el tamaño de la muestra, $t$ es el puntaje T, $\sigma$ es la desviación estándar de la población y $e$ es el margen de error o nivel de precisión deseado.

De esta fórmula lo más importante es $t$, que representa el valor crítico del nivel deseado de confianza: el número de desviaciones estándar que la media muestral debe estar alejada de la media poblacional para que los resultados se consideren significativos (estadísticamente).

El puntaje $t$ se calcula sustrayendo la media poblacional de una observación y dividiéndolo entre la desviación estándar. La prueba $t$ es la que se usa regularmente en las pruebas de hipótesis para determinar si una determinada observación es significativamente diferente que la media poblacional.

Puedes calcular la muestra en python usando el código siguiente:

La fórmula de chi cuadrada.

La fórmula de la chi cuadrada se utiliza para medir cómo una distribución de probabilidad de una variable aleatoria dada se desvía de una distribución teórica esperada. Se denota con la letra griega $\chi^2$ y se calcula como la suma de las diferencias entre los valores observados y los valores esperados, elevados al cuadrado y normalizados por el valor esperado.

Matemáticamente, la fórmula para calcular la chi cuadrada se puede expresar de la siguiente manera:

Donde $O_i$ es el valor observado en el $i$-ésimo intervalo de la distribución, $E_i$ es el valor esperado en el $i$-ésimo intervalo de la distribución y $n$ es el número de intervalos en la distribución.

La chi cuadrada se utiliza a menudo para evaluar si una muestra de datos proviene de una distribución conocida. Si el valor de la chi cuadrada es pequeño, significa que la distribución de los datos se aproxima bastante a la distribución teórica esperada, lo que indica que la muestra es válida. En cambi, si el valor de la chi cuadrada es grande, significa que la distribución de los datos se desvía significativamente de la distribución teórica esperada, lo que indica que la muestra es poco fiable.

Ejemplo en python

Aplica una estimación de la Xi cuadrada en python usando el siguiente código

Entonces… ¿Qué hago?

Siempre es buena idea comenzar con algunas pruebas para identificar si los datos tienen distribución normal o alguna otra. Por lo general no vas a encontrar datos perfectos que cumplan con todas las condiciones que requieres, por eso debes darte algún margen y entender bien lo que estás haciendo.

Recuerda que el cálculo de la muestra es un proceso iterativo, no la simple aplicación de una fórmula. Es decir: lanza la fórmula, prueba los resultados y la vuelves a lanzar hasta que logres encontrar el resultado.

Copia el código

En el siguiente botón puedes encontrar la nota donde hice este post es Notion. Ahí puedes ver el código y las ecuaciones con buen formato y puedes copiar y pegar.


¡Genial! Te has registrado exitosamente.

¡Bienvenido de vuelta! Has iniciado sesión correctamente.

Te has suscrito correctamente a Escribe tu primer paper de Economía.

¡Éxito! Revisa tu correo electrónico para obtener el enlace mágico para iniciar sesión.

¡Éxito! Se ha actualizado la información de facturación.

No se actualizó tu información de facturación.

Sígueme en Mastodon