Cómo hacer una regresión lineal en Python

Comencemos por crear una base de datos. Hagamos que sea con 1000 observaciones, donde los valores de $x$ vienen de una distribución normal y los valores de $y$ dependen linealmente de $x$:

$$ y = \alpha + \beta x + \varepsilon $$

Digamos que $\alpha = 1$ y $\beta = 1.5$. Entonces el siguiente código nos puede crear nuestra base de datos:

from numpy import random
import pandas as pd

n = 1000
random.seed(42)

df = pd.DataFrame({"x": random.normal(size = n)})

df['y'] = 1 + 1.5 * df['x'] + random.normal(size = n)

print(df.head())

En el caso de que hayas cargado tu base de datos a partir de un archivo con pandas, el resto del código sería exactamente igual en adelante.

Guía para comenzar con python

Veamos en un gráfico cómo se ven nuestros datos. Escribe el código siguiente

import matplotlib.pyplot as plt

plt.scatter(df['x'], df['y'], color = "#154957", alpha = 0.2)
plt.show()

Este código genera el siguiente gráfico de dispersión.

Un diagrama de dispersión — El diagrama de dispersión

El código es muy simple y su interpretación es directa. En la primera línea estamos llamando el submódulo matplotlib.pyplot con el alias plt. La segunda línea llama a la función scatter, con x y y como primeros argumentos. La función debería funcionar únicamente así, pero hemos agregado algunos argumentos adicionales para mejorar el diseño del gráfico, como el nivel de transparencia y el color de los puntos. La tercera línea debe imprimir el gráfico en tu pantalla.

Guía de estadística con Python

Mínimos Cuadrados Ordinarios

Este es el paso final. Haremos un modelo de Mínimos Cuadrados Ordinarios. Hay muchos módulos con los que se puede hacer esto. Algunos de los más populares incluyen scikit-learn y tensorflow. Para este ejemplo usaremos statsmodels, pues el reporte que arroja es el mas útil para hacer inferencia estadística.

import statsmodels.api as sm

modelo = sm.OLS(df.y, df.x).fit()

print(modelo.summary())

Nuevamente, el código es bastante transparente. En la primera línea hemos llamado al módulo con un alias, en la segunda línea hemos llamado un modelo de mínimos cuadrados ordinarios con la función OLS, y en la tercera línea imprimimos en pantalla el reporte del modelo.

El resultado debe verse así:

Una captura de un bloque de regresión — La primera parte muestra detalles de la regresión. Nos interesa el coeficiente.

Es un modelo sencillo, pero podemos identificar fácilmente que el coeficiente que nos arroja de $1.48$ es muy cercano al $1.5$ que planteamos en la primera parte de este tutorial.

Cómo hacer una regresión lineal en Python

Mínimos Cuadrados Ordinarios

Leer siguiente

El esquema de tu tesis con IA

Tutorial para hacer tu bibliografía con IA

Un mal tamaño de muestra puede matar tu investigación