Guía completa de correlación y regresión lineal: conceptos, ejemplos y aplicaciones
Contenido
Análisis de correlación y regresión lineal
La correlación y la regresión lineal son dos herramientas estadísticas fundamentales que nos permiten analizar la relación entre dos variables. En este artículo, vamos a revisar un ejemplo resuelto paso a paso para entender cómo aplicar estas técnicas en la práctica.
Definición de correlación
La correlación es una medida estadística que nos indica el grado de relación entre dos variables. Existen diferentes tipos de correlación, pero en este ejemplo nos enfocaremos en la correlación lineal, que mide la relación lineal entre dos variables. La correlación lineal puede tomar valores entre -1 y 1, donde -1 indica una correlación negativa perfecta, 0 indica ausencia de correlación y 1 indica una correlación positiva perfecta.
Definición de regresión lineal
La regresión lineal, por otro lado, nos permite predecir el valor de una variable (variable dependiente) a partir de otra variable (variable independiente). La idea es encontrar la ecuación de una recta que mejor se ajuste a los datos, de modo que podamos estimar el valor de la variable dependiente para cualquier valor de la variable independiente.
Ejemplo resuelto de correlación y regresión lineal
Supongamos que tenemos un conjunto de datos que relaciona el número de horas de estudio con la calificación obtenida en un examen. Para simplificar, utilizaremos un conjunto de datos ficticio para ilustrar el proceso.
Horas de estudio: 4, 6, 8, 5, 7, 10
Calificación en el examen: 60, 65, 70, 62, 68, 75
Paso 1: Calcular la correlación
Primero, vamos a calcular la correlación entre las horas de estudio y la calificación en el examen. Utilizaremos la fórmula para la correlación lineal:
[ r = frac{n(sum xy) – (sum x)(sum y)}{sqrt{[n sum x^2 – (sum x)^2][n sum y^2 – (sum y)^2]}} ]
Donde ( n ) es el número de observaciones, ( sum xy ) es la suma del producto de las horas de estudio y las calificaciones, ( sum x ) es la suma de las horas de estudio, y ( sum y ) es la suma de las calificaciones.
Aplicando la fórmula, obtenemos:
[ n = 6 ]
[ sum x = 40 ]
[ sum y = 400 ]
[ sum xy = 2500 ]
[ sum x^2 = 248 ]
[ sum y^2 = 25120 ]
Sustituyendo los valores en la fórmula, obtenemos:
[ r = frac{6(2500) – (40)(400)}{sqrt{[6(248) – (40)^2][6(25120) – (400)^2]}} ]
[ r = frac{15000 – 16000}{sqrt{(1488)(14480)}} ]
[ r = frac{-1000}{sqrt{21527040}} ]
Finalmente, la correlación es:
[ r = -0.57 ]
La correlación entre las horas de estudio y la calificación en el examen es de -0.57, lo que indica una correlación negativa moderada.
Paso 2: Graficar los datos
Antes de continuar con la regresión lineal, es útil graficar los datos para visualizar la relación entre las variables. Podemos utilizar un diagrama de dispersión para esto:
«`python
import matplotlib.pyplot as plt
horas_de_estudio = [4, 6, 8, 5, 7, 10]
calificacion_examen = [60, 65, 70, 62, 68, 75]
plt.scatter(horas_de_estudio, calificacion_examen)
plt.xlabel(‘Horas de estudio’)
plt.ylabel(‘Calificación en el examen’)
plt.title(‘Diagrama de dispersión’)
plt.show()
«`
Al graficar los datos, podemos observar una tendencia negativa entre las horas de estudio y la calificación en el examen, lo que concuerda con la correlación obtenida.
Paso 3: Calcular la regresión lineal
El siguiente paso es calcular la ecuación de la recta de regresión lineal. Para esto, utilizaremos la fórmula de la recta de regresión:
[ y = mx + b ]
Donde ( m ) es la pendiente de la recta y ( b ) es la ordenada al origen. Las fórmulas para ( m ) y ( b ) son las siguientes:
[ m = frac{n(sum xy) – (sum x)(sum y)}{n(sum x^2) – (sum x)^2} ]
[ b = frac{sum y – m(sum x)}{n} ]
Aplicando las fórmulas, obtenemos:
[ m = frac{6(2500) – (40)(400)}{6(248) – (40)^2} ]
[ m = frac{15000 – 16000}{1488 – 1600} ]
[ m = frac{-1000}{-112} ]
[ m = 8.93 ]
[ b = frac{400 – 8.93(40)}{6} ]
[ b = frac{400 – 357.2}{6} ]
[ b = 7.8 ]
Entonces, la ecuación de la recta de regresión es:
[ hat{y} = 8.93x + 7.8 ]
Paso 4: Graficar la recta de regresión
Finalmente, graficamos la recta de regresión en el diagrama de dispersión:
«`python
import numpy as np
x = np.array(horas_de_estudio)
y = 8.93*x + 7.8
plt.scatter(horas_de_estudio, calificacion_examen, label=’Datos’)
plt.plot(x, y, color=’red’, label=’Regresión lineal’)
plt.xlabel(‘Horas de estudio’)
plt.ylabel(‘Calificación en el examen’)
plt.legend()
plt.title(‘Diagrama de dispersión con regresión lineal’)
plt.show()
«`
Al graficar la recta de regresión, podemos observar cómo se ajusta a la tendencia negativa de los datos, lo que nos permite realizar predicciones sobre la calificación en el examen en función de las horas de estudio.
Conclusiones
En este ejemplo resuelto, hemos aplicado la correlación y la regresión lineal para analizar la relación entre las horas de estudio y la calificación en un examen. La correlación nos indicó una relación negativa moderada entre las variables, y la regresión lineal nos permitió obtener una ecuación que modela esta relación. Estas herramientas son fundamentales en estadística y nos permiten comprender mejor las relaciones entre variables en un conjunto de datos.
Es importante recordar que la correlación no implica causalidad, es decir, que la relación entre las variables puede ser influenciada por otras variables que no han sido consideradas en el análisis. Por lo tanto, es necesario realizar un análisis más exhaustivo para entender completamente la relación entre las variables.
En resumen, la correlación y la regresión lineal son herramientas poderosas que nos permiten explorar y comprender las relaciones entre variables en un conjunto de datos, lo que puede ser de gran utilidad en la toma de decisiones en diferentes áreas, como la economía, la ingeniería, la medicina, entre otros.
Bibliografía:
1. Hair, J.F., Anderson, R.E., Tatham, R.L., & Black, W.C. (2006). Multivariate data analysis. Upper Saddle River, NJ: Pearson Prentice Hall.
2. Draper, N.R., & Smith, H. (1998). Applied regression analysis (3rd ed.). New York: Wiley.
3. Montgomery, D.C., Peck, E.A., & Vining, G.G. (2012). Introduction to linear regression analysis (5th ed.). Hoboken, NJ: Wiley.
4. Gelman, A., & Hill, J. (2006). Data analysis using regression and multilevel/hierarchical models. Cambridge, UK: Cambridge University Press.
5. Rencher, A.C. (2003). Methods of multivariate analysis (2nd ed.). New York: Wiley.
6. Motulsky, H. (1999). Intuitive biostatistics: A nonmathematical guide to statistical thinking. Oxford: Oxford University Press.
7. Weisberg, S. (2005). Applied linear regression (3rd ed.). Hoboken, NJ: Wiley.
8. Fox, J. (2008). Applied regression analysis and generalized linear models (2nd ed.). Thousand Oaks, CA: Sage Publications.
9. Kutner, M.H., Nachtsheim, C.J., Neter, J., & Li, W. (2004). Applied linear regression models (4th ed.). Boston: McGraw-Hill/Irwin.
10. Cramer, D. (2003). Advanced quantitative data analysis. Buckingham, UK: Open University Press.