Cómo interpretar los resultados del análisis de regresión: p-valores y coeficientes

Detalles: Categoría: Minitab; Publicado: 19 Junio 2015; Visto: 430650

Los análisis de regresión generan una ecuación que describe la relación entre una o más variables predictoras y la variable de respuesta. Después de utilizar Minitab Statistical Software para ajustar un modelo de regresión, y verificar el ajuste comprobando los gráficos de residuos, se querrá interpretar los resultados. A continuación veremos cómo interpretar los p-valores y los coeficientes que aparecen en la salida de un análisis de regresión lineal.

¿Cómo interpreto los P-valores en el análisis de regresión lineal?

El p-valor para cada término comprueba la hipótesis nula de que el coeficiente es igual a cero (no tiene efecto). Un p-valor bajo (< 0.05) indica que puedes rechazar la hipótesis nula. En otras palabras, un predictor que tenga un p-valor bajo es probable que tenga una adición significativa a su modelo porque los cambios en el valor del predictor están relacionados con cambios en la variable de respuesta.

Recíprocamente, un p-valor grande (insignificante) sugiere que los cambios en el predictor no están asociados con cambios en la respuesta.

En la salida de más abajo, podemos ver que las variables predictor de Sur y Norte son significativas porque los p-valores de ambas son 0.000. sin embargo, el p-valor para Este (0.092) es mayor que el nivel alfa común de 0.05, que indica que no es estadísticamente significativo.

Típicamente se utilizan los p-valores para determinar que téminos deben de mantenerse en el modelo de regresión. En el modelo de arriba, deberíamos de considerar eliminar el Este.

¿Cómo interpretar los coeficientes de regresión para relaciones lineales?

Los coeficientes de regresión representan los cambios medios en la variable de respuesta para una unidad de cambio en la variable predictor mientras se mantienen constantes los otros predictores en el modelo. Este control estadístico que proporciona la regresión es importante porque aisla el plapel de una variable de todas las otras del modelo.

La clave para entender los coeficientes es pensar en ellos como pendientes, y a menudo se les llama coeficientes pendiente. Ilustraremos esto en el gráfico de línea ajustada de abajo, donde utilizamos la altura de las personas para modelar su peso. Primero, la ventana de la sesión de Minitab da:

El gráfico de linea ajustada muestra los mismos resultados de la regresión en forma gráfica.

La ecuación muestra que el coeficiente para la altura en metros es 106.5 kilogramos. El coeficiente indica que para cada metro adicional en altura puedes esperar que el peso aumente en una media de 106.5 kilogramos.

La línea azul de ajuste muestra gráficamente la misma información. Si te mueves a la izquierda o derecha en el eje x en una cantidad que representa un cambio de un metro de altura, la línea de ajuste se incrementa o cae en 106.5 kilogramos. Sin embargo, estas alturas son para chicas en edad escolar y en un rango de 1.3 a 1.7 metros. La relación solo es válida dentro de este rango de datos, por lo que no sería real bajar o subir un metro por etá línea en todos los casos.

Si la linea de ajuste fuera plana (un coeficiente de pendiente cero), el valor esperado para el peso no cambiaría sin importar lo lejos que se fuera arriba o abajo de la línea. Así que, un p-valor bajo sugiere que la pendiente no es cero, lo que a su vez sugiere que los cambios en la variable predictor están asociados con cambios en la variable de respuesta.

Utilicé un gráfico de línea ajustada porque realmente trae las matemáticas a la vida. Sin embargo, los gráficos de línea ajustada solo pueden mostrar los resultados de regresiones simples, o sea una variable predictor y la respuesta. Los conceptos se mantienen ciertos para regresión lineal múltiple, pero se necesitarían dimensiones espaciales adicionales para cada predictor adicional para poder mostrar gráficamente los resultados. ¡Esto es difícil de mostrar con la tecnología actual!

¿Cómo interpreto los coeficientes de regresión para relaciones curvilíneas y los términos de interacción?

En el ejemplo anterior, la altura era un efecto lineal; la pendiente es constante, lo que indica que el efecto también es constante a lo largo de toda la línea ajustada. Sin embargo, si el modelo requiere términos polinomiales o de interacción, la interpretación es un poco menos intuitiva.

Como refresco, los términos polinomiales modelan la curvatura en los datos. Mientras que los términos de interacción indican que el efecto de un predictor depende del valor de otro predictor.

El siguiente ejemplo utiliza un conjunto de datos que requiere un término cuadrático para modelar la curvatura. En la salida de abajo, vemos que los p-valores para ambos términos, lienal y cuadrático, son significativos.

Los gráficos de residuos (no mostrados) indican un buen ejuste, así que podemos proceder con la interpretación. Pero, ¿como interpretamos estos coeficientes? Realmente ayuda graficarlos en un gráfico de línea ajustada.

Se puede ver como la relación entre los ajustes de la máquina y el consumo de energía varía dependiendo de dónde se empiece sobre la línea ajustada. Por ejemplo, si se empieza en un ajuste de máquina de 12 y se incrementa el ajuste en 1, se esperará que el consumo de energía decrezca. Sin embargo, si se empieza en 25, un incremento de 1 debería incrementar el consumo de energía. Y si se está alrededor de 20, el consumo de energía no debería de cambiar demasiado.

Un término polinómico significativo puede hacer que la interpretación sea menos intuitiva porque el efecto de cambiar el predictor varía dependiendo del valor del predictor. De forma similar, un término de interacción significativo indica que el efecto del predictor varía dependiendo del valor de un predictor diferente.

Hay que tener mayor cuidado cuando se interpreta un modelo de regresión que contiene estos tipos de términos. Se puede mirar únicamente al efecto principal (término lineal) y comprender lo que está pasando. Desgraciadamente, si se está realizando un análisis de regresión múltiple, no se podrá utilizar un gráfico de línea ajustada para interpretar gráficamente los resultados. Esto es por lo que el conocimiento del área específica es un valor añadido.