Por Joshua Zable.

Con la adición en Minitab de correlogramas a su arsenal de visualización como parte de la última versión de Minitab Statistical Software, quería explorar por qué esos gráficos son tan populares y herramientas útiles para la analítica avanzada.

Dicho de forma simple, un correlograma, a veces referido como un gráfico de correlación o una matriz de correlación, es una visualización de estadísticas de correlación. Se utiliza para calcular la aleatoriedad e identificar patrones sencillos en los datos identificando rápidamente variables que están fuertemente correladas con alguna otra. Como en el caso de cualquier análisis de datos, examinar y comprender la estructura de los datos es un primer paso importante en el proceso de análisis predictivo, y conocer cuándo las variables están altamente correladas con otras informará sobre los siguiente pasos.

Y, como se puede ver, el correlograma es una herramienta visual fantástica para ayudar en la jornada para impulsar mejor el análisis predictivo.

Utilizar un correlograma para identificar rápidamente correlaciones

Se puede estar pensando, "Pero yo utilizo las correlaciones con una gráfico de matriz para calcular las asociaciones y la aleatoriedad. ¿Cuál es la diferencia?" Bien, cuando solo se tienen unas pocas variables y un número relativamente pequeño de muestras, utilizar la correlación conjuntamente con un gráfico de matriz tiene mucho sentido.

Pero vamos a tomar un ejemplo de un ingeniero que está diseñando células de combustible para automóviles eléctricos para ilustrar porqué un correlograma puede ser una herramienta útil cuando están involucradas muchas variables y muchas muestras.

La temperatura de trabajo está entre los parámetros que afectan al rendimiento de las células de combustible, junto con la presión, las tasas de flujo y la humedad, y para cualquier diseño de célula de combustible debe de identificarse una temperatura de trabajo óptima. Para optimizar el diseño de la célula de combustible en rendimiento y eficiencia, el ingeniero necesita comprender la relación entre la cantidad de hidrógeno en la célula, la cantidad de oxígeno en la celda y la temperatura en la que el hidrógeno y el oxígeno son impulsados a la célula de combustible para crear energía.

El ingeniero planea evaluar si las reacciones químicas con un poco más o un poco menos de temperatura, entre el oxígeno y el hidrógeno pueden tener impacto en la potencia de la célula de combustible, utilizando 14 observacionea para cada una de estas medidas.

Tras correr los análisis de correlación en Minitab (es fácil como Estadísticas > Estadísticas básicas > Correlación), el ingeniero observa las correlaciones entre variables en este estudio tanto con la tabla de correlaciones como con un gráfico de matriz.

Según los resultados de la tabla, el coeficiente de correlación de Pearson entre el contenido de hidrógeno y los minutos de potencia es de −0.791 y un p-valor de 0.001. el p-valor es menos que el nivel de significancia de 0.05, lo que indica que la correlación es significativamente diferente a cero. La asociación implica que a medida que la cantidad de hidrógeno aumenta, los minutos de potencia generada tienden a decrecer. (Recuérdese que una correlación mide la fuerza de una asociación lineal entre dos variables, y que su rango va entre -1 [fuerte correlación negativa] y +1 [fuerte correlación positiva]. Las correlaciones cercanas a cero indican que no existe una asociación lineal fuerte entre las dos variables.)

Un gráfico de matriz visualiza las asociaciones individuales y es una herramienta útil para visualizar este análisis. En el ejemplo de abajo, nótese que el gráfico de minutos de potencia y contenido de hidrógeno está en la esquina inferior izquierda.

 

Un gráfico de matriz también es una herramienta útil para identificar potenciales valores atípicos (outliers), pero no está diseñada para identificar rápidamente las correlaciones más fuertes o más débiles. Por ejemplo, si se mira al gráfico de matriz anterior, ¿cuánto se podría tardar en decidir cuál de esas correlaciones está más cercana a -1 o +1?

Para responder a esa cuestión rápidamente, los correlogramas son una herramienta más útil, en particular cuando se presenta este tipo de análisis con otros que necesitan explorar y comprender la información de un vistazo.

Si consideramos estos mismo datos presentados en el correlograma de abajo (en Minitab Statistical Software: Gráfica > Correlograma):

es fácil ver lo rápido que el ojo se va a la profunda caja roja de la zona inferior con el gráfico de minutos de potencia por oxígeno. En los correlogramas, la intensidad del color es proporcionial al coeficiente de correlación, con las cajas más oscuras indicando las correlaciones más fuertes. Como resultado, el correlograma proporciona una representación de las correlaciones clara y fácil de examinar visualmente. Al correr el correlograma en este caso, el ingeniero es capaz de comprender las correlaciones de los datos con mucho menos esfuerzo.

Utilizar un correlograma con grandes cantidades de datos

Ahora vamos a considerar un análisis de 14 variables y 1000 filas de datos. Los detalles específicos no importan, podría tratarse de resultados de una encuesta de producto de consumidor o medidas en el proceso de placas de circuitos. Si se pidiera al equipo que escogiera visualmente las asociaciones más fuertes (cercanas a +1 o -1) en el gráfico de matriz inferior, ¿cuánto tardarían en identificar las correlaciones más fuertes?

Ahora miremos a los mismos datos presentados en un correlograma más abajo. Véase cómo las correlaciones más débiles se han minimizado visualmente, mientras que los ojos se van a áreas con alta correlación. ¡Uno se puede imaginar lo rápido que el equipo identificaría la información significativa!

Comprender relaciones, como correlaciones, entre variables es algo crítico para los análisis predictivos robustos. Mientras que es fácil identificar correlaciones cuando se analizan datos con relativamente pocas variables, a medida que el número de variables y el tamaño de los conjuntos de datos aumenta, del mismo modo aumenta el esfuerzo requerido para comprender la correlación. Al aprovechar la potencia de los correlogramas, el análisis estadístico con Minitab se hace incluso mejor, más rápido y más fácil, ¡en particular para los problemas más complejos!