Suposiciones frecuentes sobre los datos (Parte 1: Muestras aleatorias e independencia estadística)

Detalles: Categoría: Minitab; Publicado: 26 Septiembre 2018; Visto: 23367

Por Bonnie K. Stone

La inferencia estadística utiliza datos de una muestra de individuos para llegar a conclusiones sobre toda la población. Es una herramienta muy potente. Pero como dice el refrán, "¡con gran poder viene una gran responsabilidad!" Cuando intente hacer inferencias a partir de los datos de una muestra, debe verificar sus suposiciones. La violación de cualquiera de estos supuestos puede dar como resultado falsos positivos o falsos negativos, lo que invalida los resultados. En otras palabras, corre el riesgo de que sus resultados sean incorrectos, que sus conclusiones sean erróneas y, por lo tanto, que las soluciones que implemente no resuelvan el problema (¡a menos que tenga mucha suerte!).

Ha oído el chiste sobre ¿qué sucede cuando asumes? Para esta publicación, preguntemos "¿Qué sucede cuando no puedes verificar tus suposiciones?" Después de todo, somos humanos, y los humanos asumimos cosas todo el tiempo. Supongamos, por ejemplo, que quiero programar una reunión telefónica con usted y estoy en la zona horaria oriental de EE. UU. Es fácil para mí asumir que todos están en el mismo huso horario, pero realmente estás en California o en Australia. ¿Qué pasaría si convocara una reunión a las 2:00 p. M. Pero no especificara la zona horaria? ¡A menos que la haya verificado, es posible que llegue temprano o tarde a la reunión, o incluso que me la pierda por completo!

La buena noticia es que cuando se trata de suposiciones en el análisis estadístico, Minitab le respalda. Minitab tiene aún más funciones para ayudarle a verificar y validar los supuestos necesarios del análisis estadístico antes de finalizar sus conclusiones. Cuando utilice el Asistente de Minitab , el software identificará las suposiciones apropiadas para su análisis, proporcionará una guía para ayudarlo a desarrollar planes sólidos de recopilación de datos, verificará las suposiciones cuando analice sus datos, y le permitirá conocer los resultados en informe de resultados e informe de diagnóstico fáciles de comprender.

Los supuestos de datos más comunes son: muestras aleatorias, independencia, normalidad, igual varianza, estabilidad, y que su sistema de medición es exacto y preciso. En esta publicación, abordaremos muestras aleatorias e independencia estadística.

¿Qué es la asunción de muestras aleatorias?

Una muestra es aleatoria cuando cada punto de datos en su población tiene las mismas posibilidades de ser incluido en la muestra; por lo tanto, la selección de cualquier individuo ocurre por casualidad, y no por elección . Esto reduce la posibilidad de que las diferencias en los materiales o las condiciones resulten fuertemente sesgadas. Es más probable que las muestras aleatorias sean representativas de la población; por lo tanto, puede estar más seguro con sus inferencias estadísticas con una muestra aleatoria.

No hay una prueba que asegure que se haya realizado un muestreo aleatorio. Seguir buenas técnicas de muestreo ayudará a garantizar que sus muestras sean aleatorias. Aquí hay algunos enfoques comunes para asegurarse de que una muestra se crea al azar:

Usar una tabla o característica de números aleatorios en Minitab (Figura 1).
Selección sistemática (cada enésima unidad o en momentos específicos durante el día).
Selección secuencial (tomada en secuencia para pruebas destructivas, etc.).
Evitar el uso de juicios o conveniencia para seleccionar muestras.

Figura 1. Generador de datos aleatorios en Minitab

Las muestras no aleatorias introducen un sesgo y pueden dar lugar a interpretaciones incorrectas.

¿Qué es la asunción de la independencia estadística?

La independencia estadística es una suposición crítica para muchas pruebas estadísticas, como la prueba t de 2 muestras y ANOVA. Independencia significa que el valor de una observación no influye ni afecta el valor de otras observaciones. Los elementos de datos independientes no están conectados entre sí de ninguna manera (a menos que lo contabilice en su modelo). Esto incluye las observaciones en los grupos "entre" y "dentro" en su muestra. Las observaciones no independientes introducen un sesgo y pueden hacer que su prueba estadística proporcione demasiados falsos positivos.

Seguir buenas técnicas de muestreo ayudará a garantizar que sus muestras sean independientes. Las fuentes comunes de no independencia incluyen:

Observaciones que están muy juntas en el tiempo.
Observaciones que están muy juntas en el espacio o anidadas.
Observaciones que están de alguna manera relacionadas.

Minitab puede probar la independencia utilizando el Test de Chi-Cuadrado para Asociación (Chí-Square Test for Association), que está diseñado para determinar si la distribución de observaciones para una variable es similar para todas las categorías de la segunda variable.

La verdadera razón por la que necesita verificar las suposiciones

Va a dedicar mucho tiempo y esfuerzo a recopilar y analizar datos. Después de todo el trabajo que realiza en el análisis, desea poder llegar a conclusiones correctas. ¡Quiere estar seguro de que puede decir si las diferencias observadas entre las muestras de datos se deben simplemente a la posibilidad, o si las poblaciones son de hecho diferentes!

Es fácil poner el carro antes que el caballo y simplemente sumergirse en la recopilación y el análisis de datos, pero es mucho más prudente tomarse el tiempo para comprender qué supuestos de datos se aplican a las pruebas estadísticas que utilizará, y planificar en consecuencia.

En la siguiente publicación se revisarán los supuestos de normalidad e igualdad de varianza.