¿Cómo puede un P-valor similar significar cosas diferentes?

Detalles: Categoría: Minitab; Publicado: 14 Febrero 2019; Visto: 10074

Un aspecto destacado de escribir y editar el blog de Minitab es la oportunidad de leer sus respuestas y responder a sus preguntas. A veces, para mi disgusto, nos indican que hemos cometido un error. Sin embargo, estoy particularmente agradecido por esos comentarios, ya que nos permite corregir errores involuntarios.

Pensé que tenía la oportunidad de corregir un error cuando vi que este comentario aparecía en una de nuestras publicaciones de blog más antiguas:

Usted dijo que un p-valor mayor que 0.05 da un buen ajuste. Sin embargo, en otra publicación, usted dijo que el p-valor debería estar por debajo de 0.05 si el resultado es significativo. ¡Por favor, míralo!

¿Alguna vez le han entrado escalofrios cuando se ha dado cuenta de que se ha equivocado? Eso es lo que sentí cuando leí ese comentario. Oh no, pensé. Si el p-valor es mayor que 0.05, los resultados de una prueba ciertamente no serían significativos. ¿Pasé por alto un error tan básico?

Antes de automachacarme, decidí revisar las publicaciones en cuestión. Después de revisarlas, me di cuenta de que no tendría que ponerme la camiseta después de todo. Pero la pregunta me recordó la importancia de una idea fundamental.

Comienza con la Hipótesis

Si en algún momento ha realizado un curso introductorio de estadística, probablemente recordará que el profesor le explicó a la clase lo importante que es formular sus hipótesis con claridad. Excelente consejo.

Sin embargo, muchas herramientas estadísticas comunmente utilizadas formulan sus hipótesis de forma que no coinciden. Eso es lo que este agudo comentarista notó y señaló.

El autor de la primera publicación detalló cómo usar Minitab para identificar la distribución de los datos, y en su ejemplo señaló que un p-valor mayor a 0.05 significaba que los datos se ajustaban a una distribución dada. El autor del segundo post, el suyo realmente, comentó la alarmante tendencia a utilizar un lenguaje engañoso para describir un alto p-valor como si indicara una significación estadística.

Para ponerlo en un lenguaje plano, el post de mi colega citaba el alto p-valor como un indicador de un resultado positivo. Y mi publicación reprendió a las personas que citan un alto p-valor como un indicador de un resultado positivo.

Ahora, ¿qué es lo que es tan confuso?

No olvidar lo que realmente se está comprobando

Puede ver dónde ésto parece una contradicción, pero para mi alivio, las publicaciones fueron consistentes. La aparición de la contradicción se deriva de las hipótesis discutidas en los dos mensajes. Vamos a verlo.

Mi colega presentó este gráfico, obtenido de la Identificación de Distribución Individual:

La identificación de distribución individual es un tipo de prueba de hipótesis, y por tanto el p-valor ayuda a determinar cuando se debe o no rechazar la hipótesis nula.

Aquí, la hipótesis nula es "Los datos siguen una distribución normal," y la hipótesis alternativa sería "Los datos NO siguen una distribución normal." Si el p-valor es mayor que 0.05, no podremos rechazar la hipótesis nula y concluiremos que los datos siguen la distribución normal.

Echemos un vistazo a ese p-valor:

Es un p-valor alto. Y para esta prueba, eso significa que podemos concluir que la distribución normal se ajusta a los datos. Así que si estamos verificando la asunción de normalidad de estos datos, este alto p-valor es bueno.

Pero muy a menudo buscamos un p-valor bajo. En una prueba t, la hipótesis nula podría ser "las medias de la mustra NO SON diferentes," y la hipótesis alternativa, "Las medias de la muestra SON diferentes." Visto de esta manera, el valor o disposición de la hipótesis es opuesto al de la identificación de la distribución.

De ahí, la aparente contradicción. Pero en ambos casos un p-valor mayor que 0.05 significa que no podemos rechazar la hipótesis nula. Estamos interpretando el p-valor en cada prueba de la misma manera.

Sin embargo, como las connotaciones de "bueno" y "malo" son diferentes en los dos ejemplos, la manera de hablar sobre estos p-valores respectivos parecen contradictorios-hasta que consideramos exactamente lo que están diciendo la hipótesis nula y la alternativa.