¿Por qué "estadísticamente significativo" no es suficiente?

46

Completé mi análisis de datos y obtuve "resultados estadísticamente significativos" que son consistentes con mi hipótesis. Sin embargo, un estudiante de estadística me dijo que esta es una conclusión prematura. ¿Por qué? ¿Se necesita incluir algo más en mi informe?

hypothesis-testing statistical-significance spss p-value Jim Von
fuente

44

Depende mucho de lo que quieras decir con "obtuve resultados estadísticamente significativos consistentes con la hipótesis". Si su hipótesis es que el viento es producido por los árboles y su experimento muestra que en el 100% de las observaciones cuando los árboles movían sus ramas, había viento, lo encuentra estadísticamente significativo y listo, su conclusión está probada. Lo cual obviamente está mal. Entonces, este podría ser uno de esos casos.

sashkello

1

Realmente necesitaría un estudio de seguimiento para declarar con seguridad un "hallazgo significativo" con credibilidad, utilizando una recopilación de datos bien diseñada, el mismo modelo y la misma prueba de hipótesis. También es necesario asegurarse de que su actual conjunto de datos representa la "población general" está haciendo una afirmación acerca de un hallazgo significativo (esto es un problema clave para la inferencia con "grandes datos")

probabilityislogic

1

¿Seguramente la respuesta es tan simple como "la correlación no es causalidad"?

Fraccional

1

Este es mi favorito : las personas que comen más arroz engendran más hijos. Comprobación de la entera población mundial, obtendrá resultados estadísticamente signifcativas ...

Karoly Horvath

44

Grandes respuestas, pero me sorprende que nadie sugiriera la solución obvia: pregúntale. Cada vez que alguien le diga que está equivocado acerca de su trabajo o algo más que le interese, solo pregunte. Decirle a alguien que está equivocado porque X, y y Z es genial, es una oportunidad de aprendizaje. Pero solo decirle a alguien que está equivocado y salir corriendo es un movimiento tonto.

Sylverdrag

53

Prueba de hipótesis versus estimación de parámetros

Típicamente, las hipótesis se enmarcan de manera binaria. Pondré las hipótesis direccionales a un lado, ya que no cambian mucho el problema. Es común, al menos en psicología, hablar de hipótesis como: la diferencia entre las medias grupales es o no es cero; la correlación es o no es cero; el coeficiente de regresión es o no es cero; el cuadrado r es o no es cero. En todos estos casos, existe una hipótesis nula de ningún efecto, y una hipótesis alternativa de un efecto.

Este pensamiento binario generalmente no es lo que más nos interesa. Una vez que piense en su pregunta de investigación, casi siempre encontrará que realmente está interesado en estimar los parámetros. Usted está interesado en la diferencia real entre las medias grupales, o el tamaño de la correlación, o el tamaño del coeficiente de regresión, o la cantidad de varianza explicada.

Por supuesto, cuando obtenemos una muestra de datos, la estimación de la muestra de un parámetro no es la misma que el parámetro de población. Por lo tanto, necesitamos una forma de cuantificar nuestra incertidumbre sobre cuál podría ser el valor del parámetro. Desde una perspectiva frecuentista, los intervalos de confianza proporcionan un medio para hacerlo, aunque los puristas bayesianos podrían argumentar que no permiten estrictamente la inferencia que usted quiera hacer. Desde una perspectiva bayesiana, los intervalos creíbles en densidades posteriores proporcionan un medio más directo de cuantificar su incertidumbre sobre el valor de un parámetro de población.

Parámetros / tamaños de efectos

Alejarse del enfoque de prueba de hipótesis binarias lo obliga a pensar de manera continua. Por ejemplo, ¿qué diferencia de tamaño en el grupo significa sería teóricamente interesante? ¿Cómo mapearías la diferencia entre los medios grupales en el lenguaje subjetivo o las implicaciones prácticas? Las medidas de efecto estandarizadas junto con las normas contextuales son una forma de construir un lenguaje para cuantificar lo que significan los diferentes valores de los parámetros. Dichas medidas a menudo se denominan "tamaños de efecto" (p. Ej., Cohen's d, r, , etc.). Sin embargo, es perfectamente razonable, y a menudo preferible, hablar sobre la importancia de un efecto utilizando medidas no estandarizadas (p. Ej., La diferencia en el grupo significa en variables significativas no estandarizadas como los niveles de ingresos, la esperanza de vida, etc.). $R^2$

Existe una gran literatura en psicología (y otros campos) que critica un enfoque en los valores p, pruebas de significado de hipótesis nulas, etc. (ver esta búsqueda de Google Académico ). Esta literatura a menudo recomienda informar los tamaños de los efectos con intervalos de confianza como resolución (por ejemplo, APA Task force de Wilkinson, 1999).

Pasos para alejarse de la prueba de hipótesis binarias

Si está pensando en adoptar este pensamiento, creo que hay enfoques progresivamente más sofisticados que puede adoptar:

Enfoque 1a. Informe la estimación puntual de su efecto de muestra (p. Ej., Diferencias de medias de grupo) en términos brutos y estandarizados. Cuando reporte sus resultados, discuta qué significaría tal magnitud para la teoría y la práctica.
Enfoque 1b. Agregue a 1a, al menos a un nivel muy básico, un cierto sentido de la incertidumbre en torno a la estimación de su parámetro en función del tamaño de su muestra.
Enfoque 2. También informe los intervalos de confianza en los tamaños de los efectos e incorpore esta incertidumbre en su pensamiento sobre los valores plausibles del parámetro de interés.
Enfoque 3. Informe los intervalos creíbles de Bayesian y examine las implicaciones de varios supuestos sobre ese intervalo creíble, como la elección del proceso previo de generación de datos implícito en su modelo, etc.

Entre muchas referencias posibles, verá a Andrew Gelman hablar mucho sobre estos temas en su blog y en su investigación.

Referencias

Nickerson, RS (2000). Prueba de significación de hipótesis nulas: una revisión de una vieja y continua controversia. Métodos psicológicos, 5 (2), 241.
Wilkinson, L. (1999). Métodos estadísticos en revistas de psicología: pautas y explicaciones. Psicólogo estadounidense, 54 (8), 594. PDF

Jeromy Anglim
fuente

12

Además del comentario de Jeromy, ¿puedo recomendarle que lea el ensayo de Ziliac y McCloskey sobre el culto a la significación estadística? No son las estadísticas más alucinantes, pero proporcionan una discusión reflexiva y entretenida de por qué los tamaños de los efectos, la importancia práctica y las funciones de pérdida son extremadamente importantes. deirdremccloskey.com/docs/jsm.pdf

Jim

Creo que a veces p debería establecerse por debajo de 0,05. Gracias a todos: Gung, Jeromy y Jim

Jim Von

1

En Ziliak [NB] y McCloskey: Si está ocupado, lea phil.vt.edu/dmayo/personal_website/… primero. Si no está ocupado, aún léalo primero.

Nick Cox

De nada, @ JimVon. FWIW, a veces pienso que p debería establecerse más alto que .05. Solo depende

gung - Restablece a Monica

1

Me alegra ver al Dr. Gelman ser nombrado aquí. Aparentemente, ni siquiera le gusta informar los valores p, y mucho menos usarlos para una inferencia seria. También hace un buen caso para estandarizar todas sus variables como algo natural.

shadowtalker

26

Solo para agregar a las respuestas existentes (que son geniales, por cierto). Es importante tener en cuenta que la significación estadística es una función del tamaño de la muestra .

Cuando obtiene más y más datos, puede encontrar diferencias estadísticamente significativas donde quiera que mire. Cuando la cantidad de datos es enorme, incluso los efectos más pequeños pueden generar significación estadística. Esto no implica que dichos efectos sean significativos de manera práctica.

Cuando se prueban las diferencias, los valores sí solos no son suficientes porque el tamaño del efecto requerido para producir un resultado estadísticamente significativo disminuye al aumentar el tamaño de la muestra . En la práctica, la pregunta real es si existe un efecto de un tamaño mínimo dado (para ser relevante). Cuando las muestras se vuelven muy grandes, los valores vuelven casi insignificantes al responder la pregunta real . $p$ $p$

Marc Claesen
fuente

Este es el punto abordado en mi diapositiva 13 :)

Stéphane Laurent

66

+1 por esto. La gente que no se da cuenta de la importancia es una función del tamaño de la muestra que me vuelve loco.

Fomite

12

Si hubiera una base razonable para sospechar que su hipótesis podría ser cierta antes de ejecutar su estudio; y realizó un buen estudio (por ejemplo, no indujo ningún tipo de confusión); y sus resultados fueron consistentes con su hipótesis y estadísticamente significativos; entonces creo que estás bien, en lo que a eso respecta.

Sin embargo, no debe pensar que la importancia es todo lo que es importante en sus resultados. Primero, también debe observar el tamaño del efecto (vea mi respuesta aquí: Tamaño del efecto como la hipótesis para la prueba de significación ). También es posible que desee explorar un poco sus datos y ver si puede encontrar sorpresas potencialmente interesantes que valga la pena seguir.

gung - Restablece a Monica
fuente

¿Quieres decir que la hipótesis debería ser razonable? ¿Y cómo juzgar si mi hipótesis conducirá a un análisis de datos sin sentido? ¿Las "sorpresas potencialmente interesantes" deberían ser reveladas por Post-hoc?

Jim Von

Lo que quiero decir es que, presumiblemente, había alguna razón legítima para ejecutar el estudio en primer lugar. El conocimiento teórico actual y / o los estudios recientes sugirieron que su hipótesis podría ser cierta. No es probable que su hipótesis "conduzca a un análisis de datos sin sentido" a menos que sea incoherente. Sorpresas / características potencialmente interesantes de sus datos podrían muy bien ser descubiertas post-hoc; el hecho de que sean sorpresas implica que no sabía que ocurrirían cuando planificó el estudio. La cuestión con respecto a "post-hoc" es si creer en las sorpresas: deben ser confirmadas por investigaciones futuras.

gung - Restablece a Monica

7

Antes de informar esto y esto y esto y esto, comience formulando lo que desea aprender de sus datos experimentales. El principal problema con las pruebas de hipótesis habituales (estas pruebas las aprendemos en la escuela ...) no es la binaridad: el problema principal es que se trata de pruebas de hipótesis que no son hipótesis de interés. Vea la diapositiva 13 aquí (descargue el pdf para apreciar las animaciones). Sobre los tamaños del efecto, no hay una definición general de esta noción . Francamente, no recomendaría usar esto para estadísticos no expertos, estas son medidas técnicas, no naturales, de "efecto". Su hipótesis de interés debe formularse en términos comprensibles para los laicos.

Stéphane Laurent
fuente

1

Una pequeña adición: la hipótesis nula debería significar algo fuera del contexto del análisis de datos actual para que se aplique HT estándar. No debe ser "inventado" para que tenga algo que rechazar a favor de su teoría / hallazgo.

probabilidadislogica

2

Estoy lejos de ser un experto en estadísticas, pero una cosa que se ha enfatizado en los cursos de estadísticas que he hecho hasta la fecha es el tema de "importancia práctica". Creo que esto alude a lo que Jeromy y Gung están hablando cuando se refieren al "tamaño del efecto".

Tuvimos un ejemplo en la clase de una dieta de 12 semanas que tuvo resultados de pérdida de peso estadísticamente significativos, pero el intervalo de confianza del 95% mostró una pérdida de peso promedio de entre 0.2 y 1.2 kg (OK, los datos probablemente se inventaron pero ilustran un punto) . Si bien es "estadísticamente significativo" "diferente de cero, ¿una pérdida de peso de 200 gramos durante 12 semanas es un resultado" prácticamente significativo "para una persona con sobrepeso que trata de recuperarse?

kesahli
fuente

Este es el punto después de mi diapositiva 13 :)

Stéphane Laurent

2

Este también es un ejemplo de prueba de la hipótesis nula "incorrecta". No es la conclusión que le interesa. Una mejor prueba de hipótesis sería que la pérdida de peso sea inferior a 5 kg frente a superior a 5 kg.

probabilidadislogic

1

Es imposible responder con precisión sin conocer más detalles de su estudio y las críticas de la persona. Pero aquí hay una posibilidad: si ha realizado múltiples pruebas y elige concentrarse en la que salió p<0.05e ignorar otras, entonces esa "importancia" se ha diluido por el hecho de su atención selectiva. Como una bomba de intuición para esto, recuerde que p=0.05significa "este resultado sucedería por casualidad (solo) el 5% del tiempo, incluso si la hipótesis nula es cierta". Por lo tanto, mientras más pruebas realices, más probable es que al menos una de ellas sea un resultado "significativo" por casualidad, incluso si no hay ningún efecto allí. Ver http://en.wikipedia.org/wiki/Multiple_comparisons y http://en.wikipedia.org/wiki/Post-hoc_analysis

jez
fuente

0

Te sugiero que leas lo siguiente:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Pruebas de hipótesis nulas: problemas, prevalencia y una alternativa. J. Wildl. Gestionar. 64, 912-923. Gigerenzer, G., 2004. Estadísticas sin sentido. Revista de Socio-Economía 33, 587-606. Johnson, DH, 1999. La insignificancia de las pruebas de significación estadística. The Journal of Wildlife Management 63, 763-772.

Las hipótesis nulas rara vez son interesantes en el sentido de que, de cualquier experimento o conjunto de observaciones, hay dos resultados: rechazar correctamente la nula o cometer un error de Tipo II. El tamaño del efecto es lo que probablemente le interese determinar y, una vez hecho, debe producir intervalos de confianza para ese tamaño del efecto.

Tom
fuente

¿Por qué "estadísticamente significativo" no es suficiente?

Respuestas:

Prueba de hipótesis versus estimación de parámetros

Parámetros / tamaños de efectos

Pasos para alejarse de la prueba de hipótesis binarias

Referencias