Completé mi análisis de datos y obtuve "resultados estadísticamente significativos" que son consistentes con mi hipótesis. Sin embargo, un estudiante de estadística me dijo que esta es una conclusión prematura. ¿Por qué? ¿Se necesita incluir algo más en mi informe?
46
Respuestas:
Prueba de hipótesis versus estimación de parámetros
Típicamente, las hipótesis se enmarcan de manera binaria. Pondré las hipótesis direccionales a un lado, ya que no cambian mucho el problema. Es común, al menos en psicología, hablar de hipótesis como: la diferencia entre las medias grupales es o no es cero; la correlación es o no es cero; el coeficiente de regresión es o no es cero; el cuadrado r es o no es cero. En todos estos casos, existe una hipótesis nula de ningún efecto, y una hipótesis alternativa de un efecto.
Este pensamiento binario generalmente no es lo que más nos interesa. Una vez que piense en su pregunta de investigación, casi siempre encontrará que realmente está interesado en estimar los parámetros. Usted está interesado en la diferencia real entre las medias grupales, o el tamaño de la correlación, o el tamaño del coeficiente de regresión, o la cantidad de varianza explicada.
Por supuesto, cuando obtenemos una muestra de datos, la estimación de la muestra de un parámetro no es la misma que el parámetro de población. Por lo tanto, necesitamos una forma de cuantificar nuestra incertidumbre sobre cuál podría ser el valor del parámetro. Desde una perspectiva frecuentista, los intervalos de confianza proporcionan un medio para hacerlo, aunque los puristas bayesianos podrían argumentar que no permiten estrictamente la inferencia que usted quiera hacer. Desde una perspectiva bayesiana, los intervalos creíbles en densidades posteriores proporcionan un medio más directo de cuantificar su incertidumbre sobre el valor de un parámetro de población.
Parámetros / tamaños de efectos
Alejarse del enfoque de prueba de hipótesis binarias lo obliga a pensar de manera continua. Por ejemplo, ¿qué diferencia de tamaño en el grupo significa sería teóricamente interesante? ¿Cómo mapearías la diferencia entre los medios grupales en el lenguaje subjetivo o las implicaciones prácticas? Las medidas de efecto estandarizadas junto con las normas contextuales son una forma de construir un lenguaje para cuantificar lo que significan los diferentes valores de los parámetros. Dichas medidas a menudo se denominan "tamaños de efecto" (p. Ej., Cohen's d, r, , etc.). Sin embargo, es perfectamente razonable, y a menudo preferible, hablar sobre la importancia de un efecto utilizando medidas no estandarizadas (p. Ej., La diferencia en el grupo significa en variables significativas no estandarizadas como los niveles de ingresos, la esperanza de vida, etc.).R2
Existe una gran literatura en psicología (y otros campos) que critica un enfoque en los valores p, pruebas de significado de hipótesis nulas, etc. (ver esta búsqueda de Google Académico ). Esta literatura a menudo recomienda informar los tamaños de los efectos con intervalos de confianza como resolución (por ejemplo, APA Task force de Wilkinson, 1999).
Pasos para alejarse de la prueba de hipótesis binarias
Si está pensando en adoptar este pensamiento, creo que hay enfoques progresivamente más sofisticados que puede adoptar:
Entre muchas referencias posibles, verá a Andrew Gelman hablar mucho sobre estos temas en su blog y en su investigación.
Referencias
fuente
Solo para agregar a las respuestas existentes (que son geniales, por cierto). Es importante tener en cuenta que la significación estadística es una función del tamaño de la muestra .
Cuando obtiene más y más datos, puede encontrar diferencias estadísticamente significativas donde quiera que mire. Cuando la cantidad de datos es enorme, incluso los efectos más pequeños pueden generar significación estadística. Esto no implica que dichos efectos sean significativos de manera práctica.
Cuando se prueban las diferencias, los valores sí solos no son suficientes porque el tamaño del efecto requerido para producir un resultado estadísticamente significativo disminuye al aumentar el tamaño de la muestra . En la práctica, la pregunta real es si existe un efecto de un tamaño mínimo dado (para ser relevante). Cuando las muestras se vuelven muy grandes, los valores vuelven casi insignificantes al responder la pregunta real .pp p
fuente
Si hubiera una base razonable para sospechar que su hipótesis podría ser cierta antes de ejecutar su estudio; y realizó un buen estudio (por ejemplo, no indujo ningún tipo de confusión); y sus resultados fueron consistentes con su hipótesis y estadísticamente significativos; entonces creo que estás bien, en lo que a eso respecta.
Sin embargo, no debe pensar que la importancia es todo lo que es importante en sus resultados. Primero, también debe observar el tamaño del efecto (vea mi respuesta aquí: Tamaño del efecto como la hipótesis para la prueba de significación ). También es posible que desee explorar un poco sus datos y ver si puede encontrar sorpresas potencialmente interesantes que valga la pena seguir.
fuente
Antes de informar esto y esto y esto y esto, comience formulando lo que desea aprender de sus datos experimentales. El principal problema con las pruebas de hipótesis habituales (estas pruebas las aprendemos en la escuela ...) no es la binaridad: el problema principal es que se trata de pruebas de hipótesis que no son hipótesis de interés. Vea la diapositiva 13 aquí (descargue el pdf para apreciar las animaciones). Sobre los tamaños del efecto, no hay una definición general de esta noción . Francamente, no recomendaría usar esto para estadísticos no expertos, estas son medidas técnicas, no naturales, de "efecto". Su hipótesis de interés debe formularse en términos comprensibles para los laicos.
fuente
Estoy lejos de ser un experto en estadísticas, pero una cosa que se ha enfatizado en los cursos de estadísticas que he hecho hasta la fecha es el tema de "importancia práctica". Creo que esto alude a lo que Jeromy y Gung están hablando cuando se refieren al "tamaño del efecto".
Tuvimos un ejemplo en la clase de una dieta de 12 semanas que tuvo resultados de pérdida de peso estadísticamente significativos, pero el intervalo de confianza del 95% mostró una pérdida de peso promedio de entre 0.2 y 1.2 kg (OK, los datos probablemente se inventaron pero ilustran un punto) . Si bien es "estadísticamente significativo" "diferente de cero, ¿una pérdida de peso de 200 gramos durante 12 semanas es un resultado" prácticamente significativo "para una persona con sobrepeso que trata de recuperarse?
fuente
Es imposible responder con precisión sin conocer más detalles de su estudio y las críticas de la persona. Pero aquí hay una posibilidad: si ha realizado múltiples pruebas y elige concentrarse en la que salió
p<0.05
e ignorar otras, entonces esa "importancia" se ha diluido por el hecho de su atención selectiva. Como una bomba de intuición para esto, recuerde quep=0.05
significa "este resultado sucedería por casualidad (solo) el 5% del tiempo, incluso si la hipótesis nula es cierta". Por lo tanto, mientras más pruebas realices, más probable es que al menos una de ellas sea un resultado "significativo" por casualidad, incluso si no hay ningún efecto allí. Ver http://en.wikipedia.org/wiki/Multiple_comparisons y http://en.wikipedia.org/wiki/Post-hoc_analysisfuente
Te sugiero que leas lo siguiente:
Anderson, DR, Burnham, KP, Thompson, WL, 2000. Pruebas de hipótesis nulas: problemas, prevalencia y una alternativa. J. Wildl. Gestionar. 64, 912-923. Gigerenzer, G., 2004. Estadísticas sin sentido. Revista de Socio-Economía 33, 587-606. Johnson, DH, 1999. La insignificancia de las pruebas de significación estadística. The Journal of Wildlife Management 63, 763-772.
Las hipótesis nulas rara vez son interesantes en el sentido de que, de cualquier experimento o conjunto de observaciones, hay dos resultados: rechazar correctamente la nula o cometer un error de Tipo II. El tamaño del efecto es lo que probablemente le interese determinar y, una vez hecho, debe producir intervalos de confianza para ese tamaño del efecto.
fuente