Una sola prueba estadística puede dar evidencia de que la hipótesis nula (H0) es falsa y, por lo tanto, la hipótesis alternativa (H1) es verdadera. Pero no se puede usar para mostrar que H0 es verdadero porque no rechazar H0 no significa que H0 sea verdadero.
Pero supongamos que tiene la posibilidad de hacer la prueba estadística muchas veces porque tiene muchos conjuntos de datos, todos independientes entre sí. Todos los conjuntos de datos son el resultado del mismo proceso y desea hacer una declaración (H0 / H1) sobre el proceso en sí y no está interesado en los resultados de cada prueba. Luego, se recopilan todos los valores p resultantes y se ve a través del gráfico de histograma que los valores p están claramente distribuidos uniformemente.
Mi razonamiento ahora es que esto solo puede suceder si H0 es verdadero; de lo contrario, los valores p se distribuirían de manera diferente. ¿Es esto, por lo tanto, suficiente evidencia para concluir que H0 es cierto? ¿O me estoy perdiendo aquí algo esencial, porque me tomó mucha fuerza de voluntad escribir "concluir que H0 es cierto", lo que suena terriblemente mal en mi cabeza.
fuente
Respuestas:
Me gusta tu pregunta, pero desafortunadamente mi respuesta es NO, no prueba . La razón es muy sencilla. ¿Cómo sabrías que la distribución de los valores p es uniforme? Probablemente deba ejecutar una prueba de uniformidad que le devolverá su propio valor p, y terminará con el mismo tipo de pregunta de inferencia que estaba tratando de evitar, solo un paso más. En lugar de mirar el valor p del original , ahora observa el valor p de otro sobre la uniformidad de distribución de los valores p originales.H0 0 H0 0 H′0 0
ACTUALIZAR
Aquí está la demostración. Genero 100 muestras de 100 observaciones de distribución gaussiana y de Poisson, luego obtengo 100 valores p para la prueba de normalidad de cada muestra. Entonces, la premisa de la pregunta es que si los valores p provienen de una distribución uniforme, entonces demuestra que la hipótesis nula es correcta, lo cual es una afirmación más fuerte que una "falla al rechazar" habitual en inferencia estadística. El problema es que "los valores p son del uniforme" es una hipótesis en sí misma, que de alguna manera hay que probar.
En la imagen (primera fila) a continuación, muestro los histogramas de los valores p de una prueba de normalidad para la muestra de Guassian y Poisson, y puede ver que es difícil decir si uno es más uniforme que el otro. Ese fue mi punto principal.
La segunda fila muestra una de las muestras de cada distribución. Las muestras son relativamente pequeñas, por lo que no puede tener demasiados contenedores. En realidad, esta muestra gaussiana en particular no se ve mucho gaussiana en el histograma.
En la tercera fila, muestro las muestras combinadas de 10,000 observaciones para cada distribución en un histograma. Aquí, puede tener más contenedores, y las formas son más obvias.
Finalmente, ejecuto la misma prueba de normalidad y obtengo valores p para las muestras combinadas y rechaza la normalidad para Poisson, mientras que no puedo rechazar para Gauss. Los valores p son: [0.45348631] [0.]
Esto no es una prueba, por supuesto, sino la demostración de la idea de que es mejor ejecutar la misma prueba en la muestra combinada, en lugar de tratar de analizar la distribución de los valores p de las submuestras.
Aquí está el código de Python:
fuente
David Hume y el problema de la inducción.
Durante siglos, cada cisne observado por los europeos era blanco. Entonces los europeos descubrieron Australia y vieron cisnes negros.
Durante siglos, la ley de gravedad de Newton estuvo de acuerdo con la observación y se pensó correcta. Sin embargo, fue anulada por la teoría de la relatividad general de Einstein.
Una lista (incompleta) de formas de avanzar:
Karl Popper y el falsacionismo
En Karl Popper vista, ninguna ley científica se ha demostrado cierto nunca. Solo tenemos leyes científicas aún no probadas falsas.
Popper argumentó que la ciencia avanza al adivinar hipótesis y someterlas a un escrutinio riguroso. Continúa hacia adelante a través de la deducción (teorías de prueba de observación falsas), no de inducción (teorías de prueba de observación repetida verdaderas). Gran parte de las estadísticas frecuentistas se construyó de acuerdo con esta filosofía.
La visión de Popper ha sido inmensamente influyente, pero como Kuhn y otros han argumentado, no se ajusta del todo a la práctica empíricamente observada de la ciencia exitosa.
Bayesiano, probabilidad subjetiva
Esta es una forma lógica de modelar sus propias creencias subjetivas, pero no es una forma mágica de producir probabilidades que sean verdaderas en términos de correspondencia con la realidad. Una pregunta difícil para cualquier interpretación bayesiana es ¿de dónde vienen los priors? Además, ¿qué pasa si el modelo está mal especificado?
George P. Box
Un famoso aforismo de George EP Box es que "todos los modelos son falsos, pero algunos son útiles".
La ley de Newton puede no ser cierta, pero sigue siendo útil para muchos problemas. El punto de vista de Box es bastante importante en el contexto moderno de big data donde los estudios están tan dominados que puede rechazar básicamente cualquier propuesta significativa. Estrictamente verdadero versus falso es una mala pregunta: lo que importa es si un modelo te ayuda a comprender los datos.
Comentarios adicionales
Quizás también sea de interés, analizar estadísticamente los resultados de múltiples estudios se llama metaanálisis .
Hasta dónde puede llegar más allá de las interpretaciones estadísticas estrechas es una pregunta difícil.
fuente
En cierto sentido tiene razón (vea la curva p) con algunas pequeñas advertencias:
Con aplicaciones realistas, tiendes a tener problemas adicionales. Estos surgen principalmente porque ninguna persona / laboratorio / grupo de estudio generalmente puede hacer todos los estudios necesarios. Como resultado, uno tiende a mirar los estudios de muchos grupos, momento en el que tiene mayores preocupaciones (es decir, si hubiera realizado todos los experimentos relevantes usted mismo, al menos lo sabría) de informes no selectivos y selectivos de hallazgos significativos / sorprendentes, p-hacking, pruebas múltiples / correcciones de pruebas múltiples, etc.
fuente
Hipótesis nula (H0): la gravedad hace que todo en el universo caiga hacia la superficie de la Tierra.
Hipótesis alternativa (H1): nada cae nunca.
fuente
Gravity causes everything in the universe to fall toward Earth's surface
¿no es la hipótesis alternativaThere is at least one thing in the universe that does not fall toward the Earth's surface
y noNothing ever falls
?