Varias pruebas de hipótesis, como la GOF, Kolmogorov-Smirnov, Anderson-Darling, etc., siguen este formato básico:
: los datos siguen la distribución dada.
: los datos no siguen la distribución dada.
Típicamente, uno evalúa la afirmación de que algunos datos dados siguen a una distribución dada, y si uno rechaza , los datos no se ajustan bien a la distribución dada en algún nivel . α
Pero, ¿y si no rechazamos ? Siempre me han enseñado que no se puede "aceptar" , por lo que, básicamente, no tenemos pruebas de rechazar . Es decir, no hay evidencia de que rechacemos que los datos sigan la distribución dada.H 0 H 0
Por lo tanto, mi pregunta es, ¿cuál es el punto de realizar tales pruebas si no podemos concluir si los datos siguen o no una distribución dada?
fuente
Respuestas:
Hablando en términos generales (no solo por la bondad de las pruebas de ajuste, sino en muchas otras situaciones), simplemente no se puede concluir que el nulo es verdadero, porque hay alternativas que no se pueden distinguir efectivamente del nulo en cualquier tamaño de muestra dado.
Aquí hay dos distribuciones, una normal estándar (línea continua verde) y otra similar (90% normal estándar y 10% beta estandarizada (2,2), marcada con una línea roja discontinua):
El rojo no es normal. Con digamos , tenemos pocas posibilidades de detectar la diferencia, por lo que no podemos afirmar que los datos se extraen de una distribución normal, ¿qué pasaría si fuera de una distribución no normal como la roja?n=100
Las fracciones más pequeñas de betas estandarizadas con parámetros iguales pero más grandes serían mucho más difíciles de ver como diferentes de lo normal.
Pero dado que los datos reales casi nunca provienen de una distribución simple, si tuviéramos un oráculo perfecto (o tamaños de muestra realmente infinitos), esencialmente siempre rechazaríamos la hipótesis de que los datos provienen de alguna forma de distribución simple.
Como George Box dijo : " Todos los modelos están equivocados, pero algunos son útiles " .
Considere, por ejemplo, probar la normalidad. Puede ser que los datos realmente provengan de algo cercano a lo normal, pero ¿alguna vez serán exactamente normales? Probablemente nunca lo sean.
En cambio, lo mejor que puede esperar con esa forma de prueba es la situación que describe. (Ver, por ejemplo, la publicación ¿Las pruebas de normalidad son esencialmente inútiles?, Pero hay una serie de otras publicaciones aquí que hacen puntos relacionados)
Esta es parte de la razón por la que a menudo sugiero a las personas que la pregunta en la que realmente están interesados (que a menudo es algo más cercano a '¿mis datos están lo suficientemente cerca de la distribución como para poder hacer inferencias adecuadas sobre esa base?') no está bien respondido por pruebas de bondad de ajuste. En el caso de la normalidad, a menudo los procedimientos de inferencia que desean aplicar (pruebas t, regresión, etc.) tienden a funcionar bastante bien en muestras grandes, a menudo incluso cuando la distribución original es claramente no normal, solo cuando una bondad de La prueba de ajuste será muy probable que rechace la normalidad . De poco sirve tener un procedimiento que sea más probable que le diga que sus datos no son normales solo cuando la pregunta no importa.F
Considere la imagen de arriba nuevamente. La distribución roja no es normal, y con una muestra realmente grande podríamos rechazar una prueba de normalidad basada en una muestra de ella ... pero con un tamaño de muestra mucho menor, regresiones y dos pruebas t de muestra (y muchas otras pruebas además) se comportará tan bien como para que no tenga sentido preocuparse por esa no normalidad aunque sea un poco.
Consideraciones similares se extienden no solo a otras distribuciones, sino en gran medida a una gran cantidad de pruebas de hipótesis de manera más general (incluso una prueba de dos colas de por ejemplo). También podríamos hacer el mismo tipo de pregunta: ¿cuál es el punto de realizar tales pruebas si no podemos concluir si la media tiene o no un valor particular?μ=μ0
Es posible que pueda especificar algunas formas particulares de desviación y ver algo como las pruebas de equivalencia, pero es un poco complicado con la bondad de ajuste porque hay muchas maneras de que una distribución sea cercana pero diferente de una hipotética, y diferente Las formas de diferencia pueden tener diferentes impactos en el análisis. Si la alternativa es una familia más amplia que incluye el nulo como un caso especial, la prueba de equivalencia tiene más sentido (prueba exponencial contra gamma, por ejemplo), y de hecho, el enfoque de "prueba de dos lados" se lleva a cabo, y eso podría sería una forma de formalizar "lo suficientemente cerca" (o lo sería si el modelo gamma fuera cierto, pero de hecho sería casi seguro que sería rechazado por una prueba de bondad de ajuste ordinaria,
Las pruebas de bondad de ajuste (y, a menudo, más ampliamente, las pruebas de hipótesis) en realidad solo son adecuadas para una gama bastante limitada de situaciones. La pregunta que la gente generalmente quiere responder no es tan precisa, sino algo más vaga y más difícil de responder, pero como dijo John Tukey, " Mucho mejor una respuesta aproximada a la pregunta correcta, que a menudo es vaga, que una respuesta exacta a la pregunta pregunta equivocada, que siempre puede ser precisa "
Los enfoques razonables para responder la pregunta más vaga pueden incluir investigaciones de simulación y remuestreo para evaluar la sensibilidad del análisis deseado al supuesto que está considerando, en comparación con otras situaciones que también son razonablemente consistentes con los datos disponibles.
(También es parte de la base para el enfoque de la robustez a través de -contaminación, esencialmente al observar el impacto de estar dentro de una cierta distancia en el sentido de Kolmogorov-Smirnov)ε
fuente
Respaldo la respuesta de @ Glen_b y agrego que, en general, el problema "la ausencia de evidencia no es evidencia de ausencia" hace que las pruebas de hipótesis yP -valores menos útiles de lo que parecen. La estimación es a menudo un mejor enfoque incluso en la evaluación de bondad de ajuste. Se puede usar la distancia Kolmogorov-Smirnov como medida. Es difícil de usar sin un margen de error. Un enfoque conservador tomaría el límite de confianza superior de la distancia KS para guiar el modelado. Esto (correctamente) conduciría a mucha incertidumbre, lo que puede llevar a uno a concluir que se prefiere elegir un método robusto en primer lugar. Con eso en mente, y volviendo a la meta original, cuando uno compara la distribución empírica con más de, digamos, 2 formas paramétricas posibles, la verdadera variación de la distribución ajustada final no tiene mejor precisión que la función de distribución acumulativa empírica. Entonces, si no hay una teoría de la materia para conducir la selección de la distribución,
fuente
Una opinión que creo que la mayoría de la gente comparte es que la prueba de hipótesis es una adaptación probabilística del principio de falsificación .
Por lo tanto, no rechazar de ninguna manera implica que es verdadero; es solo que sobrevive para un mayor escrutinio.H 0 H 0H0 H0 H0
fuente
Creo que este es un ejemplo perfecto para ilustrar la diferencia entre el trabajo académico y la toma de decisiones prácticas. En entornos académicos (donde estoy), puede argumentar de la forma que desee siempre que otros lo consideren razonable. Por lo tanto, esencialmente terminamos teniendo una bargy argy interminable, a veces circular, entre nosotros. En ese sentido, esto proporciona a las personas algo en lo que trabajar.
Sin embargo, si realmente está en condiciones de tomar decisiones, la respuesta es un sí o un no definitivo. La indecisión dañará su reputación como tomador de decisiones. Por supuesto, tomar una decisión implica no solo estadísticas, sino también a veces un elemento de apuesta y salto de fe. En resumen, este tipo de ejercicio es en cierta medida útil para la toma de decisiones. Sin embargo, si confiar su decisión únicamente en esta prueba de hipótesis es una historia completamente diferente.
fuente
El punto es que desde un punto de vista estadístico puro no se puede aceptar , pero en la práctica sí. Por ejemplo, si está estimando el riesgo de una cartera utilizando el valor en riesgo o medidas similares, la distribución del rendimiento de la cartera es bastante importante. Esto se debe a que el riesgo está definido por la cola de su distribución.
En los casos de libros de texto, la distribución normal se usa a menudo como ejemplos. Sin embargo, si los rendimientos de su cartera tienen colas gruesas (que a menudo lo hacen), la aproximación de distribución normal subestimará los riesgos. Por lo tanto, es importante examinar los retornos y decidir si va a usar una aproximación normal o no. Tenga en cuenta que esto no significa necesariamente ejecutar pruebas estadísticas, podría ser QQ-plot u otros medios. Sin embargo, debe tomar una decisión en algún momento basándose en el análisis de devoluciones y sus modelos de devolución, y usar normal o no.
Por lo tanto, para todos los fines prácticos, no rechazar significa realmente aceptar, aunque no en sentido estadístico estricto. Aceptará lo normal y lo usará en sus cálculos, que se mostrarán a la alta gerencia diariamente, a sus reguladores, auditores, etc. El no rechazo en este caso tiene consecuencias de largo alcance en todos los sentidos, por lo que es como o más poderoso que el tonto resultado estadístico.
fuente
Ningún acusado en la corte es inocente. Son culpables (rechazan la hipótesis nula de inocentes) o no son culpables (no rechazan la presunción de inocencia).
La ausencia de evidencia no es evidencia de ausencia.
fuente
Si tiene en mente una distribución alternativa (o un conjunto de distribuciones) para comparar, puede ser una herramienta útil.
Algunas dificultades de interpretación encontradas en la aplicación de la prueba de Chi-cuadrado. Joseph Berkson. Revista de la Asociación Americana de Estadística. Vol. 33, núm. 203 (septiembre de 1938), págs. 526-536
fuente