Así que he oído decir que no es una buena idea elegir una prueba estadística basada en el resultado de otra. Sin embargo, esto me parece extraño. Por ejemplo, las personas a menudo eligen usar una prueba no paramétrica cuando alguna otra prueba sugiere que los residuos no se distribuyen normalmente. Este enfoque parece bastante aceptado pero no parece estar de acuerdo con la primera oración de este párrafo. Solo esperaba obtener aclaraciones sobre este tema.
hypothesis-testing
Jimj
fuente
fuente
Respuestas:
Dado que es la probabilidad de observar datos de este extremo o más extremo si H 0 es verdadero, entonces, ¿cuál es la interpretación de p donde se llega a p a través de un proceso donde se tomó una decisión contingente en la selección de la prueba que producido ese p ? La respuesta es incognoscible (o al menos casi incognoscible). Al tomar la decisión de ejecutar la prueba o no sobre la base de algún otro proceso probabilístico, ha hecho que la interpretación de su resultado sea aún más complicada. pagpag H0 0 pag pag pag pag los valores son máximamente interpretables cuando el tamaño de la muestra y el plan de análisis se seleccionaron por completo por adelantado. En otras situaciones, las interpretaciones se vuelven difíciles, por eso "no es una buena idea". Dicho esto, es una práctica ampliamente aceptada ... después de todo, ¿por qué incluso molestarse en realizar una prueba si descubre que la prueba que había planeado ejecutar no era válida? La respuesta a esa pregunta es mucho menos segura. Todo esto se reduce al simple hecho de que la prueba de significación de hipótesis nula (el caso de uso primario de ) tiene algunos problemas que son difíciles de superar.pag
fuente
Sí, muchas personas hacen este tipo de cosas y cambian su segunda prueba por una que pueda tratar la heterocedasticidad cuando rechazan la igualdad de varianza, y así sucesivamente.
El hecho de que algo sea común no significa que sea necesariamente sabio.
De hecho, en algunos lugares (no nombraré las disciplinas más ofensivas), muchas de estas pruebas formales de hipótesis contingentes a otras pruebas formales de hipótesis se enseñan realmente.
El problema al hacerlo es que sus procedimientos no tienen sus propiedades nominales, a veces ni siquiera cercanas. (Por otro lado, asumir cosas como esas sin ninguna consideración en absoluto por una violación potencialmente extrema podría ser aún peor).
Varios documentos sugieren que para el caso de heterocedasticidad, es mejor actuar simplemente como si las variaciones no fueran iguales que probarlo y solo hacer algo al respecto en el rechazo.
En el caso de la normalidad, está menos claro. Al menos en muestras grandes, en muchos casos la normalidad no es tan crucial (pero irónicamente, con muestras grandes, es mucho más probable que rechace su prueba de normalidad), siempre que la no normalidad no sea demasiado salvaje. Una excepción es para los intervalos de predicción, donde realmente necesita su suposición de distribución para estar cerca de la derecha.
En parte, un problema es que las pruebas de hipótesis responden una pregunta diferente a la que necesita ser respondida. Realmente no necesita saber "los datos son realmente normales" (casi siempre, no serán exactamente normales a priori ). La pregunta es más bien "cuán grave será el impacto de la no normalidad en mi inferencia".
El segundo problema generalmente es casi independiente del tamaño de la muestra o en realidad mejora con el aumento del tamaño de la muestra; sin embargo, las pruebas de hipótesis casi siempre rechazarán en muestras de gran tamaño.
Hay muchas situaciones en las que hay procedimientos robustos o incluso libres de distribución que están muy cerca de ser completamente eficientes, incluso en la normalidad (y potencialmente mucho más eficientes en algunas desviaciones bastante modestas), en muchos casos parecería una tontería no tomar el mismo enfoque prudente.
fuente
Los principales problemas han sido bien explicados por otros, pero se confunden con los subyacentes o asociados.
Reverencia excesiva para los valores P, como máximo un tipo de evidencia en las estadísticas.
La renuencia a ver que los informes estadísticos se basan inevitablemente en una combinación de opciones, algunas firmemente basadas en evidencia, otras basadas en una combinación de análisis previos, intuición, conjeturas, juicio, teoría, etc.
Supongamos que yo y mi precavido amigo Test Everything elegimos una transformación logarítmica para una respuesta, pero salto a esa conclusión basada en una combinación de razonamiento físico y experiencia previa con datos, mientras que Test Everything elige la escala logarítmica basada en las pruebas y estimaciones de Box-Cox de un parámetro
Ahora ambos usamos la misma regresión múltiple. ¿Nuestros valores P tienen diferentes interpretaciones? En una interpretación, los valores P de Test Everything están condicionados a sus inferencias anteriores. También utilicé inferencias, pero en su mayoría eran informales, basadas en una larga serie de gráficos, cálculos, etc. anteriores en proyectos anteriores. ¿Cómo se informa eso?
Naturalmente, los resultados de la regresión son exactamente los mismos para Test Everything y para mí.
La misma combinación de consejos razonables y filosofía dudosa se aplica a la elección de predictores y la forma funcional. A los economistas, por ejemplo, se les enseña a respetar las discusiones teóricas previas y a desconfiar de la indagación de datos, con buenas razones en cada caso. Pero en los casos más débiles, la teoría en cuestión es solo una sugerencia tentativa hecha previamente en la literatura, muy probablemente después de algún análisis empírico. Pero las referencias bibliográficas santifican, mientras que aprender de los datos disponibles es sospechoso, para muchos autores.
fuente