Además de Durbin-Watson, ¿qué pruebas de hipótesis pueden producir resultados no concluyentes?

10

El estadístico de prueba de Durbin-Watson puede encontrarse en una región no concluyente, donde no es posible rechazar o no rechazar la hipótesis nula (en este caso, de autocorrelación cero).

¿Qué otras pruebas estadísticas pueden producir resultados "no concluyentes"?

¿Existe una explicación general (agitar las manos está bien) por qué este conjunto de pruebas no puede tomar una decisión binaria de "rechazar" / "no rechazar"?

Sería una ventaja si alguien pudiera mencionar las implicaciones teóricas de la decisión como parte de su respuesta a la última pregunta: ¿la presencia de una categoría adicional de (in) conclusión significa que debemos considerar los costos de Tipo I y Tipo II errores de una manera más sofisticada?

hypothesis-testing statistical-significance decision-theory Lepisma
fuente

2

Un poco fuera de tema, pero las pruebas aleatorias tienen ese sabor. Para algunos valores de los datos, debe aleatorizar sobre aceptar y rechazar.

Christoph Hanck

@ChristophHanck gracias, esa fue una conexión interesante que no habría notado. No era lo que pretendía, pero mantenía la pregunta deliberadamente vaga con la esperanza de que fuera un tema general; dependiendo de la (s) respuesta (s), podría centrarme más tarde.

Silverfish

10

El artículo de Wikipedia explica que la distribución del estadístico de prueba bajo la hipótesis nula depende de la matriz de diseño, la configuración particular de los valores predictores utilizados en la regresión. Durbin & Watson calcularon los límites inferiores para el estadístico de prueba bajo el cual la prueba de autocorrelación positiva debe rechazar, a niveles de significancia dados, para cualquier matriz de diseño, y los límites superiores sobre los cuales la prueba no puede rechazar para cualquier matriz de diseño. La "región no concluyente" es simplemente la región en la que tendría que calcular valores críticos exactos, teniendo en cuenta su matriz de diseño, para obtener una respuesta definitiva.

Una situación análoga sería tener que realizar una prueba t de una muestra y una cola cuando conoces solo el estadístico t, y no el tamaño de la muestra ^† : 1.645 y 6.31 (correspondiente a infinitos grados de libertad y solo una) los límites para una prueba de tamaño 0.05.

En lo que respecta a la teoría de la decisión, tiene que tener en cuenta una nueva fuente de incertidumbre además de la variación de muestreo, pero no veo por qué no debería aplicarse de la misma manera que con las hipótesis nulas compuestas. Estás en la misma situación que alguien con un parámetro de molestia desconocido, independientemente de cómo llegaste allí; así que si necesita tomar una decisión de rechazo / retención mientras controla el error Tipo I sobre todas las posibilidades, rechace conservadoramente (es decir, cuando la estadística de Durbin-Watson está por debajo del límite inferior, o la estadística t es superior a 6.31).

† O tal vez has perdido tus mesas; pero puede recordar algunos valores críticos para un Gaussiano estándar y la fórmula para la función cuantil de Cauchy.

Scortchi - Restablece a Monica
fuente

(+1) Gracias. Sabía que este era el caso de la prueba de Durbin-Watson (debería haber mencionado eso en mi pregunta realmente), pero me preguntaba si este era un ejemplo de un fenómeno más general y, de ser así, si todos funcionan esencialmente de la misma manera. Supuse que puede suceder, por ejemplo, al realizar ciertas pruebas mientras uno solo tiene acceso a datos de resumen (no necesariamente en una regresión), pero DW es el único caso que puedo recordar al ver los valores críticos superior e inferior compilados y tabulados . Si tiene alguna idea sobre cómo puedo hacer que la pregunta esté mejor dirigida, sería muy bienvenido.

Silverfish

La primera pregunta es un poco vaga ("¿Qué otras pruebas estadísticas [...]?"), Pero no creo que pueda aclararla sin responder a la segunda ("¿Hay una explicación general [...]?") usted mismo - en general creo que está bien tal como está.

Scortchi - Restablece a Monica

7

Otro ejemplo de una prueba con resultados posiblemente no concluyentes es una prueba binomial para una proporción cuando solo está disponible la proporción, no el tamaño de la muestra. Esto no es completamente irreal: a menudo vemos o escuchamos reclamos mal informados de la forma "73% de las personas están de acuerdo en que ..." y así sucesivamente, donde el denominador no está disponible.

$H_0: \pi = 0.5$ $H_1: \pi \neq 0.5$ $\alpha = 0.05$

$p=5\%$ $\frac{1}{19}$ $5\%$ $\alpha = 0.05$

$p = 49\%$

$p=50\%$ $H_0$

$p=0\%$ $p=50\%$ $p=5\%$ $p=0\%$ $p=100\%$ $p=16\%$ $\Pr(X \leq 3) \approx 0.00221 < 0.025$ $p=17\%$ $\Pr(X \leq 1) \approx 0.109 > 0.025$ $p=16\%$ $p=18\%$ $\Pr(X \leq 2) \approx 0.0327 > 0.025$ $p=19\%$ la muestra menos significativa posible es 3 éxitos en 19 ensayos con por lo que esto es significativo nuevamente. $\Pr(X \leq 3) \approx 0.0106 < 0.025$

De hecho, es el porcentaje redondeado más alto por debajo del 50% para ser inequívocamente significativo al nivel del 5% (su valor p más alto sería para 4 éxitos en 17 ensayos y es solo significativo), mientras que es el resultado más bajo distinto de cero que no es concluyente (porque podría corresponder a 1 éxito en 8 ensayos). Como se puede ver en los ejemplos anteriores, ¡lo que sucede en el medio es más complicado! El siguiente gráfico tiene una línea roja en : los puntos debajo de la línea son inequívocamente significativos, pero los de arriba no son concluyentes. El patrón de los valores p es tal que no habrá límites inferiores y superiores únicos en el porcentaje observado para que los resultados sean inequívocamente significativos. $p=24\%$ $p=13\%$ $\alpha=0.05$

Valor p menos significativo de la prueba binomial con tamaño de muestra desconocido

Código R

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(El código de redondeo se recorta de esta pregunta de StackOverflow ).

Lepisma
fuente

Además de Durbin-Watson, ¿qué pruebas de hipótesis pueden producir resultados no concluyentes?

Respuestas: