Estaba mirando esta página sobre la implementación de Monte Carlo de la prueba de Lillefors. No entiendo esta oración:
Hay un error aleatorio en este cálculo de la simulación. Sin embargo, debido al truco de sumar 1 al numerador y al denominador al calcular el valor P, puede usarse directamente sin tener en cuenta la aleatoriedad.
¿Qué quieren decir con el truco de sumar 1 al numerador y al denominador?
El código relevante está aquí:
n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
x.star <- rnorm(n)
d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)
monte-carlo
lilliefors
Aksakal
fuente
fuente
Respuestas:
La explicación en la página referenciada es
Para entender esto, debemos mirar el código, del cual las líneas clave (abreviadas considerablemente) son
El problema principal es que el código no coincide con la cita. ¿Cómo podemos reconciliarlos? Un intento comienza con la última mitad de la cita. Podríamos interpretar que el procedimiento comprende los siguientes pasos:
Collect independiente e idénticamente distribuidos datos de acuerdo con una ley de probabilidad . Aplique un procedimiento de prueba (implementado en el código como ) para producir el número .X1,X2,…,Xn G t T0=t(X1,…,Xn)
fred
Generar a través de ordenador conjuntos de datos comparables, cada una de tamaño , de acuerdo con una hipótesis nula con ley de probabilidad . Aplique a cada conjunto de datos para producir números .N=nsim n F t N T1,T2,…,TN
Calcule
(" " es la función del indicador implementada por la comparación de valores vectoriales en el código). Se entiende que el lado derecho es aleatorio en virtud de la aleatoriedad simultánea de (el estadístico de prueba real) y la aleatoriedad de ( las estadísticas de prueba simuladas).I T0 Ti
d.star > d.hat
Decir que los datos se ajustan a la hipótesis nula es afirmar que . Elija un tamaño de prueba , . Multiplicar ambos lados por y restar muestra que la probabilidad de que para cualquier número es la probabilidad de que no más de de exceda . Esto dice simplemente que encuentra dentro de la parte superior del conjunto ordenado de todas las estadísticas de prueba . Desde (por construcción)F=G α 0<α<1 N+1 1 P≤α α (N+1)α−1 Ti T0 T0 (N+1)α N+1 T0 es independiente de todo , cuando es una distribución continua, esta posibilidad será la fracción del total representada por la parte entera ; es decir, y será exactamente igual a la proporcionada es un número entero ; es decir, cuando .Ti F ⌊(N+1)α⌋
Ciertamente, esta es una de las cosas que queremos que sea cierta para cualquier cantidad que merezca ser llamada "valor p": debe tener una distribución uniforme en . Siempre que sea bastante grande, de modo que cualquier esté cerca de alguna fracción de la forma , esta tendrá un valor casi uniforme distribución. (Para conocer las condiciones adicionales requeridas de un valor p, lea el cuadro de diálogo que publiqué sobre el tema de los valores p ) .[0,1] N+1 α k/(N+1)=k/(nsim+1) P
Evidentemente, la cita debe usar " " en lugar de " " donde aparezca.nsim+1 nsim
fuente
Creo que aquí, 1 se agrega a ambos porque la estadística observada se incluye en la distribución de referencia; si este es el caso, se debe a la parte "al menos tan grande" de la definición del valor p.
No estoy seguro porque el texto parece decir algo diferente, pero por eso lo haría.
fuente