Intervalos de confianza para ECDF

8

La desigualdad Dvoretzky – Kiefer – Wolfowitz es la siguiente:

Pr(sup|F^n(x)F(x)|>ϵ)2exp(2nϵ2) ,

y predice cuán cerca estará una función de distribución determinada empíricamente de la función de distribución de la que se extraen las muestras empíricas. Usando esta desigualdad, podemos dibujar intervalos de confianza (IC) alrededor de (ECDF). Pero estos IC serán iguales en distancia en cada punto del ECDF.F^n(x)

Lo que me pregunto, ¿hay otra forma de construir un IC alrededor del ECDF?

Leyendo sobre las estadísticas ordenadas , encontramos que la distribución asintótica de la estadística ordenada es la siguiente:

fórmula del hipervínculo

Ahora, primero, ¿qué significa el índice con esos símbolos?np

Pregunta principal: ¿podemos usar este resultado, junto con el método delta (ver más abajo), para proporcionar CI para el ECDF? Quiero decir, el ECDF es una función de la estadística ordenada, ¿verdad? Pero al mismo tiempo, el ECDF es una función no paramétrica, entonces, ¿es un callejón sin salida?

Sabemos que y E(F^n(x))=F(x)Var(F^n(x))=F(x)(1F(x))n

Espero tener claro lo que estoy haciendo aquí, y agradezco cualquier ayuda.

EDITAR :

Método Delta: si tiene una secuencia de variables aleatorias satisfactoriaXn

ingrese la descripción de la imagen aquí,

y y son finitos, entonces se cumple lo siguiente:θσ2

ingrese la descripción de la imagen aquí,

para cualquier función g que satisfaga la propiedad de que existe, tiene un valor distinto de cero y está polinómicamente limitada con la variable aleatoria (cita wikipedia)g(θ)

Erosennin
fuente
1
np significa redondeado al siguiente entero. sería la -ésima observación más grande (la estadística de -ésima orden ); poner esos dos bits de notación juntos (let ) te da . npX(i)iii=npX(np)
Glen_b -Reinstala a Monica el
¡Okay! Y p es igual a , de modo que np es igual a i ? F^norte(X)
Erosennin
1
Consulte inside-r.org/packages/cran/sfsmisc/docs/ecdf.ksCI para obtener una solución en R.
kjetil b halvorsen
Entonces, su forma de calcular los IC se basa en la estadística de Kolmogorov-Smirnov, si entiendo las cosas correctamente. ¡También puedo investigar eso! ¡Gracias!
Erosennin
1
Si no recuerdo mal, usar la estadística KS te daría la banda Dvoretzky–Kiefer–Wolfowitz. La declaración que tienes no dice que eliges para hacer . Si toma algo de tiene un resultado asintótico que citó; esto implicará el límite de una secuencia de valores , y no necesita para ser entero para ninguno de ellos. pagsnortepags=yopagsnortenortepags
Glen_b -Reinstala a Monica el

Respuestas:

4

No veo forma de usar el método delta, pero ...

Leyendo sobre la convergencia de la función de distribución empírica , leemos que el teorema del límite central nos da:

norte(F^norte(X)-F(X))norte(0 0,F(X)(1-F(X)))

Podemos usar esto para crear diferentes CI alrededor de cada :F^norte(X)

F^norte(X)±1,96F^norte(X)(1-F^norte(X))norte ,

dado que , es nuestra mejor estimación de .mi(F^norte(X))=F(X)F^norte(X)F(X)

Usando el siguiente código R:

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

Obtenemos:

Azul = bandas KWD, rojo = bandas CLT

Vemos que las bandas rojas (del método CLT) nos dan bandas de confianza más estrechas.

EDITAR : Como señaló @Kjetil B Halvorsen, estos dos tipos de bandas son diferentes. Hice que @Glen_b explicara exactamente lo que quería decir:

Muy diferentes tipos de bandas de confianza. Con una banda de confianza puntual, esperaría una cantidad de puntos fuera de la banda, incluso si fuera la distribución de la que se extrajeron los datos. Con bandas simultáneas no lo harías. Si tiene una banda puntiaguda del 95%, en promedio, el 5% de los puntos para la distribución correcta estarían fuera de las bandas. Con bandas simultáneas, hay un 5% de posibilidades de que el punto con la mayor desviación esté afuera.

Muchas gracias a los dos!

Erosennin
fuente
¿Por qué no se prefiere esta forma en lugar de utilizar la desigualdad DKW o la estadística KS? Nunca antes había visto a nadie construir las bandas de confianza de esta manera ...
Erosennin
1
Solo da bandas de confianza individualmente, para cada , no simultáneamenteX
kjetil b halvorsen
Por "eso" supongo que te refieres a la "forma CLT". Y, por ejemplo, DKW tampoco da nada simultáneamente, simplemente establece la distancia "máxima" y la usa como banda de confianza para cada punto x. Y de manera similar para KS. ϵ
Erosennin
Sí, y al usar un máximo de esta manera obtienen una banda de confianza válida simultáneamente.
kjetil b halvorsen
2
Interesante discusión aquí. Agregué los intervalos CDF puntuales a Wikipedia y algunas discusiones sobre las diferencias entre estos métodos. También actualicé la página DKW para discutir los intervalos más específicamente. Eche un vistazo y no dude en actualizar las páginas o enviarme un PM en cualquiera de los sitios en.wikipedia.org/wiki/… en.wikipedia.org/wiki/…
Bscan