La distribución de Kolmogorov-Smirnov se conoce por la prueba de Kolmogorov-Smirnov . Sin embargo, también es la distribución del supremum del puente browniano.
Como esto está lejos de ser obvio (para mí), me gustaría pedirle una explicación intuitiva de esta coincidencia. Las referencias también son bienvenidas.
Respuestas:
dondeZi(x)=1Xi≤x−E[1Xi≤x]
por CLT tienesGn=1n√∑ni=1Zi(x)→N(0,F(x)(1−F(x)))
esta es la intuición ...
el puente browniano tiene una varianza t ( 1 - t ) http://en.wikipedia.org/wiki/Brownian_bridge reemplaza t por F ( x ) . Esto es para una x ...B(t) t(1−t) t F(x) x
También debe verificar la covarianza y, por lo tanto, aún es fácil mostrar (CLT) que para ( ) ( G n ( x 1 ) , ... , G n ( x k ) ) → ( B 1 , ... , B k ) donde ( B 1 , ... , B k ) es N ( 0 , Σ ) conx1,…,xk (Gn(x1),…,Gn(xk))→(B1,…,Bk) (B1,…,Bk) N(0,Σ) , σ i j = min ( F ( x i ) , F ( x j ) ) - F ( x i ) F ( x j ) . Σ=(σij) σij=min(F(xi),F(xj))−F(xi)F(xj)
La parte difícil es demostrar que la distribución del suppremum del límite es el supremum de la distribución del límite ... Comprender por qué sucede esto requiere cierta teoría empírica del proceso, leer libros como Van der Waart y Welner (no es fácil) . El nombre del teorema es Donsker Theorem http://en.wikipedia.org/wiki/Donsker%27s_theorem ...
fuente
Para Kolmogorov-Smirnov, considere la hipótesis nula. Dice que una muestra se extrae de una distribución particular. Entonces, si construye la función de distribución empírica paranorte muestras F(x)=1n∑iχ(−∞,Xi](x) , in the limit of infinite data, it will converge to the underlying distribution.
For finite information, it will be off. If one of the measurements isq , then at x=q the empirical distribution function takes a step up. We can look at it as a random walk which is constrained to begin and end on the true distribution function. Once you know that, you go ransack the literature for the huge amount of information known about random walks to find out what the largest expected deviation of such a walk is.
You can do the same trick with anyp -norm of the difference between the empirical and underlying distribution functions. For p=2 , it's called the Cramer-von Mises test. I don't know the set of all such tests for arbitrary real, positive p form a complete class of any kind, but it might be an interesting thing to look at.
fuente