Estoy tratando de entender cómo obtener los valores para la prueba unilateral de Kolmogorov-Smirnov , y estoy luchando por encontrar CDF para y en el caso de dos muestras. Lo siguiente se cita en algunos lugares como el CDF para en un caso de una muestra:
Además, mientras haya una formulación ligeramente diferente de este CDF de una muestra (estoy sustituyendo por en su cita por coherencia con mi notación aquí):
Usando la transformación integral de probabilidad, Donald Knuth deriva su distribución (común) en la p. 57 y ejercicio 17 de TAoCP Volumen 2. Cito:
Esto se aplicaría a hipótesis unilaterales en el caso de una muestra, como: H , donde es el CDF empírico de , y es algo de CDF.
Creo que la en este caso es el valor de en la muestra de uno, y que es el número entero más grande en . (¿Está bien?)
Pero, ¿cuál es el CDF para (o ) cuando uno tiene dos muestras? Por ejemplo, cuando H para los CDF empíricos de y ? ¿Cómo obtener ? D - n 1 , n 2 0 : F A ( x ) - F B ( x ) ≤ 0 A B p + n 1 , n 2
fuente
Respuestas:
Ok, voy a tener una puñalada en esto. Ideas críticas bienvenidas.
En la página 192 Gibbons y Chakraborti (1992), citando Hodges, 1958, comenzar con una pequeña muestra (exacta?) CDF para la prueba bilateral (estoy intercambiando su y notación para y , respectivamente):d n 1 , n 2 xm,n d n1,n2 x
Donde se produce a través de una enumeración de caminos (aumentando monotónicamente en y ) desde el origen hasta el punto través de un gráfico con —sustituyendo por - los valores del eje x y el eje y son y . Además, los caminos deben obedecer la restricción de permanecer dentro de los límites (donde es el valor de la estadística de prueba de Kolmogorov-Smirnov): n 1 n 2 ( n 1 , n 2 ) S m ( x ) F n 1 ( x ) n 1 F 1 ( x ) n 2 F 2 ( x ) xA(n1,n2) n1 n2 (n1,n2) Sm(x) Fn1(x) n1F1(x) n2F2(x) x
A continuación se muestra su imagen Figura 3.2 que proporciona un ejemplo para , con 12 de estos caminos:A(3,4)
Gibbons y Chakaborti continúan diciendo que el valor unilateral se obtiene utilizando este mismo método gráfico, pero solo con el límite inferior para , y solo la parte superior para .D + n 1 , n 2 D - n 1 , n 2p D+n1,n2 D−n1,n2
Estos enfoques de muestra pequeña implican algoritmos de enumeración de ruta y / o relaciones de recurrencia, que indudablemente hacen deseables los cálculos asintóticos. Gibbons y Chakraborti también notan los CDF limitantes cuando y aproximan al infinito, de : n 2 D n 1 , n 2n1 n2 Dn1,n2
Y dan el CDF limitante de (o ) como: D - n 1 , n 2D+n1,n2 D−n1,n2
Debido a que y son estrictamente no negativos, el CDF solo puede tomar valores distintos de cero sobre : D - [ 0 , ∞ )D+ D− [0,∞)
Referencias
Gibbons, JD y Chakraborti, S. (1992). Inferencia estadística no paramétrica . Marcel Decker, Inc., 3ª edición, edición revisada y ampliada.
Hodges, JL (1958). La probabilidad de significación de la prueba de dos muestras de Smirnov. Arkiv för matematik . 3 (5): 469-486.
fuente