¿Cuál es el CDF de dos muestras de

9

Estoy tratando de entender cómo obtener los valores para la prueba unilateral de Kolmogorov-Smirnov , y estoy luchando por encontrar CDF para y en el caso de dos muestras. Lo siguiente se cita en algunos lugares como el CDF para en un caso de una muestra:pDn1,n2+Dn1,n2Dn+

pn+(x)=P(Dn+x|H0)=xj=0n(1x)(nj)(jn+x)j1(1xjn)nj

Además, mientras haya una formulación ligeramente diferente de este CDF de una muestra (estoy sustituyendo x por t en su cita por coherencia con mi notación aquí):

Usando la transformación integral de probabilidad, Donald Knuth deriva su distribución (común) en la p. 57 y ejercicio 17 de TAoCP Volumen 2. Cito:

(Dn+xn)=xnnckx(nk)(kx)k(x+nk)nk1

Esto se aplicaría a hipótesis unilaterales en el caso de una muestra, como: H 0F(x)F00 , donde F(x) es el CDF empírico de x , y F0 es algo de CDF.

Creo que la x en este caso es el valor de Dn+ en la muestra de uno, y que n(1x) es el número entero más grande en nnx . (¿Está bien?)

Pero, ¿cuál es el CDF para (o ) cuando uno tiene dos muestras? Por ejemplo, cuando H para los CDF empíricos de y ? ¿Cómo obtener ? D - n 1 , n 2 0F A ( x ) - F B ( x ) 0 A B p + n 1 , n 2Dn1,n2+Dn1,n20FA(x)FB(x)0ABpn1,n2+

Alexis
fuente
1
Solo como un indicador para cualquiera que esté buscando responder a esta pregunta: mi respuesta a la pregunta anterior de Alexis (que está vinculada en la pregunta anterior) tiene enlaces a varias referencias con una discusión de la historia, cada una con una serie de referencias relevantes. Puede consultar esos documentos y su lista de referencias.
Glen_b -Reinstate Monica
@Glen_b ¡Gracias! Realmente aprecio su excelente respuesta a mi otra pregunta, y seguí los recursos citados, pero no obtuve tracción en el CDF para allí, y en lugar de atascar los comentarios, pensé que simplemente abriría una nueva consulta . Referencias adicionales son bienvenidas, si conoce alguna que funcione para esto. D+
Alexis
Alexis: mi comentario no pretendía criticar; Su elección para abrir una nueva pregunta fue exactamente correcta (en mi opinión). Solo quería ahorrarle a las personas un poco de trabajo preliminar para rastrear algunas de las referencias relevantes: pensé que no necesariamente se les ocurriría a todos seguir su enlace a la otra pregunta, y podría no ocurrirle a las personas que hicieron esos enlaces en mi La respuesta tenía algunas referencias que querrían saber.
Glen_b -Reinstate Monica

Respuestas:

6

Ok, voy a tener una puñalada en esto. Ideas críticas bienvenidas.

En la página 192 Gibbons y Chakraborti (1992), citando Hodges, 1958, comenzar con una pequeña muestra (exacta?) CDF para la prueba bilateral (estoy intercambiando su y notación para y , respectivamente):d n 1 , n 2 xm,ndn1,n2x

P(Dn1,n2x)=1P(Dn1,n2x)=1A(n1,n2)(n1+n2n1)

Donde se produce a través de una enumeración de caminos (aumentando monotónicamente en y ) desde el origen hasta el punto través de un gráfico con —sustituyendo por - los valores del eje x y el eje y son y . Además, los caminos deben obedecer la restricción de permanecer dentro de los límites (donde es el valor de la estadística de prueba de Kolmogorov-Smirnov): n 1 n 2 ( n 1 , n 2 ) S m ( x ) F n 1 ( x ) n 1 F 1 ( x ) n 2 F 2 ( x ) xA(n1,n2)n1n2(n1,n2)Sm(x)Fn1(x)n1F1(x)n2F2(x)x

n2n1±(n1+n2)x(n1+n2n1)

A continuación se muestra su imagen Figura 3.2 que proporciona un ejemplo para , con 12 de estos caminos:A(3,4)

Figura 3.2 de la página 193 de Gibbons y Chakraborti (1992) Inferencia estadística no paramétrica.

Gibbons y Chakaborti continúan diciendo que el valor unilateral se obtiene utilizando este mismo método gráfico, pero solo con el límite inferior para , y solo la parte superior para .D + n 1 , n 2 D - n 1 , n 2pDn1,n2+Dn1,n2

Estos enfoques de muestra pequeña implican algoritmos de enumeración de ruta y / o relaciones de recurrencia, que indudablemente hacen deseables los cálculos asintóticos. Gibbons y Chakraborti también notan los CDF limitantes cuando y aproximan al infinito, de : n 2 D n 1 , n 2n1n2Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2x)=12i=1(1)i1e2i2x2

Y dan el CDF limitante de (o ) como: D - n 1 , n 2Dn1,n2+Dn1,n2

limn1,n2P(n1n2n1+n2Dn1,n2+x)=1e2x2

Debido a que y son estrictamente no negativos, el CDF solo puede tomar valores distintos de cero sobre : D - [ 0 , )D+D[0,)

CDF de $ D ^ {+} $ (o $ D ^ {-} $)


Referencias
Gibbons, JD y Chakraborti, S. (1992). Inferencia estadística no paramétrica . Marcel Decker, Inc., 3ª edición, edición revisada y ampliada.

Hodges, JL (1958). La probabilidad de significación de la prueba de dos muestras de Smirnov. Arkiv för matematik . 3 (5): 469-486.

Alexis
fuente
1
El cdf real existe en todas partes, pero para el cdf será cero; la forma funcional que dio sólo se aplica para (esto es susceptible de razonamiento simple: ¿cuál es ?x 0 P ( D + < 0 )(,0)x0P(D+<0)
Glen_b -Reinstate Monica