Permutación de dos muestras Pruebas de Kolmogorov-Smirnov

8

Si bien es más fácil usar la prueba de tipo chi-cuadrado / Cressie-Read de Pearson, me gustaría probar la igualdad de proporciones en categorías en dos grupos usando una prueba de tipo Kolmogorov-Smirnov del formulario propuesto por Pettitt & Stephens (1977 ) (ver también aquí ).k

En particular, como señalan los autores de ese artículo, puede tener cierto poder contra las alternativas de tendencias. Entonces, su prueba de Kolmogorov-Smirnov nominal / categórica de una muestra tiene la forma: donde \ pi es una permutación del orden de las categorías, f _ {., i} son las frecuencias observadas y esperadas (o de manera equivalente, proporción de observaciones) en la categoría i . Esto se puede escribir de manera equivalente como: D_n = \ frac {1} {2} \ sum_ {i = 1} ^ k \ vert f_ {exp, i} -f_ {obs, i} \ vert Me gustaría extender esto a Un caso de dos muestras que utiliza un procedimiento de aleatorización / permutación, como:

Dn=supπsup1jk|i=1j(fexp,π(i)fobs,π(i))|
πf.,ii
Dn=12i=1k|fexp,ifobs,i|
Dn(r)=12i=1k|fgroup1,i(r)fgroup2,i(r)|,r=1,,R
donde .(r) denota una estadística calculada en función de la permutación rth de la variable categórica. Rechace si el valor de la estadística original es mayor que el valor del 95% de las estadísticas permutadas.

Cualquier comentario sobre los pros / contras / validez de dicho procedimiento es muy bienvenido. Gracias.

arándano
fuente

Respuestas:

3

La respuesta depende de la naturaleza del proceso de generación de datos y de la hipótesis alternativa que tenga en mente.

Su prueba es una especie de chi-cuadrado no ponderado. Debido a esta falta de ponderación, los cambios que afectan principalmente a las categorías menos pobladas serán difíciles de detectar. Por ejemplo, su prueba será mucho menos poderosa que la prueba de chi-cuadrado para un cambio uniforme de ubicación, que se detecta principalmente al notar que casi toda la probabilidad en una cola se desplaza hacia la otra cola.

Por ejemplo, suponga que sus categorías son rangos enteros indexados por y está observando variaciones normales de la unidad de varianza pero media desconocida. Por ejemplo, 100 observaciones de una variante normal estándar ocuparán principalmente las categorías a , aunque puede esperar que algunas ocupen las categorías y . Incluso para un gran cambio enorme de errores estándar ( es decir , un cambio en la media de ), el poder de su prueba similar a KD es solo del 50% (cuando ).[i,i+1)i213255/100=0.5α=0.05

Es difícil concebir un entorno donde esta prueba sea más poderosa que la prueba de chi-cuadrado. Si crees que estás en una situación así, realiza algunas simulaciones para descubrir cuál es el poder y cómo se compara con las pruebas alternativas estándar.

whuber
fuente
si entiendo correctamente lo que escribiste, ¿ sería lo mismo para todas las ? también, puedo ver cómo obtener un valor crítico estimado de monte-carlo para ; pero ¿qué tal para ? Dn(r)rDnDn(r)
ronaf
@ronaf ¿Podría proporcionar más detalles sobre ? ¿Qué es la R? No veo que permutar las categorías haga algo en absoluto: tenga en cuenta que ninguna permutación cambiará la suma de las diferencias absolutas de sus recuentos. Dn(r)
whuber