¿Es válida la prueba de Kolmogorov-Smirnov con distribuciones discretas?

29

Estoy comparando una muestra y comprobando si se distribuye como una distribución discreta. Sin embargo, no estoy seguro de que se aplique Kolmogorov-Smirnov. Wikipedia parece implicar que no. Si no es así, ¿cómo puedo probar la distribución de la muestra?

Wilhelm
fuente
+1 Un hermoso ejemplo de aplicación errónea de la prueba KS a datos con (muchos) vínculos se da en la página de ayuda para un complemento de estadísticas de Excel en real-statistics.com/non-parametric-tests/goodness-of-fit- pruebas / ... . El resultado es incorrecto por muchas razones. Advertencia lector!
whuber
Las pruebas KS para distribuciones nulas discretas están disponibles: en.wikipedia.org/wiki/…
Astrid

Respuestas:

14

No se aplica a distribuciones discretas. Ver http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm por ejemplo.

¿Hay alguna razón por la que no pueda usar una prueba de bondad de ajuste de chi-cuadrado? ver http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm para más información.

PeterR
fuente
Perdón por la intrusión, pero realmente no entiendo por qué es aplicable solo a la distribución continua (KS y otras pruebas de validación). ¿Alguien puede explicarme este hecho?
Maurizio
66
@Maurizio: el estadístico de la prueba KS tiene la misma distribución en todas las distribuciones continuas , pero si la distribución real no es continua y se intenta construir una prueba de nivel suponiendo que la distribución es continua, entonces el nivel real de la prueba con ser menor que α . (cf Hipótesis estadísticas de prueba de Lehmann y Romano , tercera edición , p. 584). Todavía puede hacer una prueba de nivel α basada en la estadística KS, pero tendrá que encontrar algún otro método para obtener el valor crítico, por ejemplo, mediante simulación. ααα
DavidR
Hay una prueba KS discreta: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid
7

Como suele ser el caso en las estadísticas, depende de lo que quieras decir .

  1. Si quiere decir "Calculo mi estadística de prueba en una muestra extraída de una distribución discreta y luego busco las tablas estándar", obtendrá una verdadera tasa de error tipo I menor que la que eligió (posiblemente mucho menor).

    Cuánto depende de "cuán discreta" sea la distribución. Si la probabilidad de cualquier resultado es bastante baja (por lo que se espera que la proporción de valores vinculados en los datos sea baja), entonces no importará mucho: muchas personas no tendrían problemas para ejecutar un 5 % de prueba en 4.5% decir. Entonces, por ejemplo, si está probando un uniforme discreto en [1,1000], probablemente no tenga que preocuparse.

    Pero si hay una alta probabilidad de que un valor esté vinculado, entonces el efecto en la tasa de error tipo I se puede marcar. Si obtiene un nivel de significancia de 0.005 cuando quería 0.05, puede ser un problema, ya que afectará el poder correspondientemente.

  2. Si, en cambio, quiere decir "Calculo mi estadística de prueba en una muestra extraída de una distribución discreta y luego uso un valor crítico adecuado / calculo un valor p adecuado para mi situación" (por ejemplo, mediante una prueba de permutación), entonces la prueba es ciertamente válido en el sentido de que obtendrá la tasa de error tipo I correcta, hasta la discreción de la estadística de prueba en sí, por supuesto. (Aunque puede haber mejores pruebas para su propósito particular, tal como suele haber en el caso continuo).

    Tenga en cuenta que la distribución de la estadística de prueba en sí ya no está libre de distribución, pero una prueba de permutación evita ese problema.

Entonces, a veces está bien usar las tablas estándar incluso con distribuciones discretas, e incluso cuando no está bien, no es tanto la estadística de prueba como los valores críticos / valores p que usas con eso ese es el problema.

Glen_b -Reinstate a Monica
fuente
Como siempre, Glen, su respuesta es de alta calidad. ¡Pero quizás la mejor parte es que en realidad has hecho eco de la broma que hice en esta publicación sobre estadísticos que dicen "depende"! stats.stackexchange.com/questions/182442/…
Sycorax dice Reinstate Monica
1
@ user777 que no fue accidental; me divirtió y estaba pensando mientras leía esta pregunta "bueno, depende" ... así que me aseguré de decirlo explícitamente para hacer eco de tu publicación.
Glen_b
1
Mi tarde mejoró. ¡Aclamaciones!
Sycorax dice Reinstate Monica
2

XFF(X)XXF(X)=X

F RA
fuente