Al leer sobre la prueba KS de 2 muestras, entiendo exactamente lo que está haciendo, pero no entiendo por qué funciona .
En otras palabras, puedo seguir todos los pasos para calcular las funciones de distribución empírica, encontrar la diferencia máxima entre los dos para encontrar el estadístico D, calcular los valores críticos, convertir el estadístico D en un valor p, etc.
Pero, no tengo idea de por qué nada de esto realmente me dice algo sobre las dos distribuciones.
Alguien podría haberme dicho con la misma facilidad que necesito saltar sobre un burro y contar qué tan rápido se escapa y si la velocidad es inferior a 2 km / h, rechazo la hipótesis nula. Claro que puedo hacer lo que me dijiste que hiciera, pero ¿qué tiene eso que ver con la hipótesis nula?
¿Por qué funciona la prueba KS de 2 muestras? ¿Qué tiene que ver la computación de la diferencia máxima entre los ECDF con lo diferentes que son las dos distribuciones?
Cualquier ayuda es apreciada. No soy un estadístico, así que suponga que soy un idiota si es posible.
Respuestas:
Básicamente, la prueba es consistente como resultado directo del teorema de Glivenko Cantelli, uno de los resultados más importantes de los procesos empíricos y quizás de las estadísticas.
¿Cuánto tiempo? Mmyyeeaa no lo sé. El poder de la prueba es algo dudoso. Nunca lo usaría en realidad.
http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf
fuente
Tenemos dos muestras independientes, univariadas:
fuente
Una toma intuitiva:
La prueba de Kolmogorov-Smirnov se basa fundamentalmente en el orden de las observaciones por distribución. La lógica es que si las dos distribuciones subyacentes son iguales, entonces, dependiendo del tamaño de la muestra, el orden debería ser bastante bien entre las dos.
fuente