¿Cómo interpretar el valor p de la prueba de Kolmogorov-Smirnov (pitón)?

30

Tengo dos muestras que quiero probar (usando python) si se extraen de la misma distribución. Para hacer eso, uso la función estadística ks_2samp de scipy.stats. Devuelve 2 valores y encuentro dificultades para interpretarlos. ¡Ayuda por favor!

meri
fuente

Respuestas:

23

Como Stijn señaló, la prueba ks devuelve una estadística D y un valor p correspondiente a la estadística D. La estadística D es la distancia máxima absoluta (supremum) entre los CDF de las dos muestras. Cuanto más cercano esté este número a 0, más probable es que las dos muestras se extraigan de la misma distribución. Echa un vistazo a la página de Wikipedia para la prueba de ks. Proporciona una buena explicación: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

El valor p devuelto por la prueba ks tiene la misma interpretación que otros valores p. Rechaza la hipótesis nula de que las dos muestras se extrajeron de la misma distribución si el valor p es menor que su nivel de significancia. Puede encontrar tablas en línea para la conversión de la estadística D en un valor p si está interesado en el procedimiento.

CrossValidatedTrading
fuente
Gracias por su respuesta. De hecho, sé el significado de los 2 valores D y P-value pero no puedo ver la relación entre ellos. ¿Cómo puedo definir el nivel de significación? ¿Me puede dar un enlace para la conversión de la estadística D en un valor p?
meri
Claro, tabla para convertir D stat a valor p: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading
@CrossValidatedTrading: su enlace a la tabla D-stat-to-p-value ahora es 404.
james.garriss
@CrossValidatedTrading ¿Debería haber una relación entre los valores p y los valores D de la prueba KS de 2 lados? En algunos casos, he visto una relación proporcional, donde la estadística D aumenta con el valor p. Eso parece como que sería lo contrario: que dos curvas con una diferencia mayor (más grande D-estadística), serían más significativamente diferentes (p-valor bajo) ...
Thomas Mateo
Si el valor p es> 0.05, entonces sus dos muestras deben ser idénticas y equilibradas.
user798719
5

Al hacer una búsqueda en Google de ks_2samp, el primer éxito es este sitio web. En él, puede ver la especificación de la función:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value
Stijn
fuente
¿Los parámetros ayb son mi secuencia de datos o debo calcular los CDF para usar ks_2samp?
Meri
@meri: hay un ejemplo en la página a la que me vinculé.
Stijn