¿Por qué los valores de p y las estadísticas de prueba de ks disminuyen al aumentar el tamaño de la muestra? Tome este código de Python como ejemplo:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Los resultados son:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Intuitivamente, entiendo que a medida que n crece, la prueba es "más segura" de que las dos distribuciones son diferentes. Pero si el tamaño de la muestra es muy grande, ¿cuál es el punto en pruebas de similitud como esta y decir la prueba de Anderson Darling, o la prueba t, porque en tales casos cuando n es muy grande, siempre se encontrará que las distribuciones son "¿¡significativamente diferente!? Ahora me pregunto cuál es el punto de los valores p. Depende mucho del tamaño de la muestra ... si p> 0.05 y desea que sea menor, solo obtenga más datos; y si p <0.05 y desea que sea mayor, simplemente elimine algunos datos.
Además, si las dos distribuciones fueran idénticas, la estadística de prueba ks sería 0 y el valor p 1. Pero en mi ejemplo, a medida que n aumenta, la estadística de prueba ks sugiere que las distribuciones se vuelven más y más similares con el tiempo (disminuye) , pero de acuerdo con el valor p, se vuelven más y diferentes con el tiempo (también disminuye).
Respuestas:
La estadística de prueba disminuye porque sus distribuciones son muy similares y las muestras más grandes tienen menos ruido. Si comparara las dos distribuciones teóricas que utilizó, debería obtener la estadística KS "verdadera". A medida que agrega más datos, su estadística KS estimada debería acercarse a este verdadero valor. Sin embargo, incluso a medida que disminuye su estadística KS, aumenta su confianza de que en realidad son dos distribuciones diferentes (es decir, disminuye el valor p) porque tiene una mayor confianza en sus estimaciones de las distribuciones individuales.
fuente
fuente