Prueba de Kolmogorov-Smirnov: el valor p y la estadística de prueba ks disminuyen a medida que aumenta el tamaño de la muestra

11

¿Por qué los valores de p y las estadísticas de prueba de ks disminuyen al aumentar el tamaño de la muestra? Tome este código de Python como ejemplo:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Los resultados son:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Intuitivamente, entiendo que a medida que n crece, la prueba es "más segura" de que las dos distribuciones son diferentes. Pero si el tamaño de la muestra es muy grande, ¿cuál es el punto en pruebas de similitud como esta y decir la prueba de Anderson Darling, o la prueba t, porque en tales casos cuando n es muy grande, siempre se encontrará que las distribuciones son "¿¡significativamente diferente!? Ahora me pregunto cuál es el punto de los valores p. Depende mucho del tamaño de la muestra ... si p> 0.05 y desea que sea menor, solo obtenga más datos; y si p <0.05 y desea que sea mayor, simplemente elimine algunos datos.

Además, si las dos distribuciones fueran idénticas, la estadística de prueba ks sería 0 y el valor p 1. Pero en mi ejemplo, a medida que n aumenta, la estadística de prueba ks sugiere que las distribuciones se vuelven más y más similares con el tiempo (disminuye) , pero de acuerdo con el valor p, se vuelven más y diferentes con el tiempo (también disminuye).

Oliver Angelil
fuente
Ver ¿Es la prueba de normalidad "esencialmente inútil"? . Tenga en cuenta que lo que usted dice no es del todo cierto: si las distribuciones son de hecho idénticas, la distribución del valor p permanece uniforme incluso cuando aumenta el tamaño de la muestra.
Scortchi - Restablece a Monica
2
He tenido un problema que podría estar relacionado con este: stats.stackexchange.com/questions/301628/… Esto me hizo escéptico sobre esta prueba.
Aleksandar Jovanovic
Es cierto, con suficientes datos, puede mostrar que los tamaños de efecto arbitrariamente pequeños, pero no nulos, son estadísticamente significativos. La clave aquí es reconocer la distinción entre significación estadística y significación práctica. Para citar erróneamente a Homer Simpson, "puedes usar los valores p para probar cualquier cosa que sea remotamente cierta".
Nuclear Wang

Respuestas:

4

La estadística de prueba disminuye porque sus distribuciones son muy similares y las muestras más grandes tienen menos ruido. Si comparara las dos distribuciones teóricas que utilizó, debería obtener la estadística KS "verdadera". A medida que agrega más datos, su estadística KS estimada debería acercarse a este verdadero valor. Sin embargo, incluso a medida que disminuye su estadística KS, aumenta su confianza de que en realidad son dos distribuciones diferentes (es decir, disminuye el valor p) porque tiene una mayor confianza en sus estimaciones de las distribuciones individuales.

adam.r
fuente
3

pag

pagpag

Maarten Buis
fuente
Gracias por la referencia, pero todavía no estoy seguro de por qué el estadístico ks-test disminuye a mayor n.
Oliver Angelil