Motivación para la distancia de Kolmogorov entre distribuciones

45

Hay muchas formas de medir cuán similares son las dos distribuciones de probabilidad. Entre los métodos que son populares (en diferentes círculos) están:

  1. la distancia de Kolmogorov: la distancia superior entre las funciones de distribución;

  2. la distancia de Kantorovich-Rubinstein: la diferencia máxima entre las expectativas de las dos distribuciones de funciones con la constante Lipschitz 1, que también resulta ser la distancia L1 entre las funciones de distribución;

  3. la distancia de Lipschitz acotada: como la distancia KR pero también se requiere que las funciones tengan un valor absoluto como máximo 1 .

Estos tienen diferentes ventajas y desventajas. Solamente la convergencia en el sentido de 3. en realidad corresponde precisamente a la convergencia en la distribución; La convergencia en el sentido de 1. o 2. es ligeramente más fuerte en general. (En particular, si Xn=1n con probabilidad1, luegoXnconverge a0en distribución, pero no en la distancia de Kolmogorov. Sin embargo, si la distribución límite es continua, entonces esta patología no ocurre).

Desde la perspectiva de la probabilidad elemental o la teoría de la medida, 1. es muy natural porque compara las probabilidades de estar en algún conjunto. Una perspectiva probabilística más sofisticada, por otro lado, tiende a centrarse más en las expectativas que en las probabilidades. Además, desde la perspectiva del análisis funcional, las distancias como 2. o 3. basadas en la dualidad con algún espacio de funciones son muy atractivas, porque hay un gran conjunto de herramientas matemáticas para trabajar con tales cosas.

Sin embargo, mi impresión (¡corríjame si me equivoco!) Es que en las estadísticas, la distancia de Kolmogorov es la forma generalmente preferida de medir la similitud de las distribuciones. Puedo adivinar una razón: si una de las distribuciones es discreta con soporte finito, en particular, si es la distribución de algunos datos del mundo real, entonces la distancia de Kolmogorov a una distribución modelo es fácil de calcular. (La distancia KR sería un poco más difícil de calcular, y la distancia BL probablemente sería imposible en términos prácticos).

Entonces mi pregunta (finalmente) es, ¿hay otras razones, ya sean prácticas o teóricas, para favorecer la distancia de Kolmogorov (o alguna otra distancia) con fines estadísticos?

Mark Meckes
fuente
1
Me gusta la pregunta, puede que ya haya la mayoría de las respuestas posibles en la pregunta ... ¿Tiene una idea del tipo de respuesta / desarrollo que desea?
robin girard
1
No muy específicamente Soy bastante ignorante de las estadísticas y una de mis razones para preguntar es saber qué criterios utilizarían los estadísticos para elegir entre diferentes métricas. Como ya describí una ventaja práctica importante de 1 (en realidad puedes calcularla), estoy especialmente interesado en motivaciones teóricas. Digamos, ¿la información proporcionada por las estimaciones de la distancia de Kolmogorov es frecuentemente de uso directo en aplicaciones?
Mark Meckes
Olvidé terminar mi comentario anterior con el más o menos obvio: y si es así, ¿cómo?
Mark Meckes
Acabo de releer mi largo comentario anterior y me di cuenta de que la última pregunta que planteé es tanto una consideración práctica como teórica. En cualquier caso, ese es uno de los tipos de temas que me interesaría conocer.
Mark Meckes
Sé que no pretendías ser exhaustivo, pero puedes agregar la estadística Anderson Darling (ver en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Esto me hizo recordar un artículo de Jager y Wellner (ver projecteuclid.org/… ) que extiende / generaliza la estadística de Anderson Darling (e incluye en particular una mayor crítica de Tukey) ...
robin girard

Respuestas:

12

Marca,

La razón principal de la que soy consciente del uso de KS es porque surge naturalmente de los teoremas de Glivenko-Cantelli en procesos empíricos univariados. La única referencia que recomendaría es AWvan der Vaart "Asymptotic Statistics", cap. 19. Una monografía más avanzada es "Convergencia débil y procesos empíricos" de Wellner y van der Vaart.

Añadiría dos notas rápidas:

  1. Otra medida de distancia comúnmente utilizada en distribuciones univariadas es la distancia de Cramer-von Mises, que es una distancia L ^ 2;
  2. en espacios vectoriales generales se emplean diferentes distancias; El espacio de interés en muchos periódicos es polaco. Una muy buena introducción es la "Convergencia de las medidas de probabilidad" de Billingsley.

Pido disculpas si no puedo ser más específico. Espero que esto ayude.

alegre
fuente
2
Dos notas rápidas en tus notas. 1. La distancia C-vM es precisamente la prima L ^ 2 de las distancias Kolmogorov (L ^ infinito) y (univariante) KR (L ^ 1) y, por lo tanto, se interpola entre ellas. 2. Una ventaja que no mencioné de las distancias KR y BL es que se generalizan más naturalmente a espacios de dimensiones superiores.
Mark Meckes
En cuanto a 1., eso es correcto. Con respecto a 2. En principio, todas las distancias anteriores podrían trasladarse a R ^ n, sin embargo, no conozco las pruebas no paramétricas populares basadas en cualquier distancia. Sería interesante saber si hay alguno.
alegre
8

Los problemas computacionales son el argumento más fuerte que he escuchado de una forma u otra. La mayor ventaja de la distancia de Kolmogorov es que es muy fácil de calcular analíticamente para casi cualquier CDF. La mayoría de las otras métricas de distancia no tienen una expresión de forma cerrada, excepto, a veces, en el caso gaussiano.

La distancia de Kolmogorov de una muestra también tiene una distribución de muestreo conocida dada la CDF (no creo que la mayoría de las otras lo haga), lo que termina estando relacionado con el proceso de Wiener. Esta es la base de la prueba de Kolmogorov-Smirnoff para comparar una muestra con una distribución o dos muestras entre sí.

En una nota de análisis más funcional, la norma sup es buena porque (como mencionas) básicamente define la convergencia uniforme. Esto lo deja con la convergencia de la norma, lo que implica una convergencia puntual, por lo que si es inteligente acerca de cómo define sus secuencias de funciones, puede trabajar dentro de un RKHS y utilizar todas las buenas herramientas que también proporciona.

Rico
fuente
8

En resumen , mi respuesta es: si tiene una expresión explícita o puede descubrir de qué manera mide su distancia (qué "diferencias" le da peso), entonces puede decir para qué es mejor. Otra forma complementaria de analizar y comparar dicha prueba es la teoría minimax.

Al final, algunas pruebas serán buenas para algunas alternativas y algunas para otras. Para un conjunto dado de alternativas, en algún momento es posible mostrar si su prueba tiene una propiedad óptima en el peor de los casos: esta es la teoría minimax.


Algunos detalles

Por lo tanto, puede contar sobre las propiedades de dos pruebas diferentes al considerar el conjunto de alternativas para las cuales son mínimas (si existe tal alternativa), es decir (usando la palabra de Donoho y Jin) comparando su "detección óptima óptima" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Déjame ir distancia por distancia:

  1. La distancia KS se obtiene calculando el supremum de diferencia entre cdf empírico y cdf. Al ser un supremos, será muy sensible a las alternativas locales (cambio local en el cdf) pero no con el cambio global (al menos usar la distancia L2 entre cdf sería menos local (¿estoy abriendo una puerta abierta?)). Sin embargo, lo más importante es que utiliza el cdf. Esto implica una asimetría: le das más importancia a los cambios en la cola de tu distribución.

  2. La métrica de wasserteína (¿qué quiso decir con Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric es omnipresente y, por lo tanto, difícil de comparar.

    • Para el caso particular de W2, se ha utilizado en http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 y está relacionado con la distancia L2 al inverso de cdf. Tengo entendido que le da aún más peso a las colas, pero creo que debería leer el periódico para saber más al respecto.
    • Para el caso de la distancia L1 entre la función de densidad, dependerá en gran medida de cómo calcule su función de dentición a partir de los datos ... pero, por lo demás, parece ser una "prueba equilibrada" que no da importancia a las colas.

Para recordar y extender el comentario que hice que completa la respuesta:

Sé que no pretendías ser exhaustivo, pero podrías agregar la estadística de Anderson (ver http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Esto me hizo recordar un artículo de Jager y Wellner (ver http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) que extiende / generaliza la estadística de Anderson (e incluye en particular mayor crítica de Tukey). Ya se demostró que las críticas más altas son mínimas para una amplia gama de alternativas y Jager y Wellner hacen lo mismo para su extensión. No creo que la propiedad minimax se haya demostrado para la prueba de Kolmogorov. De todos modos, comprender para qué tipo de alternativa su prueba es minimax le ayuda a saber dónde está su fortaleza, por lo que debe leer el documento anterior.

robin girard
fuente
1
Sí, lo que llamé la distancia Kantorovitch-Rubinstein también se llama distancia L ^ 1 Wasserstein o W1. También tiene muchos otros nombres.
Mark Meckes
3
Solo para aclarar a cualquiera que no esté familiarizado con las distancias de Wasserstein que lea esto y la respuesta de Gappy: la distancia L ^ 2 Wasserstein (W2) no es la misma que la distancia de Cramer-von Mises.
Mark Meckes
4

FF

FF^

supx|Fn(x)F^(x)|.
F^F^=F
vqv
fuente
3

No puedo darle razones adicionales para usar la prueba de Kolmogorov-Smirnov. Pero, puedo darte una razón importante para no usarlo. No se ajusta bien a la cola de la distribución. En este sentido, una prueba de ajuste de distribución superior es Anderson-Darling. Como segundo mejor, la prueba Chi Square es bastante buena. Ambos se consideran muy superiores a la prueba de KS a este respecto.

Sympa
fuente
2

Desde el punto de vista del análisis funcional y la teoría de la medida, las distancias de tipo no definen conjuntos medibles en espacios de funciones (espacios dimensionales infinitos aditivos contables sueltos en las cubiertas de bolas métricas). Esto descalifica firmemente cualquier tipo de interpretación medible de las distancias de las opciones 2 y 3.Lp

Por supuesto, Kolomogorov, siendo mucho más brillante que cualquiera de nosotros publicando, especialmente incluyéndome a mí, anticipó esto. El bit inteligente es que, si bien la distancia en la prueba KS es de la variedad , la norma uniforme en sí misma no se utiliza para definir los conjuntos medibles. Más bien, los conjuntos son parte de una filtración estocástica sobre las diferencias entre las distribuciones evaluadas a los valores observados; que es equivalente al problema del tiempo de parada.L0

En resumen, la distancia de la norma uniforme de elección 1 es preferible porque la prueba que implica es equivalente al problema del tiempo de parada, que a su vez produce probabilidades computacionalmente manejables. Donde las opciones 2 y 3 no pueden definir subconjuntos de funciones medibles.

Aaron Sheldon
fuente