Hay muchas formas de medir cuán similares son las dos distribuciones de probabilidad. Entre los métodos que son populares (en diferentes círculos) están:
la distancia de Kolmogorov: la distancia superior entre las funciones de distribución;
la distancia de Kantorovich-Rubinstein: la diferencia máxima entre las expectativas de las dos distribuciones de funciones con la constante Lipschitz , que también resulta ser la distancia entre las funciones de distribución;
la distancia de Lipschitz acotada: como la distancia KR pero también se requiere que las funciones tengan un valor absoluto como máximo .
Estos tienen diferentes ventajas y desventajas. Solamente la convergencia en el sentido de 3. en realidad corresponde precisamente a la convergencia en la distribución; La convergencia en el sentido de 1. o 2. es ligeramente más fuerte en general. (En particular, si con probabilidad, luegoconverge aen distribución, pero no en la distancia de Kolmogorov. Sin embargo, si la distribución límite es continua, entonces esta patología no ocurre).
Desde la perspectiva de la probabilidad elemental o la teoría de la medida, 1. es muy natural porque compara las probabilidades de estar en algún conjunto. Una perspectiva probabilística más sofisticada, por otro lado, tiende a centrarse más en las expectativas que en las probabilidades. Además, desde la perspectiva del análisis funcional, las distancias como 2. o 3. basadas en la dualidad con algún espacio de funciones son muy atractivas, porque hay un gran conjunto de herramientas matemáticas para trabajar con tales cosas.
Sin embargo, mi impresión (¡corríjame si me equivoco!) Es que en las estadísticas, la distancia de Kolmogorov es la forma generalmente preferida de medir la similitud de las distribuciones. Puedo adivinar una razón: si una de las distribuciones es discreta con soporte finito, en particular, si es la distribución de algunos datos del mundo real, entonces la distancia de Kolmogorov a una distribución modelo es fácil de calcular. (La distancia KR sería un poco más difícil de calcular, y la distancia BL probablemente sería imposible en términos prácticos).
Entonces mi pregunta (finalmente) es, ¿hay otras razones, ya sean prácticas o teóricas, para favorecer la distancia de Kolmogorov (o alguna otra distancia) con fines estadísticos?
Respuestas:
Marca,
La razón principal de la que soy consciente del uso de KS es porque surge naturalmente de los teoremas de Glivenko-Cantelli en procesos empíricos univariados. La única referencia que recomendaría es AWvan der Vaart "Asymptotic Statistics", cap. 19. Una monografía más avanzada es "Convergencia débil y procesos empíricos" de Wellner y van der Vaart.
Añadiría dos notas rápidas:
Pido disculpas si no puedo ser más específico. Espero que esto ayude.
fuente
Los problemas computacionales son el argumento más fuerte que he escuchado de una forma u otra. La mayor ventaja de la distancia de Kolmogorov es que es muy fácil de calcular analíticamente para casi cualquier CDF. La mayoría de las otras métricas de distancia no tienen una expresión de forma cerrada, excepto, a veces, en el caso gaussiano.
La distancia de Kolmogorov de una muestra también tiene una distribución de muestreo conocida dada la CDF (no creo que la mayoría de las otras lo haga), lo que termina estando relacionado con el proceso de Wiener. Esta es la base de la prueba de Kolmogorov-Smirnoff para comparar una muestra con una distribución o dos muestras entre sí.
En una nota de análisis más funcional, la norma sup es buena porque (como mencionas) básicamente define la convergencia uniforme. Esto lo deja con la convergencia de la norma, lo que implica una convergencia puntual, por lo que si es inteligente acerca de cómo define sus secuencias de funciones, puede trabajar dentro de un RKHS y utilizar todas las buenas herramientas que también proporciona.
fuente
En resumen , mi respuesta es: si tiene una expresión explícita o puede descubrir de qué manera mide su distancia (qué "diferencias" le da peso), entonces puede decir para qué es mejor. Otra forma complementaria de analizar y comparar dicha prueba es la teoría minimax.
Al final, algunas pruebas serán buenas para algunas alternativas y algunas para otras. Para un conjunto dado de alternativas, en algún momento es posible mostrar si su prueba tiene una propiedad óptima en el peor de los casos: esta es la teoría minimax.
Algunos detalles
Por lo tanto, puede contar sobre las propiedades de dos pruebas diferentes al considerar el conjunto de alternativas para las cuales son mínimas (si existe tal alternativa), es decir (usando la palabra de Donoho y Jin) comparando su "detección óptima óptima" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .
Déjame ir distancia por distancia:
La distancia KS se obtiene calculando el supremum de diferencia entre cdf empírico y cdf. Al ser un supremos, será muy sensible a las alternativas locales (cambio local en el cdf) pero no con el cambio global (al menos usar la distancia L2 entre cdf sería menos local (¿estoy abriendo una puerta abierta?)). Sin embargo, lo más importante es que utiliza el cdf. Esto implica una asimetría: le das más importancia a los cambios en la cola de tu distribución.
La métrica de wasserteína (¿qué quiso decir con Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric es omnipresente y, por lo tanto, difícil de comparar.
Para recordar y extender el comentario que hice que completa la respuesta:
Sé que no pretendías ser exhaustivo, pero podrías agregar la estadística de Anderson (ver http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Esto me hizo recordar un artículo de Jager y Wellner (ver http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) que extiende / generaliza la estadística de Anderson (e incluye en particular mayor crítica de Tukey). Ya se demostró que las críticas más altas son mínimas para una amplia gama de alternativas y Jager y Wellner hacen lo mismo para su extensión. No creo que la propiedad minimax se haya demostrado para la prueba de Kolmogorov. De todos modos, comprender para qué tipo de alternativa su prueba es minimax le ayuda a saber dónde está su fortaleza, por lo que debe leer el documento anterior.
fuente
fuente
No puedo darle razones adicionales para usar la prueba de Kolmogorov-Smirnov. Pero, puedo darte una razón importante para no usarlo. No se ajusta bien a la cola de la distribución. En este sentido, una prueba de ajuste de distribución superior es Anderson-Darling. Como segundo mejor, la prueba Chi Square es bastante buena. Ambos se consideran muy superiores a la prueba de KS a este respecto.
fuente
Desde el punto de vista del análisis funcional y la teoría de la medida, las distancias de tipo no definen conjuntos medibles en espacios de funciones (espacios dimensionales infinitos aditivos contables sueltos en las cubiertas de bolas métricas). Esto descalifica firmemente cualquier tipo de interpretación medible de las distancias de las opciones 2 y 3.Lp
Por supuesto, Kolomogorov, siendo mucho más brillante que cualquiera de nosotros publicando, especialmente incluyéndome a mí, anticipó esto. El bit inteligente es que, si bien la distancia en la prueba KS es de la variedad , la norma uniforme en sí misma no se utiliza para definir los conjuntos medibles. Más bien, los conjuntos son parte de una filtración estocástica sobre las diferencias entre las distribuciones evaluadas a los valores observados; que es equivalente al problema del tiempo de parada.L0
En resumen, la distancia de la norma uniforme de elección 1 es preferible porque la prueba que implica es equivalente al problema del tiempo de parada, que a su vez produce probabilidades computacionalmente manejables. Donde las opciones 2 y 3 no pueden definir subconjuntos de funciones medibles.
fuente