La pregunta está más o menos contenida en el título. ¿Cuál es la distancia de Mahalanobis para dos distribuciones de diferentes matrices de covarianza? Lo que he encontrado hasta ahora supone la misma covarianza para ambas distribuciones, es decir, algo de este tipo:
¿Qué pasa si tengo dos s diferentes ?
Nota: - El problema es este: hay dos distribuciones bivariadas que tienen las mismas dimensiones pero que se rotan y traducen entre sí (lo siento, vengo de un fondo matemático puro, no estadístico). Necesito medir su grado de superposición / distancia.
* Actualización: * Lo que podría o no estar implícito en lo que pregunto es que necesito una distancia entre los medios de las dos distribuciones. Yo sé que los medios son, pero ya que las dos distribuciones se rotan una respecto a la otra, lo que necesito para asignar diferentes pesos a diferentes orientaciones y por lo tanto un simple distancia euclídea entre los medios no funciona. Ahora, como lo he entendido, la distancia de Mahalanobis no se puede usar para medir esta información si las distribuciones tienen una forma diferente (aparentemente funciona con dos distribuciones normales multivariadas de covarianzas idénticas, pero no en el caso general). ¿Existe una buena medida que codifique este deseo de codificar orientaciones con diferentes pesos?
fuente
Respuestas:
Hay muchas nociones de distancia entre las distribuciones de probabilidad. Cuál usar depende de tus objetivos. La distancia de variación total es una forma natural de medir la superposición entre distribuciones. Si está trabajando con normales multivariantes, la divergencia Kullback-Leibler es matemáticamente conveniente. Aunque en realidad no es una distancia (ya que no puede ser simétrica y no obedece a la desigualdad del triángulo), limita la distancia de variación total (ver Desigualdad de Pinsker) .
fuente
Introducción Como @vqv mencionó La variación total y Kullback Leibler son dos distancias interesantes. El primero es significativo porque puede estar directamente relacionado con los errores de primer y segundo tipo en las pruebas de hipótesis. El problema con la distancia de variación total es que puede ser difícil de calcular. La distancia de Kullback Leibler es más fácil de calcular y lo abordaré más adelante. No es simétrico, pero puede hacerse simétrico (de alguna manera artificial).
Respuesta Algo que menciono aquí es que si es la razón de probabilidad logarítmica entre sus dos medidas gaussianas P 0 , P 1 (digamos que para i = 0 , 1 P i tiene una medida de error media μ i y covarianza C i ) que también se cruza (en el caso gaussiano lo encontré bastante central en realidad) esL P0,P1 i=0,1 Pi μi Ci
para un bien elegido .P1/2
En palabras simples :
Déjeme explicar por qué esto es mi sentimiento, cómo se puede calcular esto en el caso de y cómo elegir P 1 / 2 .C1≠C0 P1/2
Caso lineal Si .C1=C0=Σ
donde es el "Interpolar" entre P 1 y P 0 (gaussiana con covarianza Σ y media ( μ 1 + μ 0 ) / 2 ). Tenga en cuenta que en este caso, la distancia de Hellinger, la distancia de variación total se puede escribir usando σ .P1/2 P1 P0 Σ (μ1+μ0)/2 σ
Cómo calcular en el caso generalL Una pregunta natural que surge de su pregunta (y la mía ) es qué es una "interpolación" natural entre y P 0 cuando C 1 ≠ C 0 . Aquí, la palabra natural puede ser específico de usuario, pero por ejemplo puede estar relacionado con la mejor interpolación de tener un límite superior ajustado con otra distancia (por ejemplo, L 1 distancia aquí )P1 P0 C1≠C0 L1
Escribiendo (i=0,j=1) puede ayudar a ver dónde está la tarea de interpolación, pero:
con
y
es más relevante para fines computacionales. Para cualquier gaussiano con media y covarianza el cálculo de de la ecuación es un poco técnico pero faisible. También puede usarlo para calcular la distancia del leulizador Kulback. s 01 C ‖ L ‖ 2 L 2 ( P 1 / 2 ) 1PAGS1 / 2 s01 C ∥ L ∥2L2( P1 / 2) 1
Qué interpolación deberíamos elegir (es decir, cómo elegir )PAGS1 / 2
Se entiende claramente de la Ecuación que hay muchos candidatos diferentes para (interpolar) en el caso "cuadrático". Los dos candidatos que encontré "más naturales" (subjetivos :)) surgen de definir para una distribución gaussiana con media :1 PAGS1 / 2 t ∈ [ 0 , 1 ] PAGSt t μ1+ ( 1 - t ) μ0 0
EDITAR: El que propone en un comentario a su pregunta podría ser , por qué no ...Ct , 5= Ct1C1 - t0 0
Tengo mi opción favorita, que no es la primera :) no tengo mucho tiempo para discutir eso aquí. Tal vez edite esta respuesta más tarde ...
fuente
Esto es antiguo, pero para otros que están leyendo esto, la matriz de covarianza refleja la rotación de las distribuciones gaussianas y la media refleja la traducción o la posición central de la distribución. Para evaluar la distancia mahab, es simplemente D = ((m2-m1) * inv ((C1 + C2) / 2) * (m2-m1) '). Ahora, si sospecha que las dos distribuciones bivariadas son iguales, pero sospecha que se han rotado, calcule los dos pares de vectores propios y valores propios para cada distribución. Los vectores propios apuntan en la dirección de la propagación de los datos bivariados a lo largo de los ejes mayor y menor, y los valores propios indican la longitud de esta expansión. Si los valores propios son los mismos, entonces las dos distribuciones son las mismas pero rotadas. Tome el producto puntual entre los vectores propios para obtener el ángulo de rotación.
fuente