¿Explicación de abajo a arriba de la distancia de Mahalanobis?

127

Estoy estudiando el reconocimiento de patrones y las estadísticas y casi todos los libros que abro sobre el tema me encuentro con el concepto de distancia de Mahalanobis . Los libros dan una especie de explicaciones intuitivas, pero aún no son lo suficientemente buenas para que yo realmente entienda lo que está sucediendo. Si alguien me preguntara "¿Cuál es la distancia de Mahalanobis?" Solo pude responder: "Es algo agradable, que mide la distancia de algún tipo" :)

Las definiciones generalmente también contienen vectores propios y valores propios, que me cuesta un poco conectar con la distancia de Mahalanobis. Entiendo la definición de vectores propios y valores propios, pero ¿cómo se relacionan con la distancia de Mahalanobis? ¿Tiene algo que ver con cambiar la base en álgebra lineal, etc.?

También he leído estas preguntas anteriores sobre el tema:

También he leído esta explicación .

Las respuestas son buenas y las imágenes son buenas, pero aún así no lo entiendo ... Tengo una idea, pero todavía está en la oscuridad. ¿Alguien puede dar una explicación de "Cómo se lo explicaría a su abuela" para que finalmente pueda terminar esto y nunca más preguntarme qué diablos es una distancia de Mahalanobis? :) ¿De dónde viene, qué, por qué?

ACTUALIZAR:

Aquí hay algo que ayuda a comprender la fórmula de Mahalanobis:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

normal-distribution mathematical-statistics distance pattern-recognition intuition jjepsuomi
fuente

Respuestas:

188

Aquí hay un diagrama de dispersión de algunos datos multivariados (en dos dimensiones):

ingrese la descripción de la imagen aquí

¿Qué podemos hacer con él cuando se dejan los ejes?

ingrese la descripción de la imagen aquí

Introduzca las coordenadas sugeridas por los propios datos.

El origen estará en el centroide de los puntos (el punto de sus promedios). El primer eje de coordenadas (azul en la siguiente figura) se extenderá a lo largo de la "columna vertebral" de los puntos, que (por definición) es cualquier dirección en la que la varianza es mayor. El segundo eje de coordenadas (rojo en la figura) se extenderá perpendicularmente al primero. (En más de dos dimensiones, se elegirá en esa dirección perpendicular en la que la varianza sea lo más grande posible, y así sucesivamente).

ingrese la descripción de la imagen aquí

Necesitamos una escala . La desviación estándar a lo largo de cada eje servirá para establecer las unidades a lo largo de los ejes. Recuerde la regla 68-95-99.7: aproximadamente dos tercios (68%) de los puntos deben estar dentro de una unidad del origen (a lo largo del eje); alrededor del 95% debe estar dentro de dos unidades. Eso hace que sea fácil observar las unidades correctas. Como referencia, esta figura incluye el círculo unitario en estas unidades:

ingrese la descripción de la imagen aquí

Eso realmente no parece un círculo, ¿verdad? Esto se debe a que esta imagen está distorsionada (como lo demuestran los diferentes espacios entre los números en los dos ejes). Redibujémoslo con los ejes en sus orientaciones correctas, de izquierda a derecha y de abajo hacia arriba, y con una relación de aspecto de unidad para que una unidad horizontal realmente sea igual a una unidad verticalmente:

ingrese la descripción de la imagen aquí

Mide la distancia de Mahalanobis en esta imagen en lugar de en la original.

¿Que pasó aquí? Dejamos que los datos nos digan cómo construir un sistema de coordenadas para realizar mediciones en el diagrama de dispersión. Eso es todo lo que es. Aunque teníamos que tomar algunas decisiones en el camino (siempre podíamos revertir uno o ambos ejes; y en situaciones excepcionales las direcciones a lo largo de las "espinas" - las direcciones principales - no son únicas), no cambian las distancias en la trama final.

Comentarios técnicos

(No para la abuela, que probablemente comenzó a perder interés tan pronto como reaparecieron los números en las parcelas, sino para abordar las preguntas restantes que se plantearon).

Los vectores unitarios a lo largo de los nuevos ejes son los vectores propios (de la matriz de covarianza o de su inverso).
Notamos que la distorsión de la elipse para formar un círculo divide la distancia a lo largo de cada vector propio por la desviación estándar: la raíz cuadrada de la covarianza. Dejando soporte para la función de covarianza, la nueva (Mahalanobis) distancia entre dos puntos y es la distancia desde a dividido por la raíz cuadrada de . Las operaciones algebraicas correspondientes, pensando ahora en en términos de su representación como una matriz e en términos de sus representaciones como vectores, se escriben . Esto funciona $C$ $x$ $y$ $x$ $y$ $C(x-y, x-y)$ $C$ $x$ $y$ $\sqrt{(x-y)'C^{-1}(x-y)}$ independientemente de qué base se use para representar vectores y matrices. En particular, esta es la fórmula correcta para la distancia de Mahalanobis en las coordenadas originales.
Las cantidades por las cuales los ejes se expanden en el último paso son los ( autovalores de los ) autovalores de la matriz de covarianza inversa. De manera equivalente, los ejes son reducidos por los (eigenvalores) valores propios de la matriz de covarianza. Por lo tanto, cuanto más se dispersa, más se necesita la contracción para convertir esa elipse en un círculo.
Aunque este procedimiento siempre funciona con cualquier conjunto de datos, se ve bien (la clásica nube en forma de balón de fútbol) para datos que son aproximadamente multivariados Normal. En otros casos, el punto de los promedios podría no ser una buena representación del centro de los datos o las "espinas" (tendencias generales en los datos) no se identificarán con precisión utilizando la varianza como medida de propagación.
El desplazamiento del origen de coordenadas, la rotación y la expansión de los ejes forman colectivamente una transformación afín. Además de ese cambio inicial, este es un cambio de base del original (usando vectores unitarios que apuntan en las direcciones de coordenadas positivas) al nuevo (usando una selección de vectores propios unitarios).
Existe una fuerte conexión con el Análisis de componentes principales (PCA) . Eso solo explica en gran medida las preguntas de "de dónde viene" y "por qué", si no estaba convencido por la elegancia y la utilidad de dejar que los datos determinen las coordenadas que utiliza para describirlos y medir sus diferencias
Para distribuciones normales multivariadas (donde podemos llevar a cabo la misma construcción usando propiedades de la densidad de probabilidad en lugar de las propiedades análogas de la nube de puntos), la distancia de Mahalanobis (al nuevo origen) aparece en lugar de la " " en la expresión que caracteriza la densidad de probabilidad de la distribución Normal estándar. Por lo tanto, en las nuevas coordenadas, una distribución normal multivariante se ve normal Normal $x$ $\exp(-\frac{1}{2} x^2)$ cuando se proyecta en cualquier línea a través del origen. En particular, es Normal normal en cada una de las nuevas coordenadas. Desde este punto de vista, el único sentido sustancial en el que las distribuciones normales multivariadas difieren entre sí es en términos de cuántas dimensiones usan. (Tenga en cuenta que este número de dimensiones puede ser, y a veces es, menor que el número nominal de dimensiones).

whuber
fuente

3

Si alguien tiene curiosidad, una transformación afín es "es una transformación que preserva las líneas rectas ... y las relaciones de distancias entre puntos que se encuentran en una línea recta". (@whuber, no sé si es posible que desee agregar algo como esto en el punto con viñetas.)

Gung

@gung Mi mención de las transformaciones afines es seguida inmediatamente por una caracterización de ellas: una traducción seguida de un cambio de base. Elegí este idioma porque es el mismo utilizado en la pregunta. (Tenemos que tomar el "cambio de base" de manera un tanto liberal para abarcar las transformaciones lineales no invertibles: ese es un tema importante para PCA, que efectivamente elimina algunos de los elementos básicos.)

whuber

13

@whuber, tu explicación es probablemente la mejor que he visto. Por lo general, cuando esto se explica, se cubre de manera muy abstracta cuando mencionan elipsoides y esferas, y no muestran lo que significan. Felicitaciones a usted por demostrar cómo la transformación del eje transforma la distribución de datos en una "esfera" para que la distancia pueda ser "vista" como múltiples del SD de los datos de la media de los datos, como es fácilmente el caso para unidimensional datos. En mi opinión, esta visualización es clave, y desafortunadamente no se incluye en la mayoría de las discusiones sobre el tema. Buen trabajo --- sus explicaciones

¿Hay una PCA robusta? ¿Una variación que nos permite descartar puntos de datos atípicos al observar el tamaño de la matriz de covarianza?

EngrStudent

@Engr Claro: cualquier estimación sólida de la matriz de covarianza conduciría a una PCA sólida. Existen otros métodos directos, como lo indican las referencias a ellos en respuestas a preguntas sobre PCA robusto .

whuber

37

Mi abuela cocina. El tuyo también. Cocinar es una forma deliciosa de enseñar estadísticas.

¡Las galletas Habanero de calabaza son increíbles! Piensa en lo maravillosos que pueden ser la canela y el jengibre en los dulces navideños, luego date cuenta de lo calientes que están solos.

Los ingredientes son:

chiles habaneros (10, sin semillas y finamente picados)
azúcar (1.5 tazas)
mantequilla (1 taza)
extracto de vainilla (1 cucharadita)
huevos (2 medianos)
harina (2.75 tazas)
bicarbonato de sodio (1 cucharadita)
sal (1 cucharadita)

Imagine que sus ejes de coordenadas para su dominio son los volúmenes de ingredientes. Azúcar. Harina. Sal. Bicarbonato de sodio. La variación a lo largo de esas direcciones, siendo todo lo demás igual, no tiene casi el impacto en la calidad del sabor como la variación en el recuento de chiles habaneros. Un cambio del 10% en la harina o la mantequilla lo hará menos excelente, pero no mortal. Agregar solo una pequeña cantidad más de habanero lo derribará por un acantilado de sabor desde el postre adictivo hasta el concurso de dolor a base de testosterona.

Mahalanobis no está tan lejos en "volúmenes de ingredientes" como en la distancia del "mejor sabor". Los ingredientes realmente "potentes", muy sensibles a la variación, son los que debe controlar con más cuidado.

Si piensa en alguna distribución gaussiana versus la distribución normal estándar , ¿cuál es la diferencia? Centro y escala basados en tendencia central (media) y tendencia de variación (desviación estándar). Uno es la transformación de coordenadas del otro. Mahalanobis es esa transformación. Le muestra cómo se vería el mundo si su distribución de intereses se volviera a emitir como un estándar normal en lugar de un gaussiano.

Estudiante
fuente

44

Las distribuciones gaussianas son distribuciones normales, entonces, ¿qué distinción estás tratando de hacer en tu último párrafo?

whuber

1

@Whuber - estándar. Quise decir estándar. Pensé que lo dije. Debería verificar el historial de edición. Las siguientes oraciones repiten el pensamiento principal.

EngrStudent

2

¿Qué quiere decir con " la distribución gaussiana"?

whuber

1

¿Mejor? Podría ser una distribución gaussiana con cualquier media y varianza, pero la transformación se asigna a la normal estándar restando la media y escalando por la desviación estándar.

EngrStudent

44

Sí, ahora está más claro. Sin embargo, estoy desconcertado por qué usa dos términos (gaussiano y normal) para referirse a la misma cosa, pero eso está bien ahora que lo ha explicado. También estoy un poco confundido acerca de su último reclamo, que parece decir que cada distribución multivariada se puede convertir en una Normal estándar (que según la definición a la que se vincula es univariante ): Creo que quiere decir que se puede hacer que parezca estándar Normal en cada componente. De todos modos, la analogía con la que comienzas es agradable.

whuber

10

Como punto de partida, vería la distancia de Mahalanobis como una deformación adecuada de la distancia euclidiana habitual entre los vectores e en . La pieza adicional de información aquí es que e son realmente al azar vectores, es decir, 2 realizaciones diferentes de un vector de variables aleatorias, que yacen en el fondo de nuestra discusión. La pregunta que el Mahalanobis intenta abordar es la siguiente: $d(x,y)=\sqrt{\langle x,y \rangle}$ $x$ $y$ $\mathbb R^{n}$ $x$ $y$ $X$

"¿Cómo puedo medir la" disparidad "entre e , sabiendo que son la realización de la misma variable aleatoria multivariada?" $x$ $y$

Claramente, la disimilitud de cualquier realización consigo mismo debería ser igual a 0; Además, la diferencia debe ser una función simétrica de las realizaciones y debe reflejar la existencia de un proceso aleatorio en el fondo. Este último aspecto se tiene en cuenta al introducir la matriz de covarianza de la variable aleatoria multivariada. $x$ $C$

Recopilando las ideas anteriores, llegamos de forma bastante natural a

D (x, y) = \sqrt{(x - y) C^{- 1} (x - y)}

$D(x,y)=\sqrt{(x-y)\,C^{-1}(x-y)}$

Si los componentes de la variable aleatoria multivariante no están correlacionados, con, por ejemplo, ("normalizamos" los para tener ), entonces la distancia Mahalanobis es la distancia euclidiana entre e . En presencia de correlaciones no triviales, la matriz de correlación (estimada) "deforma" la distancia euclidiana. $X_i$ $X=(X_1,\dots,X_n)$ $C_{ij}=\delta_{ij}$ $X_i$ $Var(X_i)=1$ $D(x,y)$ $x$ $y$ $C(x,y)$

Avitus
fuente

9

Consideremos el caso de las dos variables. Al ver esta imagen de bivariada normal (gracias @whuber), no puede simplemente afirmar que AB es más grande que AC. Hay una covarianza positiva; Las dos variables están relacionadas entre sí.

Puede aplicar mediciones euclidianas simples (líneas rectas como AB y AC) solo si las variables son

independiente
tener variaciones iguales a 1.

Esencialmente, la medida de distancia de Mahalanobis hace lo siguiente: transforma las variables en variables no correlacionadas con varianzas iguales a 1, y luego calcula la distancia euclidiana simple.

den2042
fuente

1

¿Está sugiriendo que cada vez que veo una correlación en un gráfico como se muestra en su respuesta aquí, solo debería pensar en calcular Mahalanobis en lugar de la distancia euclidiana? ¿Qué me diría cuándo usar cuál?

sandyp

7

Trataré de explicarte lo más simple posible:

La distancia de Mahalanobis mide la distancia de un punto x desde una distribución de datos. La distribución de datos se caracteriza por una media y la matriz de covarianza, por lo tanto, se hipotetiza como un gaussiano multivariado.

Se utiliza en el reconocimiento de patrones como medida de similitud entre el patrón (distribución de datos del ejemplo de entrenamiento de una clase) y el ejemplo de prueba. La matriz de covarianza da la forma de cómo se distribuyen los datos en el espacio de características.

La figura indica tres clases diferentes y la línea roja indica la misma distancia de Mahalanobis para cada clase. Todos los puntos que se encuentran en la línea roja tienen la misma distancia de la media de la clase, porque se usa la matriz de covarianza.

La figura indica tres clases diferentes y la línea roja indica la misma distancia de Mahalanobis para cada clase. Todos los puntos que se encuentran en la línea roja tienen la misma distancia de la media de la clase, porque se usa la matriz de covarianza.

La característica clave es el uso de la covarianza como factor de normalización.

robbisg
fuente

6

Me gustaría agregar un poco de información técnica a la excelente respuesta de Whuber. Es posible que esta información no le interese a la abuela, pero quizás a su nieto le resulte útil. La siguiente es una explicación de abajo hacia arriba del álgebra lineal relevante.

$d(x,y)=\sqrt{(x-y)^T\Sigma^{-1}(x-y)}$ $\Sigma$ $\Sigma$ $\Sigma$ $\Sigma=Q^TDQ$ $\Sigma^{-1}=QD^{-\frac{1}{2}}D^{-\frac{1}{2}}Q^T$ $d(x,y)=\sqrt{\left[(x-y)^TQ\right]D^{-\frac{1}{2}}D^{-\frac{1}{2}}\left[Q^T(x-y)\right]}=\sqrt{z^Tz}$ $Q$ $(x-y)$ $D^{-\frac{1}{2}}$ $D^{-\frac{1}{2}}$ $D^{-1}$ $z^Tz$

Sycorax
fuente

5

Podría llegar un poco tarde para responder esta pregunta. Este documento aquí es un buen comienzo para comprender la distancia de Mahalanobis. Proporcionan un ejemplo completo con valores numéricos. Lo que me gusta es la representación geométrica del problema que se presenta.

CroCo
fuente

4

Solo para agregar a las excelentes explicaciones anteriores, la distancia de Mahalanobis surge naturalmente en la regresión lineal (multivariada). Esta es una consecuencia simple de algunas de las conexiones entre la distancia de Mahalanobis y la distribución gaussiana discutidas en las otras respuestas, pero creo que vale la pena explicarlas de todos modos.

$(x_1, y_1), \ldots, (x_N, y_N)$ $x_i \in \mathbb{R}^n$ $y_i \in \mathbb{R}^m$ $\beta_0 \in \mathbb{R}^m$ $\beta_1 \in \mathbb{R}^{m \times n}$ $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\epsilon_1, \ldots, \epsilon_N$ $m$ $0$ $C$ $x_i$ $y_i$ $x_i$ $\beta_0 + \beta_1 x_i$ $C$

$y_i$ $x_i$ $\beta = (\beta_0, \beta_1)$

- \log p (y_{i} ∣ x_{i}; β) = \frac{m}{2} \log (2 π det C) + \frac{1}{2} (y_{i} - (β_{0} + β_{1} x_{i}))^{⊤} C^{- 1} (y_{i} - (β_{0} + β x_{i})) .

$\begin{equation} -\log p(y_i \mid x_i; \beta) = \frac{m}{2} \log (2\pi\det C) + \frac{1}{2} (y_i - (\beta_0 + \beta_1 x_i))^\top C^{-1} (y_i - (\beta_0 + \beta x_i)). \end{equation}$

C

$C$

{argmin}_{β} [- \log p (y_{i} ∣ x_{i}; β)] = {argmin}_{β} D_{C} (β_{0} + β_{1} x_{i}, y_{i}),

$\begin{equation} \operatorname{argmin}_\beta [-\log p(y_i \mid x_i; \beta)] = \operatorname{argmin}_\beta D_C(\beta_0 + \beta_1 x_i, y_i), \end{equation}$

D_{C} (\hat{y}, y) = \sqrt{(y - \hat{y})^{⊤} C^{- 1} (y - \hat{y})}

$\begin{equation} D_C(\hat y, y) = \sqrt{(y - \hat y)^\top C^{-1} (y - \hat y)} \end{equation}$

\hat{y}, y \in R^{m}

$\hat y, y \in \mathbb{R}^m$

Por independencia, el log-verosimilitud de dado viene dado por la suma Por lo tanto, donde el factor no afecta a los argmin. $\log p({\bf y} \mid {\bf x}; \beta)$ ${\bf y} = (y_1, \ldots, y_N)$ ${\bf x} = (x_1, \ldots, x_N)$

\log p (y ∣ x; β) = \sum_{i = 1}^{N} \log p (y_{i} ∣ x_{i}; β)

$\begin{equation} \log p({\bf y} \mid {\bf x}; \beta) = \sum_{i=1}^N \log p(y_i \mid x_i; \beta) \end{equation}$

{argmin}_{β} [- \log p (y ∣ x; β)] = {argmin}_{β} \frac{1}{N} \sum_{i = 1}^{N} D_{C} (β_{0} + β_{1} x_{i}, y_{i}),

$\begin{equation} \operatorname{argmin}_\beta [-\log p({\bf y} \mid {\bf x}; \beta)] = \operatorname{argmin}_\beta \frac{1}{N} \sum_{i=1}^N D_C(\beta_0 + \beta_1 x_i, y_i), \end{equation}$

1 / N

$1/N$

En resumen, los coeficientes que minimizan la probabilidad logarítmica negativa (es decir, maximizan la probabilidad) de los datos observados también minimizan el riesgo empírico de los datos con la función de pérdida dada por la distancia de Mahalanobis. $\beta_0, \beta_1$

Ben CW
fuente

1

Bueno, no del todo. El término correspondiente a cambia las cosas bastante. Y parece que se ha centrado en la otra dimensión: la distancia de Mahalanobis en realidad juega un papel mucho más importante en el espacio dimensional atravesado por las columnas, porque eso está relacionado con el apalancamiento. Sin embargo, es probable que los lectores se confundan debido a la inversión de los roles de y en su notación: ¡ es el vector de parámetros y la matriz de diseño!

\log det C

$\log\det C$

n

$n$

x

$x$

β

$\beta$

x

$x$

β

$\beta$

whuber

Mi intención era que aquí denotara un solo ejemplo de entrenamiento etiquetado (así que no hay matriz de diseño aquí); la razón por la cual es un vector es porque estoy haciendo una regresión multivariada (de lo contrario, el término de ruido sería una Gaussiana de variable única, no habría matriz de covarianza, y el ejemplo podría parecer demasiado trivial). Quizás mi notación no es estándar, ya que mi experiencia no está en las estadísticas. Con respecto a la presencia del término , lo que quise decir es que .

(x, y)

$(x, y)$

y

$y$

ϵ

$\epsilon$

\log det C

$\log\det C$

{a r g m i n}_{β} [- \log p (y ∣ x; β)] = {a r g m i n}_{β} \sqrt{(y - β x)^{⊤} C^{- 1} (y - β x)}

$\rm{argmin}_\beta [-\log p(y \mid x; \beta)] = \rm{argmin}_\beta \sqrt{(y - \beta x)^\top C^{-1} (y - \beta x)}$

Ben CW

Es importante explicar a qué se refieren sus símbolos en lugar de requerir que los lectores adivinen. Es muy probable que su explicación sea buena, pero sin esa explicación (que comenzó con el último comentario) sospecho que la mayoría de los lectores tendrán problemas para comprender su significado.

whuber

2

Entiendo tu argumento. He editado la respuesta original para incorporar algunas de las ideas en estos comentarios.

Ben CW

2

La distancia de Mahalanobis es una distancia euclidiana (distancia natural) que tiene en cuenta la covarianza de los datos. Da un mayor peso al componente ruidoso y, por lo tanto, es muy útil para verificar la similitud entre dos conjuntos de datos.

Como puede ver en su ejemplo aquí cuando las variables están correlacionadas, la distribución se desplaza en una dirección. Es posible que desee eliminar estos efectos. Si tiene en cuenta la correlación en su distancia, puede eliminar el efecto de cambio.

lcrmorin
fuente

2

Creo que la distancia de Mahalanobis efectivamente sobrepasa las direcciones de covarianza grande, en lugar de dar pesos "más grandes" allí.

whuber