Distancia de Mahalanobis en datos no normales

8

La distancia de Mahalanobis, cuando se usa con fines de clasificación, generalmente asume una distribución normal multivariada, y las distancias desde el centroide deberían seguir un χ2distribución (con grados de libertad igual al número de dimensiones / características). Podemos calcular la probabilidad de que un nuevo punto de datos pertenezca al conjunto utilizando su distancia de Mahalanobis.re

Tengo conjuntos de datos que no siguen una distribución normal multivariante ( ). En teoría, cada característica debe seguir una distribución de Poisson, y empíricamente este parece ser el caso de muchas características ( ), y aquellas que no están en el ruido y pueden eliminarse del análisis. ¿Cómo puedo clasificar nuevos puntos en estos datos?re1000200

Supongo que hay dos componentes:

  1. ¿Cuál es una fórmula apropiada de "distancia de Mahalanobis" en estos datos (es decir, distribución multivariada de Poisson)? ¿Existe una generalización de la distancia a otras distribuciones?
  2. Ya sea que use la distancia normal de Mahalanobis u otra formulación, ¿cuál debería ser la distribución de estas distancias? ¿Hay una manera diferente de hacer la prueba de hipótesis?

Alternativamente...

El número de puntos de datos conocidos en cada clase varía ampliamente, desde (muy pocos; determinaré un mínimo empíricamente) a alrededor de . La distancia de Mahalanobis se escala con , por lo que las distancias de un modelo / clase a la siguiente no se pueden comparar directamente. Cuando los datos se distribuyen normalmente, la prueba de ji cuadrado proporciona una forma de comparar distancias de diferentes modelos (además de proporcionar valores críticos o probabilidades). Si hay otra forma de comparar directamente las distancias "al estilo Mahalanobis", incluso si no proporciona probabilidades, podría trabajar con eso.nortenorte=1norte=6000norte

jmilloy
fuente

Respuestas:

6

Es posible que desee consultar Karlis y Meligkotsidou, "Regresión de Poisson multivariante con estructura de covarianza". 2005. Este artículo trata sobre los intentos de los autores de modelar variables de Poisson multivariadas, que reconocen como una tarea difícil.

El uso de la distancia de Mahalanobis implica que la inferencia se puede hacer a través de la media y la matriz de covarianza, y esa es una propiedad de la distribución normal sola. Si usa el MD en sus datos, básicamente está fingiendo que son normales.

Placidia
fuente
Pensé que también mencionaría a Tiku, et al, "Distancia de Mahalanobis bajo la no normalidad", 2010 (que estoy esperando) y Ekstrom, "Distancia de Mahalanobis más allá de las distribuciones normales", 2011 (que no me ayudó pero podría ayudar alguien más me ayude).
jmilloy