Correlación de distancia versus información mutua

15

He trabajado con la información mutua por algún tiempo. Pero encontré una medida muy reciente en el "mundo de correlación" que también se puede usar para medir la independencia de distribución, la llamada "correlación de distancia" (también denominada correlación browniana): http://en.wikipedia.org/wiki/Brownian_covariance . Revisé los documentos donde se introduce esta medida, pero sin encontrar ninguna alusión a la información mutua.

Entonces, mis preguntas son:

  • ¿Resuelven exactamente el mismo problema? Si no, ¿cómo son diferentes los problemas?
  • Y si la pregunta anterior se puede responder de manera positiva, ¿cuáles son las ventajas de usar uno u otro?
dsign
fuente
Intente escribir explícitamente 'correlación de distancia' e 'información mutua' para un ejemplo simple. En el segundo caso obtendrás logaritmos, mientras que en el primero, no.
Piotr Migdal
@PiotrMigdal Sí, soy consciente de esa diferencia. ¿Podría explicar por qué es importante? Por favor, tome en cuenta que no soy un experto en estadística ...
DSIGN
Para ma, una herramienta estándar que mide la dependencia mutua de las distribuciones de probabilidad es la información mutua. Tiene muchas propiedades agradables y su interpretación es sencilla. Sin embargo, puede haber problemas específicos donde se prefiere la correlación de distancia (pero nunca la he usado en mi vida). Entonces, ¿cuál es el problema que estás tratando de resolver?
Piotr Migdal
2
Este comentario lleva unos años de retraso, pero el Departamento de Estadística de la Universidad de Columbia convirtió el año académico 2013-2014 en un año de enfoque en las medidas de dependencia. En abril-mayo de 2014, se celebró un taller que reunió a los mejores académicos que trabajan en este campo, incluidos los Hermanos Reshef (MIC), Gabor Szekely (correlaciones de distancia), Subhadeep Mukhopadhay, por nombrar algunos. Aquí hay un enlace al programa que incluye muchos archivos PDF de las presentaciones. dependencia2013.wikischolars.columbia.edu/…
Mike Hunter

Respuestas:

9

La información / información mutua no depende de los valores posibles, depende solo de las probabilidades, por lo tanto, es menos sensible. La correlación de distancia es más poderosa y más simple de calcular. Para una comparación ver

http://www-stat.stanford.edu/~tibs/reshef/comment.pdf

gabor J Szekely
fuente
2
¡Hola, gracias por su respuesta! El documento al que se refiere es sobre MIC, que creo que es un poco más que MI. He implementado la medida de correlación de distancia y no creo que sea más simple que el IM para el caso elemental de variables categóricas discretas. Por otra parte, una cosa que aprendí es que DCM está bien definido y se comporta bien para las variables continuas, pero con MI necesitas hacer binning o cosas sofisticadas como MIC.
dsign
3
Sin embargo, DCM parece necesitar matrices cuadradas cuyo lado es el número de muestras. En otras palabras, la complejidad del espacio se escala cuadráticamente. O al menos esa es mi impresión, me gustaría estar en un error. MIC funciona mejor, porque puede ajustarlo en algún tipo de compromiso entre precisión y rendimiento.
dsign