¿Se puede explicar intuitivamente el algoritmo MIC para detectar correlaciones no lineales?

20

Más recientemente, leí dos artículos. El primero trata sobre el historial de la correlación y el segundo trata sobre el nuevo método llamado Coeficiente de información máximo (MIC). Necesito su ayuda para comprender el método MIC para estimar correlaciones no lineales entre variables.

Además, las instrucciones para su uso en R se pueden encontrar en el sitio web del autor (en Descargas ):

Espero que esta sea una buena plataforma para discutir y comprender este método. Mi interés en discutir una intuición detrás de este método y cómo se puede extender como dijo el autor.

" ... necesitamos extensiones de MIC (X, Y) a MIC (X, Y | Z). Queremos saber cuántos datos se necesitan para obtener estimaciones estables de MIC, qué tan susceptible es a valores atípicos, qué tres - o las relaciones de dimensiones superiores se perderá, y más. MIC es un gran paso adelante, pero hay muchos más pasos a seguir " .

Biostat
fuente
La pregunta es interesante, pero creo que no tiene respuesta. ¿Puedes por favor hacerlo más específico?
mpiktas
3
La discusión se verá obstaculizada por el hecho de que el artículo en Science no es de acceso abierto.
Itamar
77
Aquí hay una copia del artículo liberado por uno de los autores.
10
En resumen, MIC es una excavación de la vieja idea de "trazar-todos-diagramas de dispersión-y-pico-aquellos-con-mayor-área-blanca", por lo que produce principalmente falsos positivos, tiene una complejidad irreal de (que los autores ocultan detrás de la prueba heurística de solo pares seleccionados aleatoriamente) y, por diseño, pierde las interacciones de tres y más variables. O(METRO2)
44
Para obtener detalles técnicos sobre el MIC, el material de soporte en línea es más informativo que el artículo en sí.
res

Respuestas:

22

¿No es revelador que esto haya sido publicado en una revista no estadística de cuya revisión estadística no estamos seguros? Este problema fue resuelto por Hoeffding en 1948 (Annals of Mathematical Statistics 19: 546) quien desarrolló un algoritmo directo que no requiere binning ni pasos múltiples. El trabajo de Hoeffding ni siquiera fue mencionado en el artículo de Science. Esto ha estado en la hoeffdfunción R en el Hmiscpaquete durante muchos años. Aquí hay un ejemplo (escriba example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdutiliza una implementación Fortran bastante eficiente del método de Hoeffding. La idea básica de su prueba es considerar la diferencia entre los rangos conjuntos de X e Y y el producto del rango marginal de X y el rango marginal de Y, adecuadamente escalados.

Actualizar

Desde entonces, he mantenido correspondencia con los autores (que son muy amables por cierto, y están abiertos a otras ideas y continúan investigando sus métodos). Originalmente tenían la referencia Hoeffding en su manuscrito, pero la cortaron (con remordimientos, ahora) por falta de espacio. Si bien la prueba de Hoeffding parece funcionar bien para detectar la dependencia en sus ejemplos, no proporciona un índice que cumpla con sus criterios de ordenar los grados de dependencia de la manera en que el ojo humano puede hacerlo.re

En una próxima versión del Hmiscpaquete R , agregué dos salidas adicionales relacionadas con , a saber, la media y la máximaque son medidas útiles de dependencia. Sin embargo, estas medidas, como , no tienen la propiedad que buscaban los creadores de MIC.| F ( x , y ) - G ( x ) H ( y ) | rereEl |F(X,y)-sol(X)H(y)El |re

Frank Harrell
fuente
66
(+1) El artículo de Hoeffding está disponible en línea.
res
1
Buen hallazgo Podría valer una breve nota para Science comparando el desempeño de Hoeffding con el de ellos. Es una pena que muchos buenos estudios (en muchos campos) de los años 50 se hayan olvidado a lo largo de los años.
Itamar
6

El método MIC se basa en información mutua (MI), que cuantifica la dependencia entre la distribución conjunta de X e Y y cuál sería la distribución conjunta si X e Y fueran independientes (véase, por ejemplo, la entrada de Wikipedia ). Matemáticamente, MI se define como donde es la entropía de una sola variable y es la entropía conjunta de dos variables.H ( X ) = - i p ( z i ) log p ( z i ) H ( X , Y ) = - i , j p ( x i , y j ) log p (

METROyo=H(X)+H(Y)-H(X,Y)
H(X)=-yopag(zyo)Iniciar sesiónpag(zyo)
H(X,Y)=-yo,jpag(Xyo,yj)Iniciar sesiónpag(Xyo,yj)

La idea principal de los autores es discretizar los datos en muchas cuadrículas bidimensionales diferentes y calcular puntajes normalizados que representen la información mutua de las dos variables en cada cuadrícula. Los puntajes se normalizan para garantizar una comparación equitativa entre diferentes cuadrículas y varían entre 0 (sin correlación) y 1 (correlaciones altas).

R2

Itamar
fuente
3

Encontré dos buenos artículos que explican más claramente la idea de MIC en particular este ; Aquí el segundo .

Como entendí de estas lecturas es que puede hacer zoom en diferentes complejidades y escalas de relaciones entre dos variables explorando diferentes combinaciones de cuadrículas; Estas cuadrículas se utilizan para dividir el espacio bidimensional en celdas. Al elegir la cuadrícula que contiene la mayor cantidad de información sobre cómo las celdas dividen el espacio, usted elige el MIC.

Me gustaría preguntarle a @mbq si podría expandir lo que él llamó "plot-all-scatterplots-and-peak-aquellos-con-mayor-área-blanca" y la complejidad irreal de O (M2).

pedrosaurio
fuente
44
Me preocupa cualquier método estadístico que use binning.
Frank Harrell
@FrankHarrell ¿Puede proporcionar referencias o alguna intuición que detalle por qué binning es malo? Intuitivamente, puedo ver que esencialmente está desechando información debido al binning, pero debe haber más razones por qué.
Kiran K.
Hay demasiadas referencias para saber por dónde empezar. Ningún método estadístico basado en binning finalmente sobrevive. La arbitrariedad es uno de los muchos problemas.
Frank Harrell
@FrankHarrell Agradezco el comentario. La razón por la que pedí referencias es que soy un estudiante de doctorado y estoy estudiando conceptos de dependencia y dependencia multivariante en este momento, y me encantaría leer estos documentos y citarlos en mis propios trabajos en el futuro. Si pudiera mencionar uno o dos prominentes, estoy seguro de que puedo encontrar los restantes que está mencionando. También haré algunas excavaciones y publicaré referencias aquí si encuentro buenas.
Kiran K.
Comience con citeulike.org/user/harrelfe/article/13265458 y luego vea otra información sobre dicotomización en biostat.mc.vanderbilt.edu/CatContinuous . Para una medida de dependencia general que no requiera ningún binning, no se pierda citeulike.org/user/harrelfe/article/13264312
Frank Harrell el