Más recientemente, leí dos artículos. El primero trata sobre el historial de la correlación y el segundo trata sobre el nuevo método llamado Coeficiente de información máximo (MIC). Necesito su ayuda para comprender el método MIC para estimar correlaciones no lineales entre variables.
Además, las instrucciones para su uso en R se pueden encontrar en el sitio web del autor (en Descargas ):
Espero que esta sea una buena plataforma para discutir y comprender este método. Mi interés en discutir una intuición detrás de este método y cómo se puede extender como dijo el autor.
" ... necesitamos extensiones de MIC (X, Y) a MIC (X, Y | Z). Queremos saber cuántos datos se necesitan para obtener estimaciones estables de MIC, qué tan susceptible es a valores atípicos, qué tres - o las relaciones de dimensiones superiores se perderá, y más. MIC es un gran paso adelante, pero hay muchos más pasos a seguir " .
Respuestas:
¿No es revelador que esto haya sido publicado en una revista no estadística de cuya revisión estadística no estamos seguros? Este problema fue resuelto por Hoeffding en 1948 (Annals of Mathematical Statistics 19: 546) quien desarrolló un algoritmo directo que no requiere binning ni pasos múltiples. El trabajo de Hoeffding ni siquiera fue mencionado en el artículo de Science. Esto ha estado en la
hoeffd
función R en elHmisc
paquete durante muchos años. Aquí hay un ejemplo (escribaexample(hoeffd)
R):hoeffd
utiliza una implementación Fortran bastante eficiente del método de Hoeffding. La idea básica de su prueba es considerar la diferencia entre los rangos conjuntos de X e Y y el producto del rango marginal de X y el rango marginal de Y, adecuadamente escalados.Actualizar
Desde entonces, he mantenido correspondencia con los autores (que son muy amables por cierto, y están abiertos a otras ideas y continúan investigando sus métodos). Originalmente tenían la referencia Hoeffding en su manuscrito, pero la cortaron (con remordimientos, ahora) por falta de espacio. Si bien la prueba de Hoeffding parece funcionar bien para detectar la dependencia en sus ejemplos, no proporciona un índice que cumpla con sus criterios de ordenar los grados de dependencia de la manera en que el ojo humano puede hacerlo.re
En una próxima versión delre El | F( x , y) - G ( x ) H( y) | re
Hmisc
paquete R , agregué dos salidas adicionales relacionadas con , a saber, la media y la máximaque son medidas útiles de dependencia. Sin embargo, estas medidas, como , no tienen la propiedad que buscaban los creadores de MIC.| F ( x , y ) - G ( x ) H ( y ) | refuente
El método MIC se basa en información mutua (MI), que cuantifica la dependencia entre la distribución conjunta de X e Y y cuál sería la distribución conjunta si X e Y fueran independientes (véase, por ejemplo, la entrada de Wikipedia ). Matemáticamente, MI se define como donde es la entropía de una sola variable y es la entropía conjunta de dos variables.H ( X ) = - ∑ i p ( z i ) log p ( z i ) H ( X , Y ) = - ∑ i , j p ( x i , y j ) log p (
La idea principal de los autores es discretizar los datos en muchas cuadrículas bidimensionales diferentes y calcular puntajes normalizados que representen la información mutua de las dos variables en cada cuadrícula. Los puntajes se normalizan para garantizar una comparación equitativa entre diferentes cuadrículas y varían entre 0 (sin correlación) y 1 (correlaciones altas).
fuente
Encontré dos buenos artículos que explican más claramente la idea de MIC en particular este ; Aquí el segundo .
Como entendí de estas lecturas es que puede hacer zoom en diferentes complejidades y escalas de relaciones entre dos variables explorando diferentes combinaciones de cuadrículas; Estas cuadrículas se utilizan para dividir el espacio bidimensional en celdas. Al elegir la cuadrícula que contiene la mayor cantidad de información sobre cómo las celdas dividen el espacio, usted elige el MIC.
Me gustaría preguntarle a @mbq si podría expandir lo que él llamó "plot-all-scatterplots-and-peak-aquellos-con-mayor-área-blanca" y la complejidad irreal de O (M2).
fuente