¿Por qué los estadísticos no usan la información mutua como medida de asociación?

He visto un par de charlas de no estadísticos donde parecen reinventar las medidas de correlación utilizando información mutua en lugar de regresión (o pruebas estadísticas equivalentes / estrechamente relacionadas).

Supongo que hay una buena razón por la cual los estadísticos no toman este enfoque. Mi lego entiende que los estimadores de entropía / información mutua tienden a ser problemáticos e inestables. Asumo que el poder también es problemático como resultado: intentan evitar esto alegando que no están usando un marco de prueba paramétrico. Por lo general, este tipo de trabajo no molesta con los cálculos de potencia, o incluso con la confianza / intervalos creíbles.

Pero para tomar la posición de defensor del diablo, ¿es tan lenta la convergencia lenta cuando los conjuntos de datos son extremadamente grandes? Además, a veces estos métodos parecen "funcionar" en el sentido de que las asociaciones son validadas por estudios de seguimiento. ¿Cuál es la mejor crítica contra el uso de información mutua como medida de asociación y por qué no se usa ampliamente en la práctica estadística?

editar: Además, ¿hay algún buen documento que cubra estos problemas?

correlation mutual-information usuario4733
fuente

MI es una medida de asociación entre dos variables discretas. En realidad, no es una configuración tan común en las estadísticas generales (podría estar en algunos subcampos especializados). Pero dentro de esa configuración, veo que se usa con bastante frecuencia. Ciertamente, cuando me encuentro con personas aplicadas que usan la correlación de Pearson en conjuntos de datos discretos bivariados, les señalo MI.

usuario603

Ver también stats.stackexchange.com/questions/1052/… Sin embargo, la discusión aquí ya es, en mi opinión, tan buena o mejor, por lo que la pregunta habitual sobre los duplicados es discutible.

Nick Cox

También para referencias ver stats.stackexchange.com/q/20011/1036

Andy W

Otra referencia general es Matthew Reimherr y Dan L. Nicolae. 2013. Sobre la cuantificación de la dependencia: un marco para el desarrollo de medidas interpretables. Ciencia estadística 28: 116-130.

Nick Cox

Respuestas:

Creo que debería distinguir entre datos categóricos (discretos) y datos continuos.

Para datos continuos, la correlación de Pearson mide una relación lineal (monotónica), la correlación de rango es una relación monotónica.

MI por otro lado "detecta" cualquier relación. Esto normalmente no es lo que le interesa y / o es probable que sea ruido. En particular, debe estimar la densidad de la distribución. Pero como es continuo, primero debe crear un histograma [contenedores discretos] y luego calcular el IM. Pero dado que el MI permite cualquier relación, el MI cambiará a medida que use contenedores más pequeños (es decir, permita más movimientos). Por lo tanto, puede ver que la estimación de MI será muy inestable y no le permitirá poner intervalos de confianza en la estimación, etc. [Lo mismo ocurre si realiza una estimación de densidad continua]. Básicamente, hay demasiadas cosas para estimar antes de calcular el MI

Los datos categóricos, por otro lado, encajan bastante bien en el marco de MI (ver prueba G), y no hay mucho para elegir entre la prueba G y el chi-cuadrado.

seanv507
fuente

Me refiero principalmente a casos de asociación discreta (por regresión, tenía GLM en mente, no solo OLS). En realidad, muchos científicos que estudian fenómenos complejos (por ejemplo, genética) podrían decir que están más interesados en lo que estás describiendo (detectar cualquier relación). El atractivo de escapar de la obvia crítica común de "¿y si la forma funcional de la correlación es incorrecta? ¡Por supuesto que quiero detectar cualquier relación!" es fuerte. Sin embargo, creo que hay una falacia de no almuerzo gratis en juego aquí, pero eso sería pasado por alto que estoy tratando de articular / entender mejor.

user4733

... No estaba al tanto de la relación entre las pruebas de LR y el IM, ¡eso es muy interesante!

user4733