Usar información mutua para estimar la correlación entre una variable continua y una variable categórica

En cuanto al título, la idea es utilizar información mutua, aquí y después de MI, para estimar la "correlación" (definida como "cuánto sé sobre A cuando sé B") entre una variable continua y una variable categórica. Le diré mis pensamientos sobre el asunto en un momento, pero antes de aconsejarle que lea esta otra pregunta / respuesta en CrossValidated ya que contiene información útil.

Ahora, debido a que no podemos integrarnos sobre una variable categórica, necesitamos discretizar la continua. Esto se puede hacer con bastante facilidad en R, que es el lenguaje con el que he hecho la mayoría de mis análisis. Preferí usar la cutfunción, ya que también alias los valores, pero también hay otras opciones disponibles. El punto es que uno tiene que decidir a priori el número de "contenedores" (estados discretos) antes de que pueda hacerse cualquier discretización.

Sin embargo, el problema principal es otro: MI varía de 0 a ∞, ya que es una medida no estandarizada qué unidad es el bit. Eso hace que sea muy difícil usarlo como coeficiente de correlación. Esto se puede resolver en parte usando el coeficiente de correlación global , aquí y después de GCC, que es una versión estandarizada de MI; El CCG se define de la siguiente manera:

ingrese la descripción de la imagen aquí

Referencia: la fórmula es de información mutua como herramienta no lineal para analizar la globalización bursátil por Andreia Dionísio, Rui Menezes y Diana Mendes, 2010.

GCC varía de 0 a 1 y, por lo tanto, puede usarse fácilmente para estimar la correlación entre dos variables. Problema resuelto, ¿verdad? Bueno, más o menos. Debido a que todo este proceso depende en gran medida del número de 'contenedores' que decidimos usar durante la discretización. Aquí los resultados de mis experimentos:

ingrese la descripción de la imagen aquí

En el eje y tienes GCC y en el eje x tienes el número de 'bins' que decidí usar para la discretización. Las dos líneas se refieren a dos análisis diferentes que realicé en dos conjuntos de datos diferentes (aunque muy similares).

Me parece que el uso de MI en general y GCC en particular sigue siendo controvertido. Sin embargo, esta confusión puede ser el resultado de un error de mi parte. En cualquier caso, me encantaría conocer su opinión sobre el asunto (también, ¿tiene métodos alternativos para estimar la correlación entre una variable categórica y una continua?).

correlation information-theory mutual-information Edgar Derby
fuente

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

Por cierto, aquí hay código en caso de que alguien quiera probar el método binning.

zkurtz

No está estimando la "correlación". Estás estimando información mutua. El uno no estima al otro; son medidas distintas del concepto más general de asociación .

zkurtz

Quizás un mejor título para esta publicación es "¿Cómo enlazar mejor una variable continua para estimar su información mutua con una variable categórica?"

zkurtz

Aquí hay un enfoque interesante de no binning. Lamentablemente no puedo encontrar una implementación de R.

zkurtz

Respuestas:

Hay una manera más simple y mejor de lidiar con este problema. Una variable categórica es efectivamente solo un conjunto de variables indicadoras. Es una idea básica de la teoría de la medición que dicha variable es invariable para volver a etiquetar las categorías, por lo que no tiene sentido utilizar el etiquetado numérico de las categorías en ninguna medida de la relación entre otra variable (por ejemplo, "correlación") . Por esta razón, y la medida de la relación entre una variable continua y una variable categórica debe basarse enteramente en las variables indicadoras derivadas de esta última.

$X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

lo que da:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

Ben - Restablece a Monica
fuente