Relación entre los coeficientes de correlación phi, Matthews y Pearson

13

¿Son los coeficientes de correlación phi y Matthews el mismo concepto? ¿Cómo se relacionan o equivalen al coeficiente de correlación de Pearson para dos variables binarias? Supongo que los valores binarios son 0 y 1.


La correlación de Pearson entre dos variables aleatorias de Bernoulli e es:yxy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

dónde

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Coeficiente de phi de Wikipedia:

En estadística, el coeficiente phi (también denominado "coeficiente de contingencia cuadrático medio" y denotado por o ) es una medida de asociación para dos variables binarias introducidas por Karl Pearson. Esta medida es similar al coeficiente de correlación de Pearson en su interpretación. De hecho, un coeficiente de correlación de Pearson estimado para dos variables binarias devolverá el coeficiente phi ...r ϕϕrϕ

Si tenemos una tabla 2 × 2 para dos variables aleatorias eyxy

ingrese la descripción de la imagen aquí

El coeficiente phi que describe la asociación de e es y ϕ = n 11 n 00 - n 10 n 01xy

ϕ=n11n00n10n01n1n0n0n1

Coeficiente de correlación Matthews de Wikipedia:

El coeficiente de correlación Matthews (MCC) se puede calcular directamente a partir de la matriz de confusión utilizando la fórmula:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

En esta ecuación, TP es el número de positivos verdaderos, TN el número de negativos verdaderos, FP el número de falsos positivos y FN el número de falsos negativos. Si cualquiera de las cuatro sumas en el denominador es cero, el denominador se puede establecer arbitrariamente en uno; esto da como resultado un coeficiente de correlación de Matthews de cero, que se puede demostrar que es el valor límite correcto.

Tim
fuente

Respuestas:

14

Sí, son lo mismo. El coeficiente de correlación de Matthews es solo una aplicación particular del coeficiente de correlación de Pearson a una tabla de confusión.

Una tabla de contingencia es solo un resumen de los datos subyacentes. Puede volver a convertirlo de los recuentos que se muestran en la tabla de contingencia a una fila por observaciones.

Considere el ejemplo de matriz de confusión utilizada en el artículo de Wikipedia con 5 positivos verdaderos, 17 negativos verdaderos, 2 falsos positivos y 3 falsos negativos

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000
Peter Ellis
fuente
Gracias Peter! Matemáticamente, ¿por qué phi y Mathew son equivalentes a Pearson para dos variables aleatorias binarias?
Tim
Si toma la definición de la correlación de Pearson y la manipula para que se refiera a los recuentos en lugar de a las sumas de las diferencias entre las observaciones individuales y las medias, obtendrá la fórmula Matthews. En realidad no he hecho esto, pero debe ser razonablemente sencillo.
Peter Ellis
2

En primer lugar, hubo un error tipográfico en la pregunta: no es sino más bienE[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

En segundo lugar, la clave para mostrar que esρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
ryan tt
fuente