¿Qué correlación hace que una matriz sea singular y cuáles son las implicaciones de singularidad o casi singularidad?

66

Estoy haciendo algunos cálculos en diferentes matrices (principalmente en regresión logística) y comúnmente aparece el error "Matrix is ​​singular", donde tengo que volver y eliminar las variables correlacionadas. Mi pregunta aquí es, ¿qué consideraría una matriz "altamente" correlacionada? ¿Existe un valor umbral de correlación para representar esta palabra? Como si una variable estuviera 0,97 correlacionada con otra, ¿es esto lo suficientemente "alta" como para hacer una matriz singular?

Disculpas si la pregunta es muy básica, no pude encontrar ninguna referencia que hablara sobre este tema (¡una pista hacia cualquier referencia sería una gran ventaja!).

Error 404
fuente
2
Consejo: busque en nuestro sitio VIF y correlación .
whuber
Definitivamente tendrá un vistazo. Salud.
Error404
2
@ttnphns ha proporcionado una excelente explicación a continuación (no es de extrañar, esta parece ser su especialidad). Para un ejemplo simple de una situación en la que puede obtener una matriz de datos singular, podría ser útil leer mi respuesta aquí: cualitativa-variable-codificación-en-regresión-conduce-a-singularidades .
gung - Restablece a Monica
De hecho lo hizo! En realidad me ahorró horas de lectura con confusión. Gracias por tu ejemplo @gung. Fue muy útil muchachos.
Error404

Respuestas:

100

¿Qué es la matriz singular?

Una matriz cuadrada es singular, es decir, su determinante es cero, si contiene filas o columnas que están interrelacionadas proporcionalmente; en otras palabras, una o más de sus filas (columnas) es exactamente expresable como una combinación lineal de todas o algunas de sus otras filas (columnas), siendo la combinación sin un término constante.

Imagine, por ejemplo, una matriz - simétrica, como la matriz de correlaton, o asimétrica. Si en términos de sus entradas parece que por ejemplo, entonces la matriz es singular. Si, como otro ejemplo, es , entonces es nuevamente singular. Como caso particular, si alguna fila contiene solo ceros , la matriz también es singular porque cualquier columna es una combinación lineal de las otras columnas. En general, si cualquier fila (columna) de una matriz cuadrada es una suma ponderada de las otras filas (columnas), entonces cualquiera de estas últimas también es una suma ponderada de las otras filas (columnas).3×3Acol3=2.15col1Arow2=1.6row14row3A

La matriz singular o casi singular a menudo se denomina matriz "mal condicionada" porque presenta problemas en muchos análisis de datos estadísticos.

¿Qué datos producen una matriz de correlación singular de variables?

¿Cómo deben verse los datos multivariados para que su matriz de correlación o covarianza sea una matriz singular descrita anteriormente? Es cuando hay interdependencias lineales entre las variables. Si alguna variable es una combinación lineal exacta de las otras variables, con un término constante permitido, las matrices de correlación y covarianza de las variables serán singulares. La dependencia observada en dicha matriz entre sus columnas es en realidad la misma dependencia que la dependencia entre las variables en los datos observados después de que las variables se hayan centrado (sus medias llevadas a 0) o estandarizadas (si queremos decir correlación en lugar de matriz de covarianza).

Algunas situaciones particulares frecuentes cuando la matriz de correlación / covarianza de las variables es singular: (1) El número de variables es igual o mayor que el número de casos; (2) Dos o más variables suman una constante; (3) Dos variables son idénticas o difieren meramente en la media (nivel) o la varianza (escala).

Además, la duplicación de observaciones en un conjunto de datos llevará a la matriz hacia la singularidad. Cuantas más veces clones un caso, más cerca estará la singularidad. Entonces, cuando se realiza algún tipo de imputación de valores perdidos, siempre es beneficioso (tanto desde el punto de vista estadístico como matemático) agregar algo de ruido a los datos imputados.

Singularidad como colinealidad geométrica

En el punto de vista geométrico, la singularidad es (multi) colinealidad (o "complanaridad"): las variables que se muestran como vectores (flechas) en el espacio se encuentran en el espacio de dimensionalidad menor que el número de variables, en un espacio reducido. (Esa dimensionalidad se conoce como el rango de la matriz; es igual al número de valores propios distintos de cero de la matriz).

En una vista geométrica más distante o "trascendental", la singularidad o la definición cero (presencia de valor propio cero) es el punto de flexión entre la definición positiva y la definición no positiva de una matriz. Cuando algunas de las variables vectoriales (que es la matriz de correlación / covarianza) "van más allá", incluso en el espacio euclidiano reducido, de modo que ya no pueden "converger" o "abarcar perfectamente" el espacio euclidiano , aparece una definición no positiva , es decir, algunos valores propios de la matriz de correlación se vuelven negativos. (Ver sobre la matriz definida no positiva, también conocida como no gramian aquí .) La matriz definida no positiva también está "mal condicionada" para algunos tipos de análisis estadístico.

Colinealidad en regresión: una explicación geométrica e implicaciones

La primera imagen a continuación muestra una situación de regresión normal con dos predictores (hablaremos de regresión lineal). La imagen se copia desde aquí, donde se explica con más detalles. En resumen, los predictores moderadamente correlacionados (= con un ángulo agudo entre ellos) y abarcan el espacio 2-dimensional "plano X". La variable dependiente se proyecta ortogonalmente, dejando la variable predicha y los residuales con st. desviación igual a la longitud de . El cuadrado R de la regresión es el ángulo entre e , y los dos coeficientes de regresión están directamente relacionados con las coordenadas de inclinaciónX1X2YYeYYb1 y , respectivamente.b2

ingrese la descripción de la imagen aquí

La siguiente imagen muestra la situación de regresión con predictores completamente colineales . y correlacionan perfectamente y, por lo tanto, estos dos vectores coinciden y forman la línea, un espacio unidimensional. Este es un espacio reducido. Sin embargo, matemáticamente, el plano X debe existir para resolver la regresión con dos predictores, pero el plano ya no está definido, por desgracia. Afortunadamente, si caer cualquiera de los dos predictores colineales de análisis de la regresión es entonces resuelto simplemente porque la regresión de un predictor necesita espacio unidimensional predictor. Vemos la predicción y el errorX1X2Yede esa regresión (un predictor), dibujada en la imagen. También existen otros enfoques, además de descartar variables, para deshacerse de la colinealidad.

ingrese la descripción de la imagen aquí

La imagen final a continuación muestra una situación con predictores casi colineales . Esta situación es diferente y un poco más compleja y desagradable. y (ambos mostrados nuevamente en azul) se correlacionan estrechamente y casi coinciden. Pero todavía hay un pequeño ángulo entre, y debido al ángulo distinto de cero, el plano X está definido (este plano en la imagen se parece al plano en la primera imagen). Entonces, matemáticamente no hay problema para resolver la regresión. El problema que surge aquí es estadístico .X1X2

ingrese la descripción de la imagen aquí

Usualmente hacemos regresión para inferir acerca del cuadrado R y los coeficientes en la población. De muestra a muestra, los datos varían un poco. Entonces, si tomamos otra muestra, la yuxtaposición de los dos vectores predictores cambiaría ligeramente, lo cual es normal. No "normal" es que bajo una colinealidad cercana conlleve consecuencias devastadoras. Imagine que desvió un poco hacia abajo, más allá del plano X, como se muestra en el vector gris. Debido a que el ángulo entre los dos predictores era tan pequeño, plano X que entrará a través de y por medio de que la deriva será drásticamente divergir de viejo avión de X. Por lo tanto, debido a yX1X2X1X1X2están tan correlacionados que esperamos un plano X muy diferente en diferentes muestras de la misma población. Como el plano X es diferente, las predicciones, el cuadrado R, los residuos, los coeficientes, todo se vuelve diferente también. Se ve bien en la imagen, donde el avión X se balanceó en algún lugar 40 grados. En una situación como esa, las estimaciones (coeficientes, R-cuadrado, etc.) son muy poco confiables, hecho que se expresa por sus enormes errores estándar. Y en contraste, con los predictores lejos de ser colineales, las estimaciones son confiables porque el espacio abarcado por los predictores es robusto para esas fluctuaciones de muestreo de datos.

Colinealidad en función de toda la matriz.

Incluso una alta correlación entre dos variables, si está por debajo de 1, no necesariamente hace que toda la matriz de correlación sea singular; también depende de las correlaciones de descanso. Por ejemplo, esta matriz de correlación:

1.000     .990     .200
 .990    1.000     .100
 .200     .100    1.000

tiene un determinante .00950que es lo suficientemente diferente de 0 para considerarse elegible en muchos análisis estadísticos. Pero esta matriz:

1.000     .990     .239
 .990    1.000     .100
 .239     .100    1.000

tiene determinante .00010, un grado más cercano a 0.

Diagnóstico de colinealidad: lecturas adicionales

Los análisis de datos estadísticos, como las regresiones, incorporan índices y herramientas especiales para detectar la colinealidad lo suficientemente fuerte como para considerar descartar algunas de las variables o casos del análisis, o para emprender otros medios de curación. Busque (incluido este sitio) "diagnóstico de colinealidad", "multicolinealidad", "tolerancia de singularidad / colinealidad", "índices de condición", "proporciones de descomposición de varianza", "factores de inflación de varianza (VIF)".

ttnphns
fuente
3
Gracias por esta explicación detallada. Este es un esquema perfecto para cualquiera que intente entender este tema. Leeré más sobre los títulos que sugirió. Esto es muy apreciado :)
Error404
3
Explosión tremenda, tendré que agradecerle nuevamente por las adiciones que ha realizado. Muy informativo de hecho.
Error404
44
Las explicaciones geométricas y las figuras asociadas son realmente útiles para comprender este problema.
gung - Restablecer Monica
1
Veo que esta es una publicación bastante antigua ... pero me encantaría saber qué hicieron esos gráficos geométricos con @ttnphns ... por un lado, parece que incluso podría haber sido MS Paint, pero son solo tan bueno
Paul
Lo que dijo @Paul !!!
abulter