Estoy haciendo algunos cálculos en diferentes matrices (principalmente en regresión logística) y comúnmente aparece el error "Matrix is singular", donde tengo que volver y eliminar las variables correlacionadas. Mi pregunta aquí es, ¿qué consideraría una matriz "altamente" correlacionada? ¿Existe un valor umbral de correlación para representar esta palabra? Como si una variable estuviera 0,97 correlacionada con otra, ¿es esto lo suficientemente "alta" como para hacer una matriz singular?
Disculpas si la pregunta es muy básica, no pude encontrar ninguna referencia que hablara sobre este tema (¡una pista hacia cualquier referencia sería una gran ventaja!).
regression
correlation
matrix
multicollinearity
singular
Error 404
fuente
fuente
Respuestas:
¿Qué es la matriz singular?
Una matriz cuadrada es singular, es decir, su determinante es cero, si contiene filas o columnas que están interrelacionadas proporcionalmente; en otras palabras, una o más de sus filas (columnas) es exactamente expresable como una combinación lineal de todas o algunas de sus otras filas (columnas), siendo la combinación sin un término constante.
Imagine, por ejemplo, una matriz - simétrica, como la matriz de correlaton, o asimétrica. Si en términos de sus entradas parece que por ejemplo, entonces la matriz es singular. Si, como otro ejemplo, es , entonces es nuevamente singular. Como caso particular, si alguna fila contiene solo ceros , la matriz también es singular porque cualquier columna es una combinación lineal de las otras columnas. En general, si cualquier fila (columna) de una matriz cuadrada es una suma ponderada de las otras filas (columnas), entonces cualquiera de estas últimas también es una suma ponderada de las otras filas (columnas).3×3 A col3=2.15⋅col1 A row2=1.6⋅row1−4⋅row3 A
La matriz singular o casi singular a menudo se denomina matriz "mal condicionada" porque presenta problemas en muchos análisis de datos estadísticos.
¿Qué datos producen una matriz de correlación singular de variables?
¿Cómo deben verse los datos multivariados para que su matriz de correlación o covarianza sea una matriz singular descrita anteriormente? Es cuando hay interdependencias lineales entre las variables. Si alguna variable es una combinación lineal exacta de las otras variables, con un término constante permitido, las matrices de correlación y covarianza de las variables serán singulares. La dependencia observada en dicha matriz entre sus columnas es en realidad la misma dependencia que la dependencia entre las variables en los datos observados después de que las variables se hayan centrado (sus medias llevadas a 0) o estandarizadas (si queremos decir correlación en lugar de matriz de covarianza).
Algunas situaciones particulares frecuentes cuando la matriz de correlación / covarianza de las variables es singular: (1) El número de variables es igual o mayor que el número de casos; (2) Dos o más variables suman una constante; (3) Dos variables son idénticas o difieren meramente en la media (nivel) o la varianza (escala).
Además, la duplicación de observaciones en un conjunto de datos llevará a la matriz hacia la singularidad. Cuantas más veces clones un caso, más cerca estará la singularidad. Entonces, cuando se realiza algún tipo de imputación de valores perdidos, siempre es beneficioso (tanto desde el punto de vista estadístico como matemático) agregar algo de ruido a los datos imputados.
Singularidad como colinealidad geométrica
En el punto de vista geométrico, la singularidad es (multi) colinealidad (o "complanaridad"): las variables que se muestran como vectores (flechas) en el espacio se encuentran en el espacio de dimensionalidad menor que el número de variables, en un espacio reducido. (Esa dimensionalidad se conoce como el rango de la matriz; es igual al número de valores propios distintos de cero de la matriz).
En una vista geométrica más distante o "trascendental", la singularidad o la definición cero (presencia de valor propio cero) es el punto de flexión entre la definición positiva y la definición no positiva de una matriz. Cuando algunas de las variables vectoriales (que es la matriz de correlación / covarianza) "van más allá", incluso en el espacio euclidiano reducido, de modo que ya no pueden "converger" o "abarcar perfectamente" el espacio euclidiano , aparece una definición no positiva , es decir, algunos valores propios de la matriz de correlación se vuelven negativos. (Ver sobre la matriz definida no positiva, también conocida como no gramian aquí .) La matriz definida no positiva también está "mal condicionada" para algunos tipos de análisis estadístico.
Colinealidad en regresión: una explicación geométrica e implicaciones
La primera imagen a continuación muestra una situación de regresión normal con dos predictores (hablaremos de regresión lineal). La imagen se copia desde aquí, donde se explica con más detalles. En resumen, los predictores moderadamente correlacionados (= con un ángulo agudo entre ellos) y abarcan el espacio 2-dimensional "plano X". La variable dependiente se proyecta ortogonalmente, dejando la variable predicha y los residuales con st. desviación igual a la longitud de . El cuadrado R de la regresión es el ángulo entre e , y los dos coeficientes de regresión están directamente relacionados con las coordenadas de inclinaciónX1 X2 Y Y′ e Y Y′ b1 y , respectivamente.b2
La siguiente imagen muestra la situación de regresión con predictores completamente colineales . y correlacionan perfectamente y, por lo tanto, estos dos vectores coinciden y forman la línea, un espacio unidimensional. Este es un espacio reducido. Sin embargo, matemáticamente, el plano X debe existir para resolver la regresión con dos predictores, pero el plano ya no está definido, por desgracia. Afortunadamente, si caer cualquiera de los dos predictores colineales de análisis de la regresión es entonces resuelto simplemente porque la regresión de un predictor necesita espacio unidimensional predictor. Vemos la predicción y el errorX1 X2 Y′ e de esa regresión (un predictor), dibujada en la imagen. También existen otros enfoques, además de descartar variables, para deshacerse de la colinealidad.
La imagen final a continuación muestra una situación con predictores casi colineales . Esta situación es diferente y un poco más compleja y desagradable. y (ambos mostrados nuevamente en azul) se correlacionan estrechamente y casi coinciden. Pero todavía hay un pequeño ángulo entre, y debido al ángulo distinto de cero, el plano X está definido (este plano en la imagen se parece al plano en la primera imagen). Entonces, matemáticamente no hay problema para resolver la regresión. El problema que surge aquí es estadístico .X1 X2
Usualmente hacemos regresión para inferir acerca del cuadrado R y los coeficientes en la población. De muestra a muestra, los datos varían un poco. Entonces, si tomamos otra muestra, la yuxtaposición de los dos vectores predictores cambiaría ligeramente, lo cual es normal. No "normal" es que bajo una colinealidad cercana conlleve consecuencias devastadoras. Imagine que desvió un poco hacia abajo, más allá del plano X, como se muestra en el vector gris. Debido a que el ángulo entre los dos predictores era tan pequeño, plano X que entrará a través de y por medio de que la deriva será drásticamente divergir de viejo avión de X. Por lo tanto, debido a yX1 X2 X1 X1 X2 están tan correlacionados que esperamos un plano X muy diferente en diferentes muestras de la misma población. Como el plano X es diferente, las predicciones, el cuadrado R, los residuos, los coeficientes, todo se vuelve diferente también. Se ve bien en la imagen, donde el avión X se balanceó en algún lugar 40 grados. En una situación como esa, las estimaciones (coeficientes, R-cuadrado, etc.) son muy poco confiables, hecho que se expresa por sus enormes errores estándar. Y en contraste, con los predictores lejos de ser colineales, las estimaciones son confiables porque el espacio abarcado por los predictores es robusto para esas fluctuaciones de muestreo de datos.
Colinealidad en función de toda la matriz.
Incluso una alta correlación entre dos variables, si está por debajo de 1, no necesariamente hace que toda la matriz de correlación sea singular; también depende de las correlaciones de descanso. Por ejemplo, esta matriz de correlación:
tiene un determinante
.00950
que es lo suficientemente diferente de 0 para considerarse elegible en muchos análisis estadísticos. Pero esta matriz:tiene determinante
.00010
, un grado más cercano a 0.Diagnóstico de colinealidad: lecturas adicionales
Los análisis de datos estadísticos, como las regresiones, incorporan índices y herramientas especiales para detectar la colinealidad lo suficientemente fuerte como para considerar descartar algunas de las variables o casos del análisis, o para emprender otros medios de curación. Busque (incluido este sitio) "diagnóstico de colinealidad", "multicolinealidad", "tolerancia de singularidad / colinealidad", "índices de condición", "proporciones de descomposición de varianza", "factores de inflación de varianza (VIF)".
fuente