En general, ¿qué significa decir que la fracción de la varianza en un análisis como PCA se explica por el primer componente principal? ¿Alguien puede explicar esto intuitivamente pero también dar una definición matemática precisa de lo que significa "varianza explicada" en términos de análisis de componentes principales (PCA)?
Para una regresión lineal simple, la línea r-cuadrado de mejor ajuste siempre se describe como la proporción de la varianza explicada, pero tampoco estoy seguro de qué hacer con eso. ¿La proporción de varianza aquí es solo la extensión de la desviación de los puntos de la línea de mejor ajuste?
regression
pca
linear-model
dimensionality-reduction
usuario9097
fuente
fuente
Respuestas:
En el caso de PCA, "varianza" significa varianza sumativa o variabilidad multivariada o variabilidad general o variabilidad total . A continuación se muestra la matriz de covarianza de algunas 3 variables. Sus variaciones están en la diagonal, y la suma de los 3 valores (3.448) es la variabilidad general.
Ahora, PCA reemplaza las variables originales con nuevas variables, llamadas componentes principales, que son ortogonales (es decir, tienen cero covariaciones) y tienen variaciones (llamadas valores propios) en orden decreciente. Entonces, la matriz de covarianza entre los componentes principales extraídos de los datos anteriores es la siguiente:
Tenga en cuenta que la suma diagonal sigue siendo 3.448, lo que dice que los 3 componentes representan toda la variabilidad multivariada. El primer componente principal representa o "explica" 1.651 / 3.448 = 47.9% de la variabilidad general; la segunda explica 1.220 / 3.448 = 35.4% de la misma; el tercero explica .577 / 3.448 = 16.7%.
Entonces, ¿qué quieren decir cuando dicen que " PCA maximiza la varianza " o " PCA explica la varianza máxima "? Eso no es, por supuesto, que encuentre la mayor varianza entre tres valores
1.343730519 .619205620 1.485549631
, no. PCA encuentra, en el espacio de datos, la dimensión (dirección) con la mayor varianza fuera de la varianza general1.343730519+.619205620+1.485549631 = 3.448
. Esa mayor variación sería1.651354285
. Luego encuentra la dimensión de la segunda varianza más grande, ortogonal a la primera, fuera de la3.448-1.651354285
varianza general restante . Esa segunda dimensión sería la1.220288343
varianza. Y así. La última dimensión restante es la.576843142
varianza. Vea también "Pt3" aquí y la gran respuesta aquí explicando cómo se hizo con más detalle.Matemáticamente, la PCA se realiza mediante funciones de álgebra lineal llamadas descomposición propia o descomposición svd. Estas funciones le devolverán todos los valores propios
1.651354285 1.220288343 .576843142
(y los vectores propios correspondientes) a la vez ( ver , ver ).fuente
@ttnphns ha proporcionado una buena respuesta, quizás pueda agregar algunos puntos. Primero, quiero señalar que había una pregunta relevante sobre CV, con una respuesta realmente fuerte, definitivamente querrás echarle un vistazo. En lo que sigue, me referiré a las gráficas que se muestran en esa respuesta.
Las tres parcelas muestran los mismos datos. Tenga en cuenta que existe una variabilidad en los datos tanto vertical como horizontalmente, pero podemos pensar que la mayoría de la variabilidad es en realidad diagonal . En el tercer gráfico, esa línea diagonal larga y negra es el primer vector propio (o el primer componente principal), y la longitud de ese componente principal (la extensión de los datos a lo largo de esa línea, no en realidad la longitud de la línea en sí, que solo se dibuja en la trama) es el primer valor propio--es la cantidad de varianza explicada por el primer componente principal. Si tuviera que sumar esa longitud con la longitud del segundo componente principal (que es el ancho de la extensión de los datos ortogonalmente fuera de esa línea diagonal), y luego dividiría cualquiera de los valores propios por ese total, obtendría el porcentaje de la varianza explicada por el componente principal correspondiente.
Por otro lado, para comprender el porcentaje de la varianza explicada en la regresión, puede mirar el gráfico superior. En ese caso, la línea roja es la línea de regresión, o el conjunto de los valores pronosticados del modelo. La varianza explicada puede entenderse como la relación de la extensión vertical de la línea de regresión (es decir, desde el punto más bajo de la línea hasta el punto más alto de la línea) a la extensión vertical de los datos (es decir, desde el punto de datos más bajo al punto de datos más alto). Por supuesto, eso es solo una idea suelta, porque literalmente son rangos, no variaciones, pero eso debería ayudarlo a entender el punto.
Asegúrese de leer la pregunta. Y, aunque me referí a la respuesta principal, varias de las respuestas dadas son excelentes. Vale la pena tu tiempo para leerlos todos.
fuente
Hay una respuesta matemática muy simple, directa y precisa a la pregunta original.
En este sentido, puede interpretar la primera PC como un maximizador de "varianza explicada" o, más precisamente, un maximizador de "varianza total explicada".
Para referencias a literatura original y extensiones, ver
Westfall, PH, Arias, AL y Fulton, LV (2017). Enseñanza de componentes principales mediante correlaciones, investigación conductual multivariante, 52, 648-660.
fuente
fuente