Proporción de varianza explicada en PCA y LDA

8

Tengo algunas preguntas básicas sobre PCA (análisis de componentes principales) y LDA (análisis discriminante lineal):

  1. En PCA hay una manera de calcular la proporción de varianza explicada. ¿También es posible para LDA? ¿Si es así, cómo?

  2. ¿Es la salida "Proporción de traza" de la ldafunción (en la biblioteca R MASS) equivalente a la "proporción de varianza explicada"?

wrek
fuente
1
Su primera pregunta puede ser un duplicado de stats.stackexchange.com/questions/22569 , donde puede encontrar respuestas. Presumiblemente "LDA" significa análisis discriminante lineal (también tiene otros significados estadísticos, por lo que tratamos de expandir los acrónimos ).
whuber
1
En cierto sentido, un discriminante explica una variabilidad como p. componente hace, el valor propio es la cantidad de él. Sin embargo, la "variabilidad" en LDA es de tipo especial: es la relación entre la variabilidad entre clases y la variabilidad dentro de clase. Cada discriminante trata de explicar la mayor cantidad posible de esa relación. Leer más
ttnphns
Gracias por la explicación. Por lo tanto, si en los ejes de los componentes de la PC los etiqueto como "PC (X% de la varianza explicada)", ¿cuál sería el corto plazo correcto cuando etiquete los LD? Gracias de nuevo.
wrek
Con LDA, la redacción correcta será "LD (X% de la varianza entre grupos explicada)".
ttnphns
Gracias de nuevo por la gran ayuda y paciencia. Por cierto, ¿cómo puedo acceder a la Proporción de rastreo (LD1, LD2) ya que deseo guardarlos en dos variables separadas?
wrek

Respuestas:

10

Primero proporcionaré una explicación verbal, y luego una más técnica. Mi respuesta consta de cuatro observaciones:

  1. Como @ttnphns explicó en los comentarios anteriores, en PCA cada componente principal tiene cierta variación, que en conjunto suman el 100% de la variación total. Para cada componente principal, una relación entre su varianza y la varianza total se denomina "proporción de varianza explicada". Esto es muy conocido.

  2. Por otro lado, en LDA cada "componente discriminante" tiene cierta "discriminabilidad" (¡he inventado estos términos!) Asociada, y todos juntos suman el 100% de la "discriminabilidad total". Entonces, para cada "componente discriminante" se puede definir "proporción de discriminabilidad explicada". Supongo que esa "proporción de traza" a la que te refieres es exactamente eso (ver más abajo). Esto es menos conocido, pero sigue siendo un lugar común.

  3. Aún así, se puede observar la varianza de cada componente discriminante y calcular la "proporción de varianza" de cada uno de ellos. Resulta que sumarán algo inferior al 100%. No creo que haya visto esto discutido en ninguna parte, que es la razón principal por la que quiero dar esta larga respuesta.

  4. También se puede ir un paso más allá y calcular la cantidad de variación que cada componente LDA "explica"; esto va a ser más que solo su propia variación.


Sea matriz de dispersión total de los datos (es decir, matriz de covarianza pero sin normalizar por el número de puntos de datos), sea ​​la matriz de dispersión dentro de la clase y esté entre matriz de dispersión de clase. Ver aquí para las definiciones . Convenientemente, .TWsiT=W+si

PCA realiza la descomposición propia de , toma sus vectores propios unitarios como ejes principales y las proyecciones de los datos en los vectores propios como componentes principales. La varianza de cada componente principal viene dada por el valor propio correspondiente. Todos los valores propios de (que es simétrico y positivo-definido) son positivos y se suman a , que se conoce como varianza total .TTtr(T)

LDA realiza la descomposición propia de , toma sus vectores propios de unidades no ortogonales (!) Como ejes discriminantes y las proyecciones en los vectores propios como componentes discriminantes (un término inventado ) Para cada componente discriminante, podemos calcular una relación de entre la clase varianza y dentro de la clase varianza , es decir, la relación señal-ruido . Resulta que estará dado por el valor propio correspondiente de (Lema 1, ver abajo). Todos los valores propios de son positivos (Lema 2), por lo tanto, sume un número positivo cuál se puede llamarW-1sisiWsi/ /WW-1siW-1sitr(W-1si)relación señal / ruido total . Cada componente discriminante tiene una cierta proporción, y creo que a eso se refiere la "proporción de traza". Vea esta respuesta de @ttnphns para una discusión similar .

Curiosamente, las variaciones de todos los componentes discriminantes se sumarán a algo más pequeño que la varianza total (incluso si el número de clases en el conjunto de datos es mayor que el número de dimensiones; como solo hay ejes discriminantes , lo harán ni siquiera forman una base en el caso ). Esta es una observación no trivial (Lema 4) que se deduce del hecho de que todos los componentes discriminantes tienen correlación cero (Lema 3). Lo que significa que podemos calcular la proporción habitual de varianza para cada componente discriminante, pero su suma será inferior al 100%.KnorteK-1K-1<norte

Sin embargo, soy reacio a referirme a estas variaciones de componentes como "variaciones explicadas" (llamémoslas "variaciones capturadas"). Para cada componente LDA, uno puede calcular la cantidad de varianza que puede explicar en los datos al hacer retroceder los datos en este componente; este valor en general será mayor que la propia varianza "capturada" de este componente. Si hay suficientes componentes, entonces juntos su varianza explicada debe ser del 100%. Vea mi respuesta aquí para saber cómo calcular dicha varianza explicada en un caso general: Análisis de componentes principales "hacia atrás": ¿cuánta varianza de los datos se explica por una combinación lineal dada de las variables?

Aquí hay una ilustración que usa el conjunto de datos de Iris (¡solo medidas separadas!): PCA y LDA de las mediciones individuales del conjunto de datos Iris Las líneas continuas finas muestran ejes PCA (son ortogonales), las líneas gruesas discontinuas muestran ejes LDA (no ortogonales). Proporciones de varianza explicadas por los ejes PCA: y . Proporciones de relación señal / ruido de los ejes LDA: y . Proporciones de varianza capturadas por los ejes LDA: y (es decir, solo juntos). Proporciones de varianza explicadas por los ejes LDA: y .79%21%96%4 4%48%26%74%sesenta y cinco%35%

LDA eje 1LDA eje 2PCA eje 1PCA eje 2Varianza capturada48%26%79%21%Varianza explicadasesenta y cinco%35%79%21%Relación señal / ruido96%4 4%--

Lema 1. Vectores propios de (o, equivalentemente, vectores propios generalizados del problema de valor propio generalizado ) son puntos estacionarios del cociente de Rayleigh (diferencie este último para verlo), con los valores correspondientes del cociente de Rayleigh que proporcionan los valores propios , QED.vW-1sisiv=λWv

vsivvWv=siW
λ

Lema 2. Valores propios de son los mismos que los valores propios de (de hecho, estas dos matrices son similares ). Este último es simétrico positivo-definido, por lo que todos sus valores propios son positivos.W-1si=W-1/ /2W-1/ /2siW-1/ /2siW-1/ /2

Lema 3. Tenga en cuenta que la covarianza / correlación entre componentes discriminantes es cero. De hecho, diferentes vectores propios y del problema de valor propio generalizado son ambos - y -ortogonal ( ver, por ejemplo, aquí ), y también lo son -ortogonal (porque ), lo que significa que tienen covarianza cero: .v1v2siv=λWvsiWTT=W+siv1Tv2=0 0

Lema 4. Los ejes discriminantes forman una base no ortogonal , en la cual la matriz de covarianza es diagonal. En este caso, se puede demostrar que QED.VVTV

tr(VTV)<tr(T),
ameba
fuente
1
+1. Muchas de las cosas que discute aquí estaban cubiertas, un poco más comprimidas, en mi respuesta . He agregado un enlace a su respuesta actual en el cuerpo de mi respuesta anterior.
ttnphns
1
@ttnphns: Recuerdo esa respuesta tuya (tiene mi +1 de hace mucho tiempo), pero no miré allí al escribir esta respuesta, por lo que muchas cosas se presentan de manera muy similar, tal vez demasiado. Sin embargo, la razón principal por la que escribí esta respuesta fue para discutir la "varianza explicada" (en el sentido de PCA) de los componentes LDA. No estoy seguro de lo útil que es en la práctica, pero a menudo me preguntaba antes, y recientemente he luchado por algún tiempo para probar la desigualdad de Lemma 4 que al final se demostró para mí en Math.SE.
ameba
Tenga en cuenta que la diagonal de es , el denominador para calcular las correlaciones canónicas. VTVλ+1
ttnphns
@ttnphns: Hmmm ... creo que para cada vector propio , y como dices en tu respuesta vinculada . Pero el valor de (fuera de cualquier relación) no puede expresarse realmente solo con . v
si/ /W=vsivvWv=λ
si/ /T=vsivvTv=vsiv(vsiv+vWv)=λλ+1,
vTvλ
ameba
Me parece que el vector propio de un discriminante dado contiene información de para ese discriminante; cuando lo calibramos con que mantiene las covarianzas entre las variables, podemos llegar al valor propio del discriminante. Por lo tanto, la información sobre se almacena en vectores propios, y se "estandariza" a la forma correspondiente a ninguna correlación entre las variables. si/ /WTsi/ /W
ttnphns