¿Cómo es exactamente mejor la PCA dispersa que la PCA?

24

Aprendí sobre PCA hace unas conferencias en clase y al investigar más sobre este concepto fascinante, aprendí sobre PCA escasa.

Quería preguntar, si no me equivoco, esto es lo que es PCA escaso: en PCA, si tiene puntos de datos con variables, puede representar cada punto de datos en espacio dimensional antes de aplicar PCA. Después de aplicar PCA, puede volver a representarlo en el mismo espacio dimensional, pero, esta vez, el primer componente principal contendrá la mayor varianza, el segundo contendrá la segunda dirección más varianza y así sucesivamente. Por lo tanto, puede eliminar los últimos componentes principales, ya que no causarán una gran pérdida de datos, y puede comprimir los datos. ¿Correcto?npp

La PCA dispersa está seleccionando componentes principales de modo que estos componentes contengan menos valores distintos de cero en sus coeficientes vectoriales.

¿Cómo se supone que esto te ayudará a interpretar mejor los datos? ¿Alguien puede dar un ejemplo?

GrowinMan
fuente
Hola @GrowinMan! ¿Has visto mi respuesta a esta pregunta? ¿Crees que lo responde? De lo contrario, no dude en solicitar cualquier aclaración, o tal vez considere editar su pregunta para que sea más precisa. En caso afirmativo, considere la posibilidad de votar y "aceptar" haciendo clic en una marca verde cercana. Noté que tienes cero votos y cero hilos aceptados aquí en CrossValidated.
ameba dice Reinstate Monica
@amoeba Gracias por señalar eso. No he iniciado sesión por un tiempo y también estoy un poco fuera de contacto con el aprendizaje automático. Me aseguraré de leer su respuesta nuevamente y marcar las respuestas aquí para el fin de semana
GrowinMan
No hay problema. Me encontré accidentalmente con este viejo hilo y pensé en dejarte caer una línea.
ameba dice Reinstate Monica
Hola @GrowinMan! :-) Encontré este viejo hilo de nuevo. Si todavía siente que esta pregunta no está resuelta, no dude en solicitar aclaraciones. De lo contrario, considere votar y "aceptar" una de las respuestas haciendo clic en una marca verde cercana. Noté que tienes cero votos y cero hilos aceptados aquí en CrossValidated.
ameba dice Reinstate Monica

Respuestas:

29

Si la PCA dispersa es más fácil de interpretar que la PCA estándar o no, depende del conjunto de datos que esté investigando. Así es como lo pienso: a veces uno está más interesado en las proyecciones de PCA (representación dimensional baja de los datos) y, a veces, en los ejes principales; es solo en el último caso que la PCA dispersa puede tener algún beneficio para la interpretación. Déjame darte un par de ejemplos.

Por ejemplo, estoy trabajando con datos neuronales (grabaciones simultáneas de muchas neuronas) y estoy aplicando PCA y / o técnicas de reducción de dimensionalidad relacionadas para obtener una representación de baja dimensión de la actividad de la población neuronal. Podría tener 1000 neuronas (es decir, mis datos viven en un espacio de 1000 dimensiones) y quiero proyectarlo en los tres ejes principales principales. Lo que son estos ejes, es totalmente irrelevante para mí, y no tengo intención de "interpretar" estos ejes de ninguna manera. Lo que me interesa es la proyección 3D (como la actividad depende del tiempo, obtengo una trayectoria en este espacio 3D). Así que estoy bien si cada eje tiene todos los 1000 coeficientes distintos de cero.

Por otro lado, alguien podría estar trabajando con datos más "tangibles", donde las dimensiones individuales tienen un significado obvio (a diferencia de las neuronas individuales anteriores). Por ejemplo, un conjunto de datos de varios automóviles, donde las dimensiones varían desde el peso hasta el precio. En este caso, uno podría estar realmente interesado en los ejes principales principales, porque podría querer decir algo: mire, el primer eje principal corresponde a la "fantasía" del automóvil (estoy inventando todo esto ahora). Si la proyección es escasa, tales interpretaciones generalmente serían más fáciles de dar, porque muchas variables tendrán coeficientes y, por lo tanto, obviamente son irrelevantes para este eje en particular. En el caso de PCA estándar, generalmente se obtienen coeficientes distintos de cero para todas las variables.0

Puede encontrar más ejemplos y un poco de discusión sobre el último caso en el documento Sparse PCA 2006 de Zou et al. La diferencia entre el primer y el último caso, sin embargo, no vi discutido explícitamente en ningún lado (aunque probablemente lo fue).

ameba dice Reinstate Monica
fuente
3
Esta fue una gran explicación. Otro ejemplo de sus datos "tangibles" sería una encuesta con muchas preguntas y desea saber qué preguntas de la encuesta son más importantes y tal vez alguna combinación de ellas realmente esté preguntando sobre un tema.
bdeonovic
1

Por lo tanto, puede eliminar los últimos componentes principales, ya que no causarán una gran pérdida de datos, y puede comprimir los datos. ¿Correcto?

norteV1,V2,,VnortenortePAGSdo1,PAGSdo2,,PAGSdonorteVyoPAGSdoyo

PAGSdoyoVj,Vl,

(PAGSdoyo,PAGSdoj)norte

Leon-Alph
fuente
¿¡Cómo!? No veo cómo sería fácil de interpretar en este caso en lugar de cuando los componentes principales no son escasos.
GrowinMan
2
La forma en que pienso sobre esto es que a menudo hacemos clustering variable antes de la PC para que los resultados sean más interpretables. Sparse PC combina clustering variable y PC en un solo paso, lo que requiere menos decisiones por parte del analista.
Frank Harrell
1

Para comprender las ventajas de la escasez en PCA, debe asegurarse de conocer la diferencia entre "cargas" y "variables" (para mí, estos nombres son algo arbitrarios, pero eso no es importante).

Supongamos que tiene una matriz de datos nxp X , donde n es el número de muestras. La SVD de X = USV ' , te da tres matrices. La combinación de los dos primeros Z = US te da la matriz de componentes principales. Digamos que su rango reducido es k , entonces Z es nxk . Z es esencialmente su matriz de datos después de la reducción de dimensiones. Históricamente,

Las entradas de sus componentes principales (también conocidos como Z = US ) se denominan variables.

Por otro lado, V (que es pxk ) contiene los vectores de carga principal y sus entradas se denominan cargas principales. Dadas las propiedades de PCA, es fácil mostrar que Z = XV . Esto significa que:

Los componentes principales se derivan mediante el uso de las principales cargas como coeficientes en una combinación lineal de su matriz de datos X .

Ahora que estas definiciones están fuera del camino, veremos la escasez. La mayoría de los documentos (o al menos la mayoría que he encontrado), imponen escasez en las cargas principales (también conocido como V ). La ventaja de la escasez es que

una V escasa nos dirá qué variables (del espacio de características p -dimensional original ) valen la pena mantener. Esto se llama interpretabilidad.

También hay interpretaciones para imponer la dispersión en las entradas de Z , que he visto a la gente llamar "PCA variable dispersa" ", pero eso es mucho menos popular y, para ser sincero, no he pensado mucho en eso.

idnavid
fuente