Aprendí sobre PCA hace unas conferencias en clase y al investigar más sobre este concepto fascinante, aprendí sobre PCA escasa.
Quería preguntar, si no me equivoco, esto es lo que es PCA escaso: en PCA, si tiene puntos de datos con variables, puede representar cada punto de datos en espacio dimensional antes de aplicar PCA. Después de aplicar PCA, puede volver a representarlo en el mismo espacio dimensional, pero, esta vez, el primer componente principal contendrá la mayor varianza, el segundo contendrá la segunda dirección más varianza y así sucesivamente. Por lo tanto, puede eliminar los últimos componentes principales, ya que no causarán una gran pérdida de datos, y puede comprimir los datos. ¿Correcto?
La PCA dispersa está seleccionando componentes principales de modo que estos componentes contengan menos valores distintos de cero en sus coeficientes vectoriales.
¿Cómo se supone que esto te ayudará a interpretar mejor los datos? ¿Alguien puede dar un ejemplo?
fuente
Respuestas:
Si la PCA dispersa es más fácil de interpretar que la PCA estándar o no, depende del conjunto de datos que esté investigando. Así es como lo pienso: a veces uno está más interesado en las proyecciones de PCA (representación dimensional baja de los datos) y, a veces, en los ejes principales; es solo en el último caso que la PCA dispersa puede tener algún beneficio para la interpretación. Déjame darte un par de ejemplos.
Por ejemplo, estoy trabajando con datos neuronales (grabaciones simultáneas de muchas neuronas) y estoy aplicando PCA y / o técnicas de reducción de dimensionalidad relacionadas para obtener una representación de baja dimensión de la actividad de la población neuronal. Podría tener 1000 neuronas (es decir, mis datos viven en un espacio de 1000 dimensiones) y quiero proyectarlo en los tres ejes principales principales. Lo que son estos ejes, es totalmente irrelevante para mí, y no tengo intención de "interpretar" estos ejes de ninguna manera. Lo que me interesa es la proyección 3D (como la actividad depende del tiempo, obtengo una trayectoria en este espacio 3D). Así que estoy bien si cada eje tiene todos los 1000 coeficientes distintos de cero.
Por otro lado, alguien podría estar trabajando con datos más "tangibles", donde las dimensiones individuales tienen un significado obvio (a diferencia de las neuronas individuales anteriores). Por ejemplo, un conjunto de datos de varios automóviles, donde las dimensiones varían desde el peso hasta el precio. En este caso, uno podría estar realmente interesado en los ejes principales principales, porque podría querer decir algo: mire, el primer eje principal corresponde a la "fantasía" del automóvil (estoy inventando todo esto ahora). Si la proyección es escasa, tales interpretaciones generalmente serían más fáciles de dar, porque muchas variables tendrán coeficientes y, por lo tanto, obviamente son irrelevantes para este eje en particular. En el caso de PCA estándar, generalmente se obtienen coeficientes distintos de cero para todas las variables.0
Puede encontrar más ejemplos y un poco de discusión sobre el último caso en el documento Sparse PCA 2006 de Zou et al. La diferencia entre el primer y el último caso, sin embargo, no vi discutido explícitamente en ningún lado (aunque probablemente lo fue).
fuente
fuente
Para comprender las ventajas de la escasez en PCA, debe asegurarse de conocer la diferencia entre "cargas" y "variables" (para mí, estos nombres son algo arbitrarios, pero eso no es importante).
Supongamos que tiene una matriz de datos nxp X , donde n es el número de muestras. La SVD de X = USV ' , te da tres matrices. La combinación de los dos primeros Z = US te da la matriz de componentes principales. Digamos que su rango reducido es k , entonces Z es nxk . Z es esencialmente su matriz de datos después de la reducción de dimensiones. Históricamente,
Por otro lado, V (que es pxk ) contiene los vectores de carga principal y sus entradas se denominan cargas principales. Dadas las propiedades de PCA, es fácil mostrar que Z = XV . Esto significa que:
Ahora que estas definiciones están fuera del camino, veremos la escasez. La mayoría de los documentos (o al menos la mayoría que he encontrado), imponen escasez en las cargas principales (también conocido como V ). La ventaja de la escasez es que
También hay interpretaciones para imponer la dispersión en las entradas de Z , que he visto a la gente llamar "PCA variable dispersa" ", pero eso es mucho menos popular y, para ser sincero, no he pensado mucho en eso.
fuente