La idea básica cuando se utiliza PCA como herramienta para la selección de características es seleccionar variables de acuerdo con la magnitud (de mayor a menor en valores absolutos) de sus coeficientes ( cargas ). Puede recordar que PCA busca reemplazar (variables más o menos correlacionadas) por combinaciones lineales no correlacionadas (proyecciones) de las variables originales. Ignoremos cómo elegir una óptima para el problema en cuestión. Esos componentes principales se clasifican por importancia a través de su varianza explicada, y cada variable contribuye con un grado variable a cada componente. Usar los criterios de mayor varianza sería similar a la extracción de característicask < p k k j < p j p jpagsk < pkk , donde el componente principal se usa como nuevas características, en lugar de las variables originales. Sin embargo, podemos decidir mantener solo el primer componente y seleccionar las variables que tienen el coeficiente absoluto más alto; el número podría basarse en la proporción del número de variables (por ejemplo, mantener solo el 10% superior de las variables ), o un límite fijo (por ejemplo, considerando un umbral en los coeficientes normalizados). Este enfoque tiene cierta semejanza con el operador Lasso en la regresión penalizada (o regresión PLS ). Sin embargo, ni el valor de ni el número de componentes a retener son elecciones obvias.j < pjpj
El problema con el uso de PCA es que (1) las mediciones de todas las variables originales se usan en la proyección hacia el espacio dimensional inferior, (2) solo se consideran las relaciones lineales y (3) los métodos basados en PCA o SVD, también como métodos de cribado univariados (prueba t, correlación, etc.), no tenga en cuenta la naturaleza multivariada potencial de la estructura de datos (p. ej., interacción de orden superior entre variables).
Sobre el punto 1, se han propuesto algunos métodos de cribado más elaborados, por ejemplo , análisis de características principales o método por etapas, como el utilizado para el ' afeitado genético ' en estudios de expresión génica. Además, la PCA dispersa podría usarse para realizar la reducción de dimensiones y la selección de variables según las cargas variables resultantes. Sobre el punto 2, es posible usar el kernel PCA (usando el truco del kernel ) si se necesita incrustar relaciones no lineales en un espacio dimensional inferior. Los árboles de decisión , o mejor el algoritmo de bosque aleatorio , probablemente estén mejor capacitados para resolver el Punto 3. Este último permite derivar medidas basadas en Gini- o permutación de importancia variable .
Un último punto: si tiene la intención de realizar una selección de características antes de aplicar un modelo de clasificación o regresión, asegúrese de validar de manera cruzada todo el proceso (consulte §7.10.2 de los Elementos de aprendizaje estadístico , o Ambroise y McLachlan, 2002 ).
Como parece estar interesado en la solución R, recomendaría echar un vistazo al paquete de intercalación que incluye muchas funciones útiles para el preprocesamiento de datos y la selección de variables en un contexto de clasificación o regresión.
Dado un conjunto de N características, un análisis de PCA producirá (1) la combinación lineal de las características con la mayor varianza (primer componente de PCA), (2) la combinación lineal con la mayor varianza en el subespacio ortogonal al primer componente de PCA, etc. (bajo la restricción de que los coeficientes de la combinación forman un vector con unidad de norma) Si la combinación lineal con la varianza máxima es una característica "buena" realmente depende de lo que intente predecir. Por esta razón, diría que ser un componente de PCA y ser una "buena" característica son (en general) dos nociones no relacionadas.
fuente
No puede ordenar las características de acuerdo con su varianza, ya que la varianza utilizada en PCA es básicamente una entidad multidimensional. Solo puede ordenar entidades por la proyección de la varianza a cierta dirección que elija (que normalmente es el primer componente principal). Entonces, en otras palabras, si una entidad tiene más varianza que otra depende de cómo elija su dirección de proyección.
fuente