Tengo un clasificador en el que estoy haciendo validación cruzada, junto con un centenar de características en las que estoy haciendo la selección hacia adelante para encontrar combinaciones óptimas de características. También comparo esto con la ejecución de los mismos experimentos con PCA, donde tomo las características potenciales, aplico SVD, transformo las señales originales en el nuevo espacio de coordenadas y uso las principales características en mi proceso de selección hacia adelante.
Mi intuición era que PCA mejoraría los resultados, ya que las señales serían más "informativas" que las características originales. ¿Mi comprensión ingenua de PCA me está llevando a problemas? ¿Alguien puede sugerir algunas de las razones comunes por las cuales la PCA puede mejorar los resultados en algunas situaciones, pero empeorarlas en otras?
fuente
Respuestas:
Considere un caso simple, sacado de un excelente artículo infravalorado "Una nota sobre el uso de componentes principales en la regresión" .
Suponga que solo tiene dos características (escaladas y desmedidas), denótelas y con una correlación positiva igual a 0.5, alineadas en , y una tercera variable de respuesta que desea clasificar. Suponga que la clasificación de está completamente determinada por el signo de .x 2 X Y Y x 1 - x 2X1 X2 X Y Y X1- x2
La realización de PCA en da como resultado las nuevas características (ordenadas por variación) , ya que . Por lo tanto, si reduce su dimensión a 1, es decir, el primer componente principal, ¡está descartando la solución exacta a su clasificación![ x 1 + x 2 , x 1 - x 2 ] Var ( x 1 + x 2 ) = 1 + 1 + 2 ρ > Var ( x 1 - x 2 ) = 2 - 2 ρX [ x1+ x2, x1- x2] Var( x1+x2) = 1 + 1 + 2 ρ > Var(x1-x2) = 2 - 2 ρ
El problema se debe a la PCA es agnóstico a . Desafortunadamente, tampoco se puede incluir en el PCA, ya que esto provocará una fuga de datos.YY Y
La fuga de datos es cuando su matriz se construye utilizando los predictores objetivo en cuestión, por lo tanto, cualquier predicción fuera de la muestra será imposible.X
Por ejemplo: en series de tiempo financieras, tratar de predecir el cierre europeo del final del día, que ocurre a las 11:00 a.m.EST, utilizando cierres estadounidenses al final del día, a las 4:00 p.m.EST, es una fuga de datos desde que el estadounidense cierra , que ocurren horas después, han incorporado los precios de los cierres europeos.
fuente
Hay una explicación geométrica simple. Pruebe el siguiente ejemplo en R y recuerde que el primer componente principal maximiza la varianza.
PCA ayuda
La dirección de la varianza máxima es horizontal, y las clases se separan horizontalmente.
PCA duele
La dirección de la varianza máxima es horizontal, pero las clases están separadas verticalmente.
fuente
PCA es lineal, duele cuando quieres ver dependencias no lineales.
PCA en imágenes como vectores:
Un algoritmo no lineal (NLDR) que redujo las imágenes a 2 dimensiones, rotación y escala:
Más información: http://en.wikipedia.org/wiki/Nonlinear_dimensionality_reduction
fuente
Veo que la pregunta ya tiene una respuesta aceptada pero quería compartir este documento que habla sobre el uso de PCA para la transformación de características antes de la clasificación .
El mensaje para llevar a casa (que se visualiza maravillosamente en la respuesta de @ vqv) es:
Para aquellos interesados, si observan la Sección 4. Los resultados experimentales , comparan las precisiones de clasificación con 1) las características originales, 2) las características transformadas de PCA y 3) la combinación de ambas, que era algo nuevo para mí.
Mi conclusión:
Las transformaciones de características basadas en PCA permiten resumir la información de una gran cantidad de características en un número limitado de componentes, es decir, combinaciones lineales de las características originales. Sin embargo, los componentes principales son a menudo difíciles de interpretar (no intuitivos), y como los resultados empíricos en este documento indican que generalmente no mejoran el rendimiento de la clasificación.
PD: Observo que una de las limitaciones del artículo que debería haber sido incluido en la lista fue el hecho de que los autores limitaron la evaluación del desempeño de los clasificadores a 'precisión', lo que puede ser un indicador de desempeño muy sesgado.
fuente
fuente