Análisis de componentes principales Eliminar el ruido en los datos

11

¿El análisis de componentes principales (PCA) elimina el ruido en el conjunto de datos? Si PCA no elimina el ruido en el conjunto de datos, ¿qué hace realmente PCA al conjunto de datos? ¿Alguien puede ayudarme con respecto a este asunto?

bbadyalina
fuente
1
No, no elimina el "ruido" (en el sentido de que los datos ruidosos seguirán siendo ruidosos). PCA es solo una transformación de datos. Cada componente de PCA representa una combinación lineal de predictores. Y los PCA pueden ordenarse por su valor propio: en un sentido más amplio, cuanto mayor es el valor propio, más se cubre la varianza. Por lo tanto, la transformación sin pérdida sería cuando tienes tantas PC como dimensiones. Ahora, cuando solo considera algunas PC con Ev grandes, descuida los componentes que agregan poca variación a los datos (pero esto no es "ruido").
Drey
2
Como ya señaló @Drey, los componentes de baja varianza no necesitan ser ruido. También podría tener ruido como componente de alta varianza.
Richard Hardy
Gracias. En realidad, hice lo que @Drey mencionó en su comentario, que eliminé las PC con un pequeño Ev que anteriormente pensé que era ruido dentro del conjunto de datos. Entonces, si quiero continuar eliminando las PC con un pequeño Ev, y lo utilicé como entrada para el modelo de regresión y mejoraré el rendimiento del modelo de regresión. ¿Puedo decir que PCA ha facilitado la interpretación de los datos y ha hecho que la predicción sea más precisa?
bbadyalina
@Richard Hardy si PCA no elimina el ruido de los datos, ¿cómo la transformación lineal mejora el conjunto de datos? De alguna manera me confundo acerca de esto, porque hay muchos investigadores que utilizaron PCA híbrido con el modelo de serie temporal que mejora el rendimiento de la predicción en comparación con el modelo convencional de serie temporal. Gracias por su respuesta.
bbadyalina
Ni los datos son "fáciles" (es una combinación lineal de características) ni serán fáciles de interpretar (interpretación de coeficientes en el modelo de regresión). Pero sus predicciones pueden volverse más precisas. Aún más, su modelo puede generalizar bien.
Drey

Respuestas:

15

El análisis de componentes principales (PCA) se utiliza para a) eliminar ruido yb) reducir la dimensionalidad.

No elimina el ruido, pero puede reducir el ruido.

Básicamente, se utiliza una transformación lineal ortogonal para encontrar una proyección de todos los datos en k dimensiones, mientras que estas k dimensiones son las de mayor varianza. Los vectores propios de la matriz de covarianza (del conjunto de datos) son las dimensiones objetivo y se pueden clasificar de acuerdo con sus valores propios. Un valor propio alto significa una alta varianza explicada por la dimensión del vector propio asociado.

Echemos un vistazo al conjunto de datos usps , obtenido escaneando dígitos escritos a mano desde sobres por el Servicio Postal de los EE. UU.

Primero, calculamos los vectores propios y los valores propios de la matriz de covarianza y graficamos todos los valores propios descendentes. Podemos ver que hay algunos valores propios que podrían denominarse componentes principales, ya que sus valores propios son mucho más altos que el resto.

Arriba: todos los valores propios de la matriz de covarianza del conjunto de datos usps, ordenados descendentes - hacia abajo: top25 valores propios

Cada vector propio es una combinación lineal de dimensiones originales . Por lo tanto, el vector propio (en este caso) es una imagen en sí misma, que se puede trazar.

Vector propio con 5 valores propios más altos graficados

Para b) la reducción de la dimensionalidad, ahora podríamos usar los cinco vectores propios principales y proyectar todos los datos (originalmente una imagen de 16 * 16 píxeles) en un espacio de 5 dimensiones con la menor pérdida de varianza posible.

(Tenga en cuenta aquí: en algunos casos, la reducción de dimensionalidad no lineal (como LLE) podría ser mejor que la PCA, consulte wikipedia para ver ejemplos)

Finalmente podemos usar PCA para eliminar ruidos. Por lo tanto, podemos agregar ruido adicional al conjunto de datos original en tres niveles (bajo, alto, atípico) para poder comparar el rendimiento. Para este caso, utilicé ruido gaussiano con media de cero y varianza como múltiplo de la varianza original (Factor 1 (bajo), Factor 2 (alto), Factor 20 (atípico)) Un posible resultado se ve así. Sin embargo, en cada caso, el parámetro k debe ajustarse para encontrar un buen resultado. ingrese la descripción de la imagen aquí

Finalmente, otra perspectiva es comparar los valores propios de los datos altamente ruidosos con los datos originales (comparar con la primera imagen de esta respuesta). Puede ver que el ruido afecta a todos los valores propios, por lo tanto, al utilizar solo los 25 valores propios principales para la eliminación de ruido, se reduce la influencia del ruido.

ingrese la descripción de la imagen aquí

Nikolas Rieble
fuente
Estas cifras son sólo hicieron que trate de encontrar SNR para ellos
Boris
No, acabo de utilizar estas figuras para ilustrar la conexión entre la reducción de ruido y PCA para un conjunto de datos de ejemplo. Puede escribir una respuesta que agregue una nueva perspectiva.
Nikolas Rieble
Hola Nikolas, tu respuesta es asombrosa, +1. Acabo de publicar una pregunta sobre el intercambio de pila de matemáticas, me preguntaba si podrías ayudar a responderla. Principalmente, estoy confundido acerca de POR QUÉ los vectores propios de la matriz de covarianza del conjunto de datos original resultan ser las direcciones de mayor varianza, y por lo tanto queremos proyectar sobre ellos ... aquí, estoy vinculando la pregunta: matemáticas. stackexchange.com/questions/3213775/… ¡Gracias!
joshuaronis