Estoy tomando datos ficticios de temperatura vs Ventas de helados y los categoricé usando K Means (n clusters = 2) para distinguir 2 categorías (totalmente ficticias).
Ahora estoy haciendo un Análisis de componentes principales en estos datos y mi objetivo es comprender lo que veo. Sé que el objetivo de PCA es reducir la dimensionalidad (obviamente no en este caso) y mostrar la varianza de los elementos. Pero, ¿cómo lees el diagrama de PCA a continuación, es decir, cuál es la historia que puedes contar sobre la temperatura frente al helado en el diagrama de PCA? ¿Qué significan las PC 1ra (X) y 2da (Y)?
Respuestas:
Esto es a menudo lo que la gente supone, pero de hecho PCA es solo una representación de sus datos en una base ortogonal. Esta base todavía tiene la misma dimensionalidad que sus datos originales. Nada se pierde ... todavía. La parte de reducción de dimensionalidad es completamente suya. Lo que PCA asegura es que las dimensiones superiores de su nueva proyección son las mejores dimensiones en las que sus datos podrían representarse. ¿Qué significa mejor? Ahí es donde entra en juego la varianza explicada.k k
¡No estaría tan seguro de eso! Desde su segunda gráfica, visualmente parece que gran parte de la información de sus datos puede proyectarse en una línea horizontal. ¡Esa es 1 dimensión, en lugar de la trama original que estaba en 2 dimensiones! Obviamente pierde algo de información porque está eliminando el eje Y, pero es su decisión aceptar si esta pérdida de información es aceptable.
Hay un montón de preguntas relacionadas con qué PCA está en el sitio, así que le recomiendo que las consulte aquí , aquí , aquí o aquí . Si tiene otras preguntas después de eso, publíquelas y con gusto lo ayudaré.
Como tu pregunta real:
Dado que los nuevos ejes de coordenadas son una combinación lineal de las coordenadas originales, entonces ... ¡básicamente nada! PCA le dará una respuesta como (números compuestos):
¿Eso es útil para ti? Tal vez. Pero supongo que no :)
Editado
Agregaré este recurso que creo que es útil porque los gráficos interactivos son geniales.
Editado de nuevo
Para aclarar qué significa mejor :k
PCA intenta encontrar las dimensiones que producen la mayor varianza cuando los datos se proyectan sobre ellas. Suponiendo que sus datos tienen dimensiones, las primeras PC explican más varianza en sus datos que cualquier otra dimensión. Eso es lo que quiero decir con mejor . Si eso es útil o no es otra cosa.n > k k k k
fuente
A la buena respuesta de Ilan man, agregaría que hay una interpretación bastante directa de sus componentes principales, aunque en este simple caso 2D no agrega mucho a lo que podríamos haber interpretado simplemente mirando el diagrama de dispersión.
La primera PC es una suma ponderada (es decir, una combinación lineal donde ambos coeficientes son positivos) de temperatura y consumo de helado. En el lado derecho tiene días calurosos donde se vende mucho helado, y en el lado izquierdo tiene días más fríos donde se vende menos helado. Esa PC explica la mayor parte de tu variación y los grupos que tienes coinciden con esos dos lados.
La segunda PC mide cómo la temperatura y el consumo de helado se alejan de la estrecha relación lineal subrayada por la primera PC. En la parte superior del gráfico tenemos días con más helado vendido en comparación con otros días de la misma temperatura y en la parte inferior días con menos helado vendido de lo esperado según la temperatura. Esa PC explica solo una pequeña parte de la variación.
Es decir, podemos contar una historia a partir de los componentes principales, aunque con solo dos variables es la misma historia que podríamos haber notado sin PCA. Con más variables, la PCA se vuelve más útil porque cuenta historias que de otra manera serían más difíciles de notar.
fuente