¿Qué significa "PCA (análisis de componentes principales) esferas de los datos"?

8

Estaba leyendo algunas notas y dice que PCA puede "cambiar la esfera de los datos". Lo que me definen como "sphering the data" es dividir cada dimensión por la raíz cuadrada del valor propio correspondiente.

Supongo que por "dimensión" se refieren a cada vector base en el que estamos proyectando (es decir, los vectores propios a los que estamos proyectando). Por lo tanto, supongo que lo están haciendo:

ui=uieigenValue(ui)

dónde uies uno de los vectores propios (es decir, uno de los componentes principales). Luego, con ese nuevo vector, supongo que están proyectando los datos sin procesar que tenemos, digamosx(i) a z(i). Entonces los puntos proyectados ahora serían:

z(i)=uix(i)

Afirman que hacer esto garantiza que todas las características tengan la misma variación.

Sin embargo, ni siquiera estoy seguro de si mi interpretación de lo que quieren decir con sphering es correcta y quería comprobar si lo era. Además, incluso si fuera correcto, ¿qué sentido tiene hacer algo como esto? Sé que afirman que se asegura de que todos tengan la misma variación, pero ¿por qué querríamos hacer esto y cómo se logra esto?

Pinocho
fuente
2
Lo que dices es correcto. ues el valor de eigenvectors y está relacionado con los valores de PC sin procesar. u'se llama carga y está relacionado con los valores de PC normalizados (varianzas iguales). Es posible que desee leer mi respuesta al respecto: stats.stackexchange.com/a/35653/3277 .
ttnphns
En otras palabras, puede calcular los valores de PC sin procesar y luego estandarizarlos para una varianza igual (unidad). O, para obtener el mismo resultado, primero puede calcular las cargas y luego calcular los valores de la PC con su ayuda.
ttnphns
Por lo que vale, la mayoría de la gente no consideraría este uso de 'esfera' como un verbo como un muy buen estilo inglés, incluso si es comprensible.
nekomatic

Respuestas:

4

Tu comprensión es correcta. Eche un vistazo a esta figura que representa varias posibilidades de sus puntos de datos: http://shapeofdata.files.wordpress.com/2013/02/pca22.png

Se ven elipsoidales. Si hace lo que ha descrito anteriormente, es decir, comprime los puntos en la dirección en la que están más extendidos (aproximadamente la línea de 45 grados en la imagen), los puntos estarán en un círculo (esfera en dimensiones más altas).

Una razón por la que esferifica los datos es al hacer predicciones y comprender qué coordenadas son importantes. Digamos que deseas predeciry utilizando x1 y x2, y obtienes valores de coeficientes β1 y β2 es decir yβ1x1+β2x2. Ahora six1 y x2 tienen la misma varianza, es decir, se distribuyen esféricamente más o menos, y usted encuentra que β1=1 mientras β2=10, puedes interpretar que esto dice que x2 influencias y mas que x1. Sin embargo, si sus escalas no fueran las mismas, yx1 fue distribuido 10 veces más que x2, obtendría los valores anteriores de β1 y β2 incluso si ambos influyeron ymás o menos lo mismo. Para resumir, "esferifica" o "normaliza" para hacer inferencias sobre la importancia de la variable a partir de su coeficiente.

elexhobby
fuente