Estaba leyendo algunas notas y dice que PCA puede "cambiar la esfera de los datos". Lo que me definen como "sphering the data" es dividir cada dimensión por la raíz cuadrada del valor propio correspondiente.
Supongo que por "dimensión" se refieren a cada vector base en el que estamos proyectando (es decir, los vectores propios a los que estamos proyectando). Por lo tanto, supongo que lo están haciendo:
dónde es uno de los vectores propios (es decir, uno de los componentes principales). Luego, con ese nuevo vector, supongo que están proyectando los datos sin procesar que tenemos, digamos a . Entonces los puntos proyectados ahora serían:
Afirman que hacer esto garantiza que todas las características tengan la misma variación.
Sin embargo, ni siquiera estoy seguro de si mi interpretación de lo que quieren decir con sphering es correcta y quería comprobar si lo era. Además, incluso si fuera correcto, ¿qué sentido tiene hacer algo como esto? Sé que afirman que se asegura de que todos tengan la misma variación, pero ¿por qué querríamos hacer esto y cómo se logra esto?
u
es el valor de eigenvectors y está relacionado con los valores de PC sin procesar.u'
se llama carga y está relacionado con los valores de PC normalizados (varianzas iguales). Es posible que desee leer mi respuesta al respecto: stats.stackexchange.com/a/35653/3277 .Respuestas:
Tu comprensión es correcta. Eche un vistazo a esta figura que representa varias posibilidades de sus puntos de datos: http://shapeofdata.files.wordpress.com/2013/02/pca22.png
Se ven elipsoidales. Si hace lo que ha descrito anteriormente, es decir, comprime los puntos en la dirección en la que están más extendidos (aproximadamente la línea de 45 grados en la imagen), los puntos estarán en un círculo (esfera en dimensiones más altas).
Una razón por la que esferifica los datos es al hacer predicciones y comprender qué coordenadas son importantes. Digamos que deseas predeciry utilizando x1 y x2 , y obtienes valores de coeficientes β1 y β2 es decir y∼β1x1+β2x2 . Ahora six1 y x2 tienen la misma varianza, es decir, se distribuyen esféricamente más o menos, y usted encuentra que β1=1 mientras β2=10 , puedes interpretar que esto dice que x2 influencias y mas que x1 . Sin embargo, si sus escalas no fueran las mismas, yx1 fue distribuido 10 veces más que x2 , obtendría los valores anteriores de β1 y β2 incluso si ambos influyeron y más o menos lo mismo. Para resumir, "esferifica" o "normaliza" para hacer inferencias sobre la importancia de la variable a partir de su coeficiente.
fuente