Normalicé mi conjunto de datos y luego ejecuté PCA de 3 componentes para obtener pequeñas razones de varianza explicadas ([0.50, 0.1, 0.05]).
Cuando no me normalicé pero blanqueé mi conjunto de datos y luego ejecuté PCA de 3 componentes, obtuve altas razones de varianza explicadas ([0.86, 0.06,0.01]).
Como quiero retener la mayor cantidad de datos en 3 componentes, ¿NO debería normalizar los datos? Según tengo entendido, siempre deberíamos normalizarnos antes de PCA.
Al normalizar: establecer media a 0 y tener varianza unitaria.
Respuestas:
Depende del objetivo de su análisis. Algunas prácticas comunes, algunas de las cuales se mencionan en el enlace de whuber:
Ejemplo intuitivo:
Supongamos que tiene dos variables: la altura de un árbol y la circunferencia del mismo árbol. Convertiremos el volumen a un factor: un árbol tendrá un volumen alto si su volumen es mayor a 20 pies cúbicos, y de otro modo será bajo en volumen. Usaremos el conjunto de datos de árboles que viene precargado en R.
Ahora suponga que la altura se midió en millas en lugar de pies.
El primer componente explica casi el 100% de la variabilidad en los datos. Las cargas:
Valoración gráfica:
Vemos que los árboles de alto volumen tienden a tener una circunferencia de árbol alta, pero las tres alturas no dan ninguna información sobre el volumen del árbol. Esto probablemente sea incorrecto y la consecuencia de las dos unidades de medida diferentes.
Podríamos usar las mismas unidades, o podríamos estandarizar las variables. Espero que ambos conduzcan a una imagen más equilibrada de la variabilidad. Por supuesto, en este caso se puede argumentar que las variables deberían tener la misma unidad pero no estar estandarizadas, lo cual puede ser un argumento válido, si no fuera que estamos midiendo dos cosas diferentes. (Cuando estaríamos midiendo el peso del árbol y la circunferencia del árbol, la escala en la que ambos deberían medirse ya no es muy clara. En este caso tenemos un argumento claro para trabajar en las variables estandarizadas).
Ahora vemos que los árboles que son altos y tienen una gran circunferencia, son de alto volumen (esquina inferior izquierda), en comparación con la circunferencia baja y baja altura para árboles de bajo volumen (esquina superior derecha). Esto intuitivamente tiene sentido.
Sin embargo, si uno observa de cerca, vemos que el contraste entre el volumen alto / bajo es más fuerte en la dirección de la circunferencia y no en la dirección de la altura. Veamos qué sucede cuando estandarizamos:
De hecho, la circunferencia ahora explica la mayoría de la diferencia en árboles de alto y bajo volumen. (La longitud de la flecha en el biplot es indicativa de la varianza en la variable original). Por lo tanto, incluso si las cosas se miden en la misma escala, la estandarización puede ser útil. No se recomienda la estandarización cuando, por ejemplo, comparamos la longitud de diferentes especies de árboles porque esta es exactamente la misma medida.
fuente