Estoy siguiendo un tutorial aquí: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ para obtener una mejor comprensión de PCA.
El tutorial utiliza el conjunto de datos Iris y aplica una transformación de registro antes de PCA:
Observe que en el siguiente código aplicamos una transformación logarítmica a las variables continuas según lo sugerido por [1] y establecemos
center
escale
iguales aTRUE
en la llamada aprcomp
para estandarizar las variables antes de la aplicación de PCA.
¿Podría alguien explicarme en inglés simple por qué utiliza primero la función de registro en las primeras cuatro columnas del conjunto de datos de Iris. Entiendo que tiene algo que ver con hacer que los datos sean relativos, pero estoy confundido sobre cuál es exactamente la función de registro, centro y escala.
La referencia [1] anterior es a Venables y Ripley, estadísticas aplicadas modernas con S-PLUS , Sección 11.1 que dice brevemente:
Los datos son medidas físicas, por lo que una estrategia inicial sólida es trabajar en escala logarítmica. Esto se ha hecho en todo momento.
fuente
Respuestas:
El conjunto de datos de iris es un buen ejemplo para aprender PCA. Dicho esto, las primeras cuatro columnas que describen la longitud y el ancho de sépalos y pétalos no son un ejemplo de datos fuertemente sesgados. Por lo tanto, la transformación logarítmica de los datos no cambia mucho los resultados, ya que la rotación resultante de los componentes principales no cambia mucho por la transformación logarítmica.
En otras situaciones, la transformación logarítmica es una buena opción.
Realizamos PCA para obtener información sobre la estructura general de un conjunto de datos. Centramos, escalamos y, a veces, log-transform para filtrar algunos efectos triviales, que podrían dominar nuestro PCA. El algoritmo de una PCA a su vez encontrará la rotación de cada PC para minimizar los residuos al cuadrado, es decir, la suma de las distancias perpendiculares al cuadrado de cualquier muestra a las PC. Los valores grandes tienden a tener un alto apalancamiento.
Imagine inyectar dos nuevas muestras en los datos del iris. Una flor con una longitud de pétalo de 430 cm y otra con una longitud de pétalo de 0.0043 cm. Ambas flores son muy anormales, son 100 veces más grandes y 1000 veces más pequeñas, respectivamente, que los ejemplos promedio. El apalancamiento de la primera flor es enorme, de modo que las primeras PC en su mayoría describirán las diferencias entre la flor grande y cualquier otra flor. La agrupación de especies no es posible debido a ese valor atípico. Si los datos se transforman logarítmicamente, el valor absoluto ahora describe la variación relativa. Ahora la pequeña flor es la más anormal. No obstante, es posible contener todas las muestras en una imagen y proporcionar una agrupación justa de las especies. Mira este ejemplo:
fuente
Bueno, la otra respuesta da un ejemplo, cuando la transformación logarítmica se usa para reducir la influencia de valores extremos o valores atípicos.
Se produce otro argumento general cuando intenta analizar datos que son compuestos multiplicativamente en lugar de aditivamente : el modelo PCA y FA por sus composiciones matemáticas aditivas. MultiplicativoLas composiciones se producen en el caso más simple en datos físicos como la superficie y el volumen de cuerpos (funcionalmente) que dependen (por ejemplo) de los tres parámetros longitud, ancho, profundidad. Uno puede reproducir las composiciones de un ejemplo histórico de la PCA temprana, creo que se llama "problema de la bola de Thurstone (o" cubos ") o similar. Una vez que jugué con los datos de ese ejemplo y descubrí que los datos transformados logarítmicamente daban un modelo mucho más bonito y claro para la composición de los datos medidos de volumen y superficie con las tres medidas unidimensionales.
Además de estos ejemplos simples, si consideramos en la investigación social las interacciones de datos , entonces usualmente las pensamos, así como las mediciones compuestas multiplicativamente de elementos más elementales. Entonces, si observamos específicamente las interacciones, una transformación logarítmica podría ser una herramienta útil especial para obtener un modelo matemático para la descomposición.
fuente