En su papel en autoencoders para la clasificación de texto Hinton y Salakhutdinov demostrado la trama producida por 2-dimensional LSA (que está estrechamente relacionado con PCA): .
Aplicando PCA a datos dimensionales ligeramente altos, absolutamente diferentes, obtuve una gráfica similar: (excepto en este caso, realmente quería saber si hay alguna estructura interna).
Si introducimos datos aleatorios en PCA, obtenemos una gota en forma de disco, por lo que esta forma en forma de cuña no es aleatoria. ¿Significa algo por sí mismo?
data-visualization
pca
macleginn
fuente
fuente
Respuestas:
Suponiendo que las variables son positivas o no negativas, los bordes del borde son solo puntos más allá de los cuales los datos serían 0 o negativos, respectivamente. Como tales datos de la vida real tienden a estar sesgados, vemos una mayor densidad de puntos en el extremo inferior de su distribución y, por lo tanto, una mayor densidad en el "punto" de la cuña.
En términos más generales, PCA es simplemente una rotación de los datos y las restricciones sobre esos datos generalmente serán visibles en los componentes principales de la misma manera que se muestra en la pregunta.
Aquí hay un ejemplo que usa varias variables log-normalmente distribuidas:
Dependiendo de la rotación implicada por las dos primeras PC, es posible que vea la cuña o que vea una versión algo diferente, que se muestra aquí en 3D usando (
ordirgl()
en lugar deplot()
)Aquí, en 3d, vemos múltiples picos que sobresalen de la masa central.
Y para variables aleatorias positivas uniformes vemos un cubo
Tenga en cuenta que aquí, para la ilustración, muestro el uniforme usando solo 3 variables aleatorias, por lo tanto, los puntos describen un cubo en 3d. Con dimensiones más altas / más variables no podemos representar el hipercubo 5d perfectamente en 3d y, por lo tanto, la forma distintiva del "cubo" se distorsiona un poco. Problemas similares afectan los otros ejemplos mostrados, pero aún es fácil ver las restricciones en esos ejemplos.
Para sus datos, una transformación logarítmica de las variables antes de PCA tiraría de las colas y estiraría los datos agrupados, tal como podría usar dicha transformación en una regresión lineal.
Otras formas pueden surgir en parcelas PCA; Una de esas formas es un artefacto de la representación métrica conservada en el PCA y se conoce como la herradura . Para datos con un gradiente largo o dominante (se sabe que las muestras ordenadas a lo largo de una sola dimensión con variables que aumentan de 0 a un máximo y luego disminuyen nuevamente a 0 a lo largo de porciones de datos generan estos artefactos).
que produce una herradura extrema, donde los puntos en los extremos de los ejes se doblan hacia el centro.
fuente