Supongamos que tengo un conjunto de datos -dimensional donde las dimensiones son más o menos ortogonales (tienen correlación cero).
¿Hay alguna utilidad en términos de:
- Visualización
- Representación (para la eficiencia del clasificador)
- U otros criterios
realizar una reducción de dimensionalidad en los datos?
pca
dimensionality-reduction
usuario1172468
fuente
fuente
Respuestas:
Quería aclarar un comentario que dejé bajo la respuesta de @ Peter-Flom, pero probablemente valga la pena escribirlo en una respuesta. ¿En qué medida puede reducir las dimensiones ejecutando PCA en datos casi ortogonales? La respuesta es "depende" de si realiza el PCA en la matriz de correlación o covarianza .
Si está utilizando PCA en la matriz de correlación, como esto solo diferirá ligeramente de la matriz de identidad, existe una simetría esférica que hace que todas las direcciones sean "igualmente informativas". Reescalar las variaciones de sus variables a una antes de PCA es un enfoque matemáticamente equivalente que producirá el mismo resultado. Si bien la salida de PCA identificará algunos componentes con una varianza ligeramente menor que otros, esto puede atribuirse (si suponemos una correlación cero en la población) a nada más que una variación casual en la muestra, por lo que no sería una buena razón para deshacerse de estos componentes. De hecho, tal disparidad entre las desviaciones estándar de los componentes debería reducirse en magnitud a medida que aumentamos el tamaño de la muestra. Podemos confirmar esto en una simulación.
Salida:
Sin embargo, si hace PCA utilizando la matriz de covarianza en lugar de la matriz de correlación (equivalente: si no escalamos las desviaciones estándar a 1 antes de aplicar PCA), la respuesta depende de la distribución de sus variables. Si sus variables tienen la misma variación, entonces todavía tenemos simetría esférica, por lo que no existe una "dirección privilegiada" y no se puede lograr la reducción dimensional.
Sin embargo, con una mezcla de variables de varianza alta y baja, la simetría es más como un elipsoide con algunos ejes anchos y otros delgados. En esta situación, se cargarán componentes de alta varianza en las variables de alta varianza (donde el elipsoide es ancho) y componentes de baja varianza que se cargarán en las variables de baja varianza (en qué direcciones el elipsoide es estrecho).
Si las variables tienen variaciones muy diferentes (geométricamente un elipsoide de nuevo pero con todos los ejes diferentes), entonces la ortogonalidad permite que la primera PC se cargue mucho en la variable de mayor varianza y así sucesivamente.
En los últimos dos casos hubo componentes de baja varianza que podría considerar tirar para lograr la reducción dimensional, pero hacerlo es exactamente equivalente a tirar las variables de menor varianza en primer lugar . Esencialmente, la ortogonalidad le permite identificar componentes de baja varianza con variables de baja varianza, por lo que si tiene la intención de reducir la dimensionalidad de esta manera, no está claro si se beneficiaría de usar PCA para hacerlo.
Nota bene: el tiempo dedicado a discutir el caso en el que las variables no se reescalan a la varianza unitaria, es decir, usar la matriz de covarianza en lugar de la correlación, no debe tomarse como una indicación de que este enfoque es de alguna manera más importante, y ciertamente no es que es mejor". La simetría de la situación es simplemente más sutil, por lo que requiere una discusión más larga.
fuente
Puede probar un método de aprendizaje múltiple de reducción de dimensionalidad no lineal más general , como la inclusión localmente lineal, mapas propios laplacianos o t-SNE.
Es perfectamente posible que haya un subespacio de dimensión inferior (múltiple) en sus datos de una manera que deje 0 correlación entre las dimensiones de base N. Por ejemplo, un círculo de puntos sobre el origen o la forma de onda como se ve aquí . PCA no recogerá esto, pero otros métodos lo harán.
Mirar estos métodos es especialmente interesante y común para la visualización y el análisis exploratorio de datos. Para usar dentro de un clasificador u otro modelo, deberá limitarse a los métodos que pueden ajustarse en el entrenamiento y aplicarse en las pruebas que excluyen muchos de estos métodos. Si este es su interés principal, también debe buscar métodos para la capacitación previa no supervisada y la ingeniería de funciones (supervisada).
fuente
Si todas las N variables son más o menos ortogonales, la reducción de la dimensión reducirá relativamente poco. Ej. En
R
En esencia, "ortogonal" implica "ya en su tamaño más pequeño".
fuente
x1<-rnorm(100, sd=0.1)
ypcsol <- princomp(df1, cor=FALSE)
y hay una diferencia, especialmente si miramossummary(pcsol)
. (No estoy sugiriendo que cov sea un mejor enfoque que cor, solo que es posible).