¿Por qué la esfericidad diagnosticada por la prueba de Bartlett significa que un PCA es inapropiado?

14

Entiendo que la Prueba de Bartlett se preocupa por determinar si sus muestras son de poblaciones con varianzas iguales.

Si las muestras son de poblaciones con varianzas iguales, no podemos rechazar la hipótesis nula de la prueba y, por lo tanto, un análisis de componentes principales es inapropiado.

No estoy seguro de dónde radica el problema con esta situación (tener un conjunto de datos homoskedastic). ¿Cuál es el problema de tener un conjunto de datos donde la distribución subyacente de todos sus datos es la misma? Simplemente no veo el gran problema si existe esta condición. ¿Por qué esto haría que un PCA sea inapropiado?

Parece que no puedo encontrar ninguna buena información en ningún lugar en línea. ¿Alguien tiene alguna experiencia con la interpretación de por qué esta prueba es relevante para un PCA?

Matt O'Brien
fuente

Respuestas:

15

En respuesta al título de la pregunta.

1

Imagine ahora que la nube multivariada es perfectamente esférica (es decir, su matriz de covarianza es proporcional a la matriz de identidad). Entonces 1) cualquier dimensión arbitraria puede servir a los componentes principales, por lo que la solución PCA no es única; 2) todos los componentes tienen las mismas variaciones (valores propios), por lo que PCA no puede ayudar a reducir los datos.

Imagine el segundo caso donde la nube multivariante es elipsoide con oblongo estrictamente a lo largo de los ejes de las variables (es decir, su matriz de covarianza es diagonal: todos los valores son cero excepto la diagonal). Entonces la rotación implicada por la transformación PCA será cero; Los componentes principales son las variables en sí, solo reordenados y potencialmente revertidos por signo. Este es un resultado trivial: no se necesitaba PCA para descartar algunas dimensiones débiles para reducir los datos.


1

ttnphns
fuente
13

Parece que hay dos pruebas llamadas prueba de Bartlett . El que usted hizo referencia (1937) determina si sus muestras son de poblaciones con varianzas iguales. Otro parece probar si la matriz de correlación para un conjunto de datos es la matriz de identidad (1951). Tiene más sentido que no ejecute PCA en datos con una matriz de correlación de identidad, ya que solo recuperará sus variables originales, ya que ya no están correlacionadas. Comparar, por ejemplo,

usuario42628
fuente
2
+1 Esto resuelve las confusiones mejor que la otra respuesta.
HelloWorld