Tengo un conjunto de datos nominalmente de 16 dimensiones. Tengo alrededor de 100 muestras en un caso y alrededor de 20,000 en otro. Basado en varios análisis exploratorios que realicé utilizando PCA y mapas de calor, estoy convencido de que la verdadera dimensionalidad (es decir, el número de dimensiones necesarias para capturar la mayor parte de la "señal") es de alrededor de 4. Quiero crear una diapositiva para ese efecto para una presentación. La "sabiduría convencional" sobre estos datos, que estoy tratando de refutar, es que la verdadera dimensionalidad es una o dos.
¿Qué es una visualización buena y simple para mostrar la verdadera dimensionalidad de un conjunto de datos? Preferiblemente debería ser comprensible para las personas que tienen algunos antecedentes en estadísticas pero que no son estadísticos "reales".
Respuestas:
Un enfoque estándar sería hacer PCA y luego mostrar un diagrama de pantalla, que debería poder obtener de cualquier software que elija. Un pequeño retoque y podría hacerlo más interpretable para su audiencia particular si es necesario. A veces pueden ser convincentes, pero a menudo son ambiguos y siempre hay espacio para discutir sobre cómo leerlos, por lo que una trama de pantalla puede (editar: ¡no!) Ser ideal. Vale la pena echarle un vistazo.
fuente
psych
implementa ambos con gráficos de pantalla similares (verfa.parallel()
yVSS()
). El documento es "Comparación de cinco reglas para determinar el número de componentes a retener".Una forma de visualizar esto sería la siguiente:
En Matlab (agachándose de todos los zapatos lanzados):
Esto genera el siguiente diagrama de dispersión:
Si cambia
lat_d
a 4, la línea es menos plana.fuente
He hecho algo similar usando PROC Varclus en SAS. La idea básica es generar una solución de 4 conglomerados, elegir la variable correlacionada más alta con cada conglomerado y luego demostrar que esta solución con 4 conglomerados explica más la variación que la solución con dos conglomerados. Para la solución de 2 clústeres, puede usar Varclus o los primeros 2 Componentes principales, pero me gusta Varclus ya que todo se explica a través de variables y no de los componentes. Hay un varclus en R, pero no estoy seguro de si hace lo mismo.
-Ralph Winters
fuente