Quiero reducir la dimensionalidad de los sistemas de orden superior y capturar la mayor parte de la covarianza en un campo preferiblemente bidimensional o unidimensional. Entiendo que esto se puede hacer a través del análisis de componentes principales, y he usado PCA en muchos escenarios. Sin embargo, nunca lo he usado con tipos de datos booleanos, y me preguntaba si es significativo hacer PCA con este conjunto. Entonces, por ejemplo, imagine que tengo métricas cualitativas o descriptivas, y asigno un "1" si esa métrica es válida para esa dimensión, y un "0" si no lo es (datos binarios). Entonces, por ejemplo, imagina que estás tratando de comparar a los Siete Enanitos en Blancanieves. Tenemos:
Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy and Happy, y desea organizarlos en función de sus cualidades, y lo hizo así:
Entonces, por ejemplo, Bashful es intolerante a la lactosa y no está en la lista de honor A. Esta es una matriz puramente hipotética, y mi matriz real tendrá muchas más columnas descriptivas. Mi pregunta es, ¿sería apropiado hacer PCA en esta matriz como un medio para encontrar la similitud entre los individuos?
a means of finding the similarity between individuals
. Pero esta tarea es para un análisis de Cluster, no para PCA.Respuestas:
Me gustaría sugerirle una técnica relativamente reciente para la extracción automática de estructuras a partir de datos variables categóricos (esto incluye binarios). El método se llama CorEx de Greg van Steeg de la Universidad del Sur de California. La idea es utilizar la noción de correlación total basada en las medidas de entropía. Es atractivo debido a su simplicidad y sin ajuste de gran cantidad de hiperparámetros.
El documento sobre representaciones jerárquicas (el más reciente, se basa en la parte superior de las medidas anteriores). http://arxiv.org/pdf/1410.7404.pdf
fuente
También puede usar el Análisis de correspondencia múltiple (MCA), que es una extensión del análisis de componentes principales cuando las variables que se analizarán son categóricas en lugar de cuantitativas (que es el caso aquí con sus variables binarias). Ver por ejemplo Husson et al. (2010) , o Abdi y Valentin (2007) . FactoMineR es un excelente paquete de R para realizar MCA (y agrupamiento jerárquico en PC) .
fuente
inflation of the feature space
y por qué ocurriría en PCA y no en MCA.inflation of the feature space
fenómeno. Parece que entra en juego cuando se pasa de CA a MCA, pero no es un problema inherente de PCA. Voy a eliminar mi respuesta cuando haya leído este comentario. Gracias por hacerme darme cuenta de eso.Si piensas en PCA como una técnica exploratoria para darte una manera de visualizar las relaciones entre variables (y en mi opinión, esta es la única forma de pensarlo), entonces sí, no hay razón por la que no puedas poner en binario variables Por ejemplo, aquí hay un biplot de sus datos
Parece razonablemente útil. Por ejemplo, puedes ver que Doc y Bashful son muy similares; que HR es bastante diferente de las otras tres variables; Sleepy and Sneezy son muy diferentes, etc.
fuente