Tengo un conjunto de datos de más de 1000 muestras de 19 variables. Mi objetivo es predecir una variable binaria basada en las otras 18 variables (binarias y continuas). Estoy bastante seguro de que 6 de las variables de predicción están asociadas con la respuesta binaria, sin embargo, me gustaría analizar más a fondo el conjunto de datos y buscar otras asociaciones o estructuras que me pueden faltar. Para hacer esto, decidí usar PCA y clustering.
Cuando se ejecuta el PCA en los datos normalizados, resulta que se deben mantener 11 componentes para retener el 85% de la variación. Al trazar las parcelas obtengo esto:
No estoy seguro de lo que sigue ... No veo un patrón significativo en la PCA y me pregunto qué significa esto y si podría haber sido causado por el hecho de que algunas de las variables son binarias. Al ejecutar un algoritmo de agrupamiento con 6 grupos, obtengo el siguiente resultado, que no es exactamente una mejora, aunque algunos blobs parecen destacarse (los amarillos).
Como probablemente pueda notar, no soy un experto en PCA, pero vi algunos tutoriales y cómo puede ser poderoso tener una idea de las estructuras en el espacio de alta dimensión. Con el famoso conjunto de datos de dígitos MNIST (o IRIS) funciona muy bien. Mi pregunta es: ¿qué debo hacer ahora para que la PCA tenga más sentido? La agrupación no parece recoger nada útil, ¿cómo puedo decir que no hay un patrón en la PCA o qué debo intentar a continuación para encontrar patrones en los datos de la PCA?
Respuestas:
Usted explicó que el diagrama de varianza me dice que PCA no tiene sentido aquí. 18/11 es 61%, por lo que necesita 61% de sus variables para explicar el 85% de la varianza. Ese no es el caso para PCA, en mi opinión. Uso PCA cuando 3-5 factores de 18 explican aproximadamente el 95% de la varianza.
ACTUALIZACIÓN: Mire la gráfica del porcentaje acumulado de varianza explicado por el número de PC. Esto es del campo de modelado de estructura de términos de tasa de interés. Usted ve cómo 3 componentes explican más del 99% de la varianza total. Esto puede parecer un ejemplo inventado para la publicidad de PCA :) Sin embargo, esto es algo real. Los plazos de las tasas de interés están tan correlacionados, por eso PCA es muy natural en esta aplicación. En lugar de lidiar con un par de docenas de tenores, manejas solo 3 componentes.
fuente
Si está seguro de que solo un subconjunto de las variables es realmente explicativo, el uso de un modelo de regresión disperso, por ejemplo, Elastic Net, podría ayudarlo a establecer esto.
Además, la interpretación de los resultados de PCA usando entradas de tipo mixto (binario versus real, escalas diferentes, etc., vea la pregunta de CV aquí ) no es tan sencilla y es posible que desee evitarla a menos que haya una razón clara para hacerlo.
fuente
Voy a interpretar tu pregunta de la manera más sucinta que pueda. Avísame si cambia tu significado.
Tampoco veo ningún "patrón significativo", aparte de la consistencia en sus parcelas. Todos son solo manchas aproximadamente circulares. Tengo curiosidad por lo que esperabas ver. ¿Puntos claramente separados agrupa algunos de los plotpl? ¿Algunas parcelas muy cercanas a lineal?
Los resultados de su PCA, las parcelas en bloque y solo el 85% de la varianza capturada en los 11 componentes principales principales, no excluyen su presentimiento de que 6 variables son suficientes para la predicción de respuesta binaria.
Imagina estas situaciones:
Digamos que los resultados de su PCA muestran que el 99% de la varianza es capturada por 6 componentes principales.
Puede parecer que respalda su presentimiento sobre 6 variables predictoras: tal vez podría definir un plano u otra superficie en ese espacio de 6 dimensiones que clasifica muy bien los puntos, y podría usar esa superficie como un predictor binario. Lo que me lleva al número 2 ...
Digamos que sus 6 componentes principales principales tienen parcelas que se parecen a esto
Pero codifiquemos con colores una respuesta binaria arbitraria
Aunque logró capturar casi la totalidad (99%) de la varianza en 6 variables, aún no se garantiza que tenga una separación espacial para predecir su respuesta binaria.
Es posible que necesite varios umbrales numéricos (que podrían trazarse como superficies en ese espacio de 6 dimensiones), y la pertenencia de un punto a su clasificación binaria podría depender de una expresión condicional compleja hecha de la relación de ese punto con cada uno de esos umbrales. Pero ese es solo un ejemplo de cómo se podría predecir una clase binaria. Hay un montón de estructuras de datos y métodos para representar, capacitar y predecir. Este es un adelanto. Citar,
fuente