¿Cómo elegir K para PCA? K es el número de dimensiones para proyectar hacia abajo. El único requisito es no perder demasiada información. Entiendo que depende de los datos, pero estoy buscando más una descripción general simple sobre qué características considerar al elegir K.
12
Respuestas:
Después de realizar el algoritmo PCA, obtiene los componentes principales, ordenados por la cantidad de información que contienen. Si mantiene todo el conjunto, no se pierde información. Al eliminarlos uno por uno y proyectarlos nuevamente en el espacio original, puede calcular la pérdida de información. Puede trazar esta pérdida de información contra el número de componentes principales eliminados y ver si tiene un "codo" donde tiene sentido. Sin embargo, mucho de esto depende de su caso de uso.
fuente
Normalmente verifico el porcentaje de la información contenida en el valor K. Digamos que de 8 campos, 2 de ellos contienen el 90% de la información. Entonces no tiene sentido incluir los otros 6 o 5 campos. Si conoce datos de mnist, de 768 entradas, solo usé 250, lo que aumentó mi precisión del 83 al 96%. El hecho es que más dimensionalidad trae más problemas. Así que córtalos. Por lo general, solo tomo a K, que solo posee el 90% de la información, y funciona para mí.
fuente