Recientemente he aprendido sobre el maravilloso PCA y he hecho el ejemplo descrito en la documentación de scikit-learn .
Estoy interesado en saber cómo puedo aplicar PCA a nuevos puntos de datos para fines de clasificación.
Después de visualizar PCA en un plano bidimensional (eje x, y), veo que probablemente pueda dibujar una línea para separar los puntos de datos para que un lado sea de una clasificación y el otro de otra clasificación. ¿Cómo dibujo este "límite" y lo aplico a los nuevos puntos de datos?
classification
pca
scikit-learn
vlasnalknsd
fuente
fuente
Respuestas:
PCA es una herramienta de reducción de dimensiones, no un clasificador. En Scikit-Learn, todos los clasificadores y estimadores tienen un
predict
método que PCA no tiene . Debe ajustar un clasificador en los datos transformados por PCA. Scikit-Learn tiene muchos clasificadores. Aquí hay un ejemplo del uso de un árbol de decisión en datos transformados por PCA. Elegí el clasificador de árbol de decisión ya que funciona bien para datos con más de dos clases, como es el caso del conjunto de datos de iris.SciKit learn tiene una herramienta conveniente llamada Pipeline que le permite encadenar transformadores y un clasificador final:
Esto es especialmente útil cuando se realiza la validación cruzada, ya que le impide volver a ajustar accidentalmente CUALQUIER paso de la tubería en su conjunto de datos de prueba:
Por cierto, es posible que ni siquiera necesite usar PCA para obtener buenos resultados de clasificación. El conjunto de datos de iris no tiene muchas dimensiones y los árboles de decisión ya funcionarán bien en los datos no transformados.
fuente
Si desea aplicar PCA a nuevos datos, primero debe haber ajustado un modelo en algún conjunto de datos de capacitación. ¿Cuál es el modelo que preguntarás? Este es el vector medio que resta del conjunto de datos, las variaciones que utilizó para "blanquear" cada vector de datos y la matriz de mapeo aprendida. Entonces, para mapear un nuevo conjunto de datos en el mismo espacio que los datos de entrenamiento, primero resta la media, blanquea y mapea con la matriz de mapeo.
fuente