Tengo un conjunto de datos con ~ 1M filas y ~ 500K características dispersas. Quiero reducir la dimensionalidad a algún lugar del orden de las características densas 1K-5K.
sklearn.decomposition.PCA
no funciona en datos dispersos, y he intentado usarlos, sklearn.decomposition.TruncatedSVD
pero obtengo un error de memoria bastante rápido. ¿Cuáles son mis opciones para una reducción eficiente de la dimensionalidad en esta escala?
fuente
En caso de que las personas que se encuentran con esta publicación consideren que UMAP no es lo suficientemente eficiente, he aquí algunas otras técnicas que encontré que son aún más eficientes (pero no de tan alta calidad):
sklearn.random_projection
sklearn.feature_extraction.FeatureHasher
fuente