Tengo un conjunto de datos con ~ 1M filas y ~ 500K características dispersas. Quiero reducir la dimensionalidad a algún lugar del orden de las características densas 1K-5K.
sklearn.decomposition.PCAno funciona en datos dispersos, y he intentado usarlos, sklearn.decomposition.TruncatedSVDpero obtengo un error de memoria bastante rápido. ¿Cuáles son mis opciones para una reducción eficiente de la dimensionalidad en esta escala?
fuente

En caso de que las personas que se encuentran con esta publicación consideren que UMAP no es lo suficientemente eficiente, he aquí algunas otras técnicas que encontré que son aún más eficientes (pero no de tan alta calidad):
sklearn.random_projectionsklearn.feature_extraction.FeatureHasherfuente