Hace poco leí el libro de Skillicorn sobre descomposiciones de matrices, y me decepcionó un poco, ya que estaba dirigido a un público universitario. Me gustaría compilar (para mí y para otros) una breve bibliografía de documentos esenciales (encuestas, pero también documentos innovadores) sobre descomposiciones de matrices. Lo que tengo en mente principalmente es algo en SVD / PCA (y variantes robustas / dispersas) y NNMF, ya que esas son las más utilizadas. ¿Todos ustedes tienen alguna recomendación / sugerencia? Estoy retrasando la mía para no sesgar las respuestas. Yo pediría limitar cada respuesta a 2-3 documentos.
PD: Me refiero a estas dos descomposiciones como las más utilizadas en el análisis de datos . Por supuesto, QR, Cholesky, LU y polar son muy importantes en el análisis numérico. Sin embargo, ese no es el enfoque de mi pregunta.
Para NNMF, Lee y Seung describen un algoritmo iterativo que es muy simple de implementar. En realidad, ofrecen dos algoritmos similares, uno para minimizar la norma residual de Frobenius y el otro para minimizar la divergencia Kullback-Leibler de la aproximación y la matriz original.
fuente
Tal vez, puedes encontrar interesante
Los dos últimos enlaces muestran cómo se utilizan factorizaciones de matriz dispersas en el filtrado colaborativo. Sin embargo, creo que los algoritmos de factorización tipo SGD pueden ser útiles en otro lugar (al menos son extremadamente fáciles de codificar)
fuente
Witten, Tibshirani - Descomposición matricial penalizada
http://www.biostat.washington.edu/~dwitten/Papers/pmd.pdf
http://cran.r-project.org/web/packages/PMA/index.html
Martinsson, Rokhlin, Szlam, Tygert - SVD aleatorizado
http://cims.nyu.edu/~tygert/software.html
http://cims.nyu.edu/~tygert/blanczos.pdf
fuente
En el NIPS de este año hubo un breve documento sobre SVD distribuido a gran escala que funciona en un solo paso sobre una matriz de entrada de transmisión .
El documento está más orientado a la implementación, pero pone las cosas en perspectiva con tiempos reales de reloj de pared y todo. La tabla cerca del comienzo también es una buena encuesta.
fuente