Como Jimmy Lin y Chris Dyer señalan en el primer capítulo de su libro sobre Minería de texto intensiva en datos con MapReduce , a grandes escalas de datos, el rendimiento de diferentes algoritmos converge de tal manera que las diferencias de rendimiento prácticamente desaparecen. Esto significa que, dado un conjunto de datos lo suficientemente grande, el algoritmo que desearía usar es el que es computacionalmente menos costoso. Solo a escalas de datos más pequeñas importan las diferencias de rendimiento entre algoritmos.
Dicho esto, su libro (vinculado anteriormente) y Mining of Massive Datasets de Anand Rajaraman, Jure Leskovec y Jeffrey D. Ullman son probablemente dos libros que también querrá consultar, especialmente porque están directamente relacionados con MapReduce para fines de minería de datos.
Si tiene acceso a un clúster de Hadoop, le echaría un vistazo a Spark. https://spark.apache.org/
fuente
Nadie ha mencionado el siguiente artículo: http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng es uno de los autores)
El documento en sí es para máquinas multinúcleo, pero se trata esencialmente de refundir problemas de aprendizaje automático para que se ajusten al patrón de reducción de mapas y puedan usarse para un grupo de computadoras. (para ver por qué esa no es una buena idea en general, puede leer este documento: http://arxiv.org/pdf/1006.4990v1.pdf . Tiene una buena visión general).
fuente
Scaling Up Machine Learning : enfoques paralelos y distribuidos es un gran libro de John Langford et. Alabama. que discute implementaciones paralelas de algoritmos supervisados y no supervisados. Habla sobre MapReduce, conjuntos de árboles de decisión, medios K paralelos, SVM paralelos, propagación de creencias y AD-LDA.
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242
fuente