Libro de cocina de aprendizaje automático / tarjeta de referencia / hoja de trucos?

57

Encuentro recursos como el Probability and Statistics Cookbook y The R Reference Card for Data Mining increíblemente útiles. Obviamente, sirven como referencias, pero también me ayudan a organizar mis pensamientos sobre un tema y comprender el terreno.

P: ¿Existe algo así como estos recursos para los métodos de aprendizaje automático?

Me imagino una tarjeta de referencia que para cada método ML incluiría:

  • Propiedades generales
  • Cuando el método funciona bien
  • Cuando el método funciona mal
  • Desde cuál o hacia qué otros métodos se generaliza el método. ¿Ha sido mayormente reemplazado?
  • Documentos seminales sobre el método
  • Problemas abiertos asociados con el método
  • Intensidad computacional

Todas estas cosas se pueden encontrar con un poco de excavación mínima a través de los libros de texto, estoy seguro. Sería realmente conveniente tenerlos en unas pocas páginas.

lowndrul
fuente
55
¿Un buen objetivo, pero "una búsqueda mínima en algunos libros de texto"? ¿Cómo podría uno comenzar a comprimir estos 20 libros para el aprendizaje estadístico y la minería de datos + mloss.org/software/rating ?
denis
2
(+1) para el chuzpa, si existiera tal descripción, pagaría por ello. El problema clave es que, además de algunas propiedades que podrían derivarse del algoritmo en sí, la mayoría de dichas propiedades o reglas generales se obtienen mediante la experiencia, es decir, la aplicación. Estoy bastante seguro de que un investigador aplicado o un programador / asesor de ML-framework podría escribir algo así ... pero aquí y ahora.
steffen
@Denis: el enlace "20 libros ..." no funciona, ¿puedes comprobar esto?
lmsasu
66
No soy un experto en aprendizaje automático, por lo que diferiré para que otros publiquen respuestas, pero creo que The Elements of Statistical Learning se considera un buen texto sobre el tema y está escrito por algunos de los nombres más importantes en el campo. Debo agregar que este libro está escrito en un alto nivel y aquellos que he escuchado recomiendan que tenía doctorados en estadística.
Macro

Respuestas:

25

Algunos de los mejores y libremente disponibles los recursos son:

En cuanto a la pregunta del autor, no he encontrado la solución "Todo en una página"

Sergey
fuente
Sergey, ¿está el libro de Barber atado a Matlab?
denis
2
Sí, solo eche un vistazo al enlace del libro: el cuadro BRMLtool se proporciona para ayudar a los lectores a ver cómo los modelos matemáticos se traducen en código MAT-LAB real.
Sergey
31

Si desea aprender Machine Learning, le recomiendo inscribirse en el curso de ML en línea gratuito en el invierno impartido por el Prof. Andrew Ng .

Hice el anterior en otoño y todo el material de aprendizaje es de una calidad excepcional y está orientado a aplicaciones prácticas, y es mucho más fácil de asimilar que luchar solo con un libro.

También es una fruta bastante baja con buenas explicaciones intuitivas y la mínima cantidad de matemáticas.

Clyfe
fuente
¡Acabo de terminar este curso y es increíble! Además, me dio un gran comienzo para comprender los libros sobre aprendizaje automático.
B Seven
1
Creo que este enlace ahora es coursera.org/course/ml
n611x007
14

Si, estas bien; El "Reconocimiento de patrones y aprendizaje automático" de Christopher Bishop es un excelente libro para referencia general, realmente no puedes equivocarte.

Un libro bastante reciente pero también muy bien escrito e igualmente amplio es el " Razonamiento bayesiano y el aprendizaje automático " de David Barber. " de ; un libro que creo que es un poco más adecuado para un recién llegado en el campo.

He usado "Los elementos del aprendizaje estadístico" de Hastie et al. (mencionado por Macro) y aunque es un libro muy fuerte, no lo recomendaría como primera referencia; quizás le sirva mejor como segunda referencia para temas más especializados. En ese aspecto, el libro de David MacKay, Teoría de la información, Inferencia y Algoritmos de aprendizaje , también puede hacer un trabajo espléndido.

usεr11852 dice Reinstate Monic
fuente
2
+1 para el obispo. Desarrollo claro con un nivel de detalle uniforme. Aunque todavía es bueno, siempre encontré a Hastie et al. un poco entrecortado
conjugateprior
1
+1 - Hastie, Tibshirani y Friedman es mi favorito personal.
StasK
1
+1 también por recomendar a Hastie, Tibshirani y Friedman, mi favorito personal también. Y gracias por las otras recomendaciones; Les daré una lectura porque realmente necesito un buen libro para recomendar a los no estadísticos (o personas que recién ingresan al campo).
Néstor
1
+1 para el obispo. En realidad, también es una gran fuente de estadísticas clásicas, pero actualizado y disfrazado.
conjeturas
10

Dado que el consenso parece ser que esta pregunta no es un duplicado, me gustaría compartir mi favorito para principiantes de aprendizaje automático:

Encontré que Programming Collective Intelligence es el libro más fácil para principiantes, ya que el autor Toby Segaran se centra en permitir que el desarrollador de software mediano se ensucie las manos con el pirateo de datos lo más rápido posible.

Capítulo típico: El problema de datos se describe claramente, seguido de una explicación aproximada de cómo funciona el algoritmo y finalmente muestra cómo crear algunas ideas con solo unas pocas líneas de código.

El uso de python le permite a uno entender todo bastante rápido (no necesita saber python, en serio, yo tampoco lo sabía antes). NO piense que este libro solo se enfoca en crear un sistema de recomendación. También se ocupa de la extracción de texto / filtrado de spam / optimización / agrupación / validación, etc. y, por lo tanto, le brinda una visión general clara sobre las herramientas básicas de cada minero de datos.

steffen
fuente
6

Witten y Frank, "Data Mining", Elsevier 2005 es un buen libro para el autoaprendizaje, ya que hay una biblioteca de código Java (Weka) para acompañar el libro y está muy orientado a la práctica. Sospecho que hay una edición más reciente que la que tengo.

Dikran Marsupial
fuente
1
Sí, este libro se llamaría "Aprendizaje automático", pero los editores cambiaron el nombre a "Minería de datos" para aprovechar la exageración de la minería de datos en ese momento, sin embargo, el libro trata sobre ML y DM (las dos similitudes, pero son diferentes campos!).
clyfe
1
El libro de Tom Mitchell "Machine Learning" también es muy bueno; El estilo es un poco anticuado, pero el contenido es excelente.
Dikran Marsupial
Sí, el ML de Tom Mitchell es como la Biblia de ML, ¡realmente completo en el campo!
clyfe
5

"Elementos de aprendizaje estadístico" sería un gran libro para sus propósitos. La quinta edición del libro, que se publicó a principios de 2011, está disponible gratuitamente en http://www.stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf

DanB
fuente
2
es un libro pesado de matemática, por lo tanto, puede ser difícil de seguir para uno mismo.
Atilla Ozgur
¿Sabes cómo se puede descargar libremente en las páginas personales de Trevor Hastie cuando Springer cobra 70 $ por ello?
Alfred M.
No estoy seguro, pero me imagino que Springer quiere el dinero, y los autores principalmente quieren dar a conocer su libro ampliamente. Esto parece muy similar a cómo Springer le venderá artículos publicados, mientras que muchas "versiones de documentos de trabajo" están disponibles gratuitamente en el sitio web del autor.
DanB
FYI, la descarga es para la 5ta impresión de la segunda edición. Me encanta la nota al pie del epígrafe "En Dios confiamos, todos los demás traen datos" que se atribuye a Deming. La nota al pie señala la ironía de que no se pueden encontrar "datos" que confirmen que Deming realmente dice esto.
HeatfanJohn
Debe mencionar Introducción al aprendizaje estadístico con R: es algo así como su ESL -lite (si las matemáticas en ESL son demasiado desalentadoras).
Steve S
5

ingrese la descripción de la imagen aquí

A menudo, la parte más difícil de resolver un problema de aprendizaje automático puede ser encontrar el estimador adecuado para el trabajo. Los diferentes estimadores son más adecuados para diferentes tipos de datos y diferentes problemas. El siguiente diagrama de flujo está diseñado para dar a los usuarios una guía aproximada sobre cómo abordar los problemas con respecto a qué estimadores probar sus datos. Haga clic en cualquier estimador en el cuadro a continuación para ver su documentación.

Anton Tarasenko
fuente
3

La mayoría de los libros mencionados en otras respuestas son muy buenos y no puedes equivocarte con ninguno de ellos. Además, encuentro la siguiente hoja de trucos para Python scikit-learnbastante útil.

Marc Claesen
fuente
2

Me gusta la "Clasificación de patrones" de Duda, Hart y Stork. Esta es una revisión reciente de un texto clásico que explica todo muy bien. No estoy seguro de que se actualice para tener mucha cobertura de redes neuronales y SVM. El libro de Hastie, Tibshirani y Friedman trata sobre lo mejor que existe, pero puede ser un poco más técnico de lo que está buscando y es más detallado que una descripción general del tema.

Michael Chernick
fuente
2

Microsoft Azure también proporciona una hoja de trucos similar a la de scikit-learn publicada por Anton Tarasenko.

Hoja de trucos del algoritmo de aprendizaje automático de Microsoft Azure

(fuente: https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-algorithm-cheat-sheet )

Lo acompañan con un aviso:

Las sugerencias que se ofrecen en esta hoja de trucos de algoritmos son reglas generales aproximadas. Algunos pueden doblarse y otros pueden violarse flagrantemente. Esto tiene la intención de sugerir un punto de partida. (...)

Microsoft también proporciona un artículo introductorio que proporciona más detalles.

Tenga en cuenta que esos materiales se centran en los métodos implementados en Microsoft Azure.

Tim
fuente
1

No comience con Elementos de aprendizaje estadístico. Es genial, pero es un libro de referencia, que no suena como lo que estás buscando. Comenzaría con Programming Collective Intelligence, ya que es una lectura fácil.

Neil McGuigan
fuente
No estoy seguro de caracterizar ESL como texto de referencia. Me parece más una visión general, es decir, no vas a aprender los detalles esenciales de (casi) nada. Verá las técnicas amplias y los temas generales.
cardenal
1

Para un primer libro sobre aprendizaje automático, que hace un buen trabajo al explicar los principios, recomiendo encarecidamente

Rogers y Girolami, A First Course in Machine Learning , (Chapman & Hall / CRC Machine Learning & Pattern Recognition), 2011.

El libro de Chris Bishop, o el de David Barber, hacen buenas elecciones para un libro con mayor amplitud, una vez que entiendes bien los principios.

Dikran Marsupial
fuente
0

Escribí un resumen como ese, pero solo en una tarea de aprendizaje automático (Premio Netflix), y tiene 195 páginas: http://arek-paterek.com/book

Arek Paterek
fuente
0

Una buena hoja de trucos es la del libro de Max Kuhn Modelado predictivo aplicado . En el libro hay una buena tabla resumen de varios modelos de aprendizaje de ML. La tabla se encuentra en el apéndice A, página 549.

PolBM
fuente