¿Cuáles son los "algoritmos activos" para el aprendizaje automático?

14

Esta es una pregunta ingenua de alguien que comienza a aprender el aprendizaje automático. Estoy leyendo en estos días el libro "Aprendizaje automático: una perspectiva algorítmica" de Marsland. Lo encuentro útil como libro introductorio, pero ahora me gustaría entrar en algoritmos avanzados, los que actualmente están dando los mejores resultados. Estoy principalmente interesado en la bioinformática: agrupación de redes biológicas y búsqueda de patrones en secuencias biológicas, particularmente aplicadas al análisis de polimorfismo de un solo nucleótido (SNP). ¿Me podría recomendar algunas reseñas o libros para leer?

xAx
fuente

Respuestas:

15

Deep Learning se ha centrado mucho desde 2006. Es básicamente un enfoque para entrenar redes neuronales profundas y está dando resultados realmente impresionantes en conjuntos de datos muy duros (como agrupación de documentos o reconocimiento de objetos). Algunas personas hablan sobre el segundo renacimiento de la red neuronal (por ejemplo, en esta charla de Google de Schmidhuber).

Si desea quedar impresionado, debe mirar este artículo de Ciencia, Reducción de la dimensionalidad de los datos con redes neuronales, Hinton y Salakhutdinov.

(En este momento hay tanto trabajo en curso en esa área, que solo conozco dos libros próximos que lo tratarán: aprendizaje automático a gran escala , Langford et al y aprendizaje automático: una perspectiva probabilística de Kevin Murphy).

Si quieres saber más, mira lo que están haciendo los principales grupos de aprendizaje profundo: Stanford , Montreal y, lo más importante, Toronto # 1 y Toronto # 2 .

bayerj
fuente
8

La mayoría de las respuestas dadas hasta ahora se refieren al "Aprendizaje supervisado" (es decir, donde tiene etiquetas para una parte de su conjunto de datos, que puede usar para entrenar algoritmos). La pregunta menciona específicamente la agrupación, que es un enfoque "sin supervisión" (es decir, no se conocen etiquetas de antemano). En este escenario, sugeriría mirar:

  • k-means y kernel k-means
  • Agrupamiento Aglomerativo
  • Factorización matricial no negativa
  • Asignación de Dirichlet Latente
  • Procesos de Dirichlet y procesos jerárquicos de Dirichlet

Pero en realidad probablemente descubra que su medida de similitud / distancia es más importante que el algoritmo específico que utiliza.

Si tiene algunos datos etiquetados, los enfoques de "Aprendizaje semi-supervisado" están ganando popularidad y pueden ser muy poderosos. Un buen punto de partida para SSL es LapSVM (Laplacian Support Vector Machine).

tdc
fuente
7

Estos son libros que pueden ser útiles:

  • Introducción a la minería de datos por Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Este fue el libro sugerido durante mis clases de minería de datos en la universidad. Me gusta su diseño y el enfoque teórico;
  • Minería de datos: herramientas y técnicas prácticas de aprendizaje automático por Ian H. Witten, Eibe Frank, Mark A. Hall. Un libro muy interesante. Este libro cubre también muchas técnicas implementadas con el Marco de Minería de Datos WEKA ;
  • Machine Learning por Thomas Mitchell. Es un libro un poco viejo pero puede ser útil.

Entonces recuerde que puede asistir a clases gratuitas de aprendizaje automático en Stanford que acaba de comenzar: www.ml-class.com .

Y para su problema particular, ese es el análisis SNP, sugeriría que eche un vistazo al grupo de Di Camillo en la Universidad de Padua.

Simone
fuente
5

Aquí hay un gran artículo y libro que explica los fundamentos, la teoría y la aplicación de la mayoría de los métodos más populares:

Los 10 algoritmos principales en minería de datos

Es especialmente bueno porque es un "top 10" elegido por expertos en encuestas en el campo.

Además, para los datos genéticos en general, la selección de características es muy importante debido a las muchas características. Por ejemplo, la eliminación de características recursivas SVM (SVM-RFE) y los métodos relacionados son muy populares y se desarrollan y aplican activamente en el contexto de los datos genéticos.

John Colby
fuente
4

Los árboles potenciados y alguna forma de svm ganan muchas competiciones, pero siempre se reduce al contexto. La regularización múltiple también está a la vanguardia.

Patrick McCann
fuente
4

Recomiendo "Los elementos del aprendizaje estadístico", de Hastie, Tibshirani y Friedman. No solo lo lea, juegue con algunos algoritmos descritos por ellos (la mayoría de ellos se implementan en R, o incluso podría implementar algunos usted mismo), y aprenda sus puntos débiles y fuertes.

usuario31264
fuente
3

Los procesos gaussianos para el aprendizaje automático de Rasmussen y Williams (MIT Press) son imprescindibles. Los procesos gaussianos son uno de los algoritmos más populares para el aprendizaje automático ahora que los algoritmos de propagación de expectativas e inferencia variacional están disponibles. El libro está muy bien escrito, tiene una caja de herramientas MATLAB gratuita (un buen kit) y el libro se puede descargar de forma gratuita.

Dikran Marsupial
fuente