¿Qué asignaturas de matemáticas sugeriría preparar para la minería de datos y el aprendizaje automático?

30

Estoy tratando de armar un plan de estudios de matemáticas autodirigido para prepararme para el aprendizaje de minería de datos y aprendizaje automático. Esto está motivado por comenzar la clase de aprendizaje automático de Andrew Ng en Coursera y sentir que antes de continuar necesitaba mejorar mis habilidades matemáticas. Me gradué de la universidad hace un tiempo, así que mi álgebra y estadísticas (específicamente de las clases de ciencias políticas / psicología) están oxidadas.

Las respuestas en el hilo ¿Es una experiencia sólida en matemáticas un requisito total para el aprendizaje automático? solo sugiera libros o clases directamente relacionados con el aprendizaje automático; Ya he examinado algunas de esas clases y libros y no sé exactamente qué materia matemática estudiar (por ejemplo: ¿qué campo (s) de dirección matemática deriva una ecuación para "minimizar una función de costo"?). El otro hilo sugerido ( Habilidades y cursos necesarios para ser un analista de datos ) solo menciona amplias categorías de habilidades necesarias para analizar datos. El hilo Introducción a las estadísticas para matemáticos no se aplica porque todavía no tengo un título en matemáticas; un hilo similar matemático quiere el conocimiento equivalente a un grado de estadísticas de calidad tiene una lista increíble de libros de estadísticas, pero de nuevo, estoy buscando comenzar las matemáticas a partir de un recuerdo oxidado de álgebra y avanzar desde allí.

Entonces, para aquellos que trabajan en el aprendizaje automático y la minería de datos, ¿qué campos de las matemáticas les parecen esenciales para hacer su trabajo? ¿Qué asignaturas de matemáticas sugeriría preparar para la minería de datos y el aprendizaje automático, y en qué orden? Aquí está la lista y el orden que tengo hasta ahora:

  • Álgebra
  • Precálculo
  • Cálculo
  • Álgebra lineal
  • Probabilidad
  • Estadísticas (muchos subcampos diferentes aquí, pero no sé cómo separarlos)

En cuanto a la minería de datos y el aprendizaje automático, a través de mi trabajo actual tengo acceso a registros sobre la actividad del sitio web / aplicación, transacciones de clientes / suscripciones y datos inmobiliarios (tanto estáticos como de series temporales). Espero aplicar la minería de datos y el aprendizaje automático a estos conjuntos de datos.

¡Gracias!

EDITAR:

Por el bien de la posteridad, quería compartir una útil autoevaluación matemática para la clase de Introducción al aprendizaje automático de Geoffrey Gordon / Alex Smola en CMU.

miden todas las cosas
fuente
3
En términos de requisitos previos para las clases de Coursera, esa información debería estar disponible en algún lugar de sus materiales. Fuera de sus clases / más generalmente, la pregunta de qué matemáticas necesitas para estadísticas / ML / DM me parece un duplicado. Hay varios hilos en CV que cubren este material, que incluyen: es-un-fuerte-fondo-en-matemáticas-un-requisito-para-ml , y habilidades-cursos-necesarios-para-ser-un-analista de datos ( quizás entre otros).
gung - Restablece a Monica
1
Revise esos hilos, los hilos que están vinculados allí como estrechamente relacionados, y quizás busque en el sitio. Si todavía tiene una pregunta después de leer, vuelva aquí y edite esta Q para que sea más distintiva / especifique con mayor precisión lo que aún necesita saber que no se cubrió en otro lugar.
gung - Restablece a Monica

Respuestas:

15

Vale la pena seguir las sugerencias que hizo @gung. Después de haber hecho el curso, creo que su lista es un buen comienzo. Algunos comentarios:

  1. el álgebra lineal y el álgebra matricial son lo mismo, así que suelte el último.
  2. en el cálculo, asegúrese de incluir una diferenciación parcial. Este es el cálculo aplicado a funciones de más de una variable (simbólicamente, si, por ejemplo, es una función de e entonces quiere lugar de ). Afortunadamente esto no es difícil.x y zzxy dzzxdzdx
  3. en cálculo no necesitas nada más que la integración básica (y tal vez ni siquiera eso). Esto es afortunado porque la integración es difícil.
  4. agregar optimización básica, es decir, encontrar el máximo o mínimo de una función, típicamente una función de más de una variable. Una apreciación del descenso de gradiente, como mínimo, es esencial.
  5. En términos de dificultad, es probable que desee estar en algún lugar entre el comienzo y el final del primer año de pregrado.
  6. intente leer algunos textos básicos de probabilidad y estadísticas, en línea o de otra manera, pero no se preocupe demasiado (las matemáticas básicas son un requisito previo de todos modos para comprender la probabilidad y las estadísticas). Si haces algunos cursos, como el que sugieres, descubrirás lo que necesitas aprender y cuáles son tus intereses. Una cosa que no desea hacer, al menos al principio, es pasar mucho tiempo aprendiendo sobre las pruebas de hipótesis. Preferiría orientarse hacia la comprensión de estadísticas básicas (variables aleatorias, distribuciones de probabilidad (PFD, CDF), estadísticas descriptivas) y luego tratar de comprender la regresión.
TooTone
fuente
5

Hay un par de excelentes hilos en este foro, incluido ESTE que he encontrado particularmente útil para mí en términos de desarrollar un esquema conceptual de las habilidades importantes para el trabajo de la ciencia de datos.

Como se mencionó anteriormente, hay muchos cursos en línea disponibles. Por ejemplo, Coursera ahora tiene una especialización en ciencia de datos con una serie de cursos que probablemente cubrirían algunas de las herramientas que necesitaría para su trabajo.

GregF
fuente
3

Si está buscando aumentar el aprendizaje automático / minería de datos, le recomendaría encarecidamente la optimización / álgebra lineal / estadísticas y probabilidad. Aquí hay una lista de libros para la probabilidad. Espero que ayude.

brócoli
fuente
3

En cuanto al cepillado de habilidades matemáticas muy básicas, estoy usando estos libros:

Elementos de Matemáticas para Economía y Finanzas. Mavron, Vassilis C., Phillips, Timothy N Este libro cubre habilidades matemáticas esenciales (sustracción de suma), a diferenciación parcial, integración, matriz y determinantes, y un pequeño capítulo sobre optimización y ecuación diferencial. Está dirigido a la economía y las finanzas, pero es un libro pequeño, la secuencia de capítulos se adapta a mis necesidades y es fácil de leer para mí.

Análisis estadístico: Microsoft Excel 2010. Conrad Carlberg Cubre el análisis estadístico básico, la regresión múltiple y el análisis de covarianza, y utiliza Excel.

Descubriendo estadísticas usando R. Andy Field, Jeremy Miles, Zoë Field. Aún no lo he leído. Utiliza R.

Álgebra lineal elemental. Ron Larson, David C. Falvo.

Métodos matriciales: álgebra lineal aplicada Por Richard Bronson, Gabriel B. Costa. cubre álgebra lineal elemental y cálculo matricial

Esos son los libros básicos de matemáticas que uso para relacionarme con la minería de datos / aprendizaje automático

Espero que esto ayude

Iwan
fuente
3

Hay una gran cantidad de recursos relevantes enumerados (y categorizados) aquí , en los llamados "Open Source Data Science Masters".

Específicamente para las matemáticas, enumeran:

  1. Álgebra Lineal y Programación
  2. Estadística
  3. Ecuaciones diferenciales y cálculo

Recomendaciones bastante genéricas, aunque enumeran algunos libros de texto que pueden resultarle útiles.

anthr
fuente
2
  • La probabilidad y las estadísticas son esenciales. Algunas palabras clave son prueba de hipótesis, distribución normal multivariada, inferencia bayesiana (probabilidad conjunta, probabilidad condicional), media, varianza, covarianza, divergencia de Kullback-Leibler, ...
  • El álgebra lineal básica es esencial para el aprendizaje automático. Los temas que podría aprender son la descomposición de Eigen y la descomposición de valores singulares. (Por supuesto, debe saber cómo calcular un producto matricial).
  • Como TooTone ya mencionó: la optimización es importante. Debes saber qué es el descenso por gradiente y quizás echar un vistazo al método de Newton, Levenberg-Marquardt, Broyden-Fletcher-Goldfarb-Shanno.
  • El cálculo no es tan importante, pero podría ser útil saber cómo calcular las derivadas parciales de funciones (matriz de Jacobi, matriz de Hesse, ...) y debe saber qué es una integral.
esparto
fuente
0

Álgebra Lineal, Estadísticas, Cálculo. Creo que puedes aprenderlos en tándem con ML - o incluso después de lo básico. Los cursos / libros de iniciación hacen un gran trabajo con los capítulos de introducción de matemáticas, y usted aprende lo esencial de matemáticas mientras aprende ML. Hice un episodio de podcast sobre las matemáticas que necesita para el aprendizaje automático y los recursos para aprenderlas: Guía de aprendizaje automático # 8

lefnire
fuente
0

Antes de comenzar cualquier curso de aprendizaje automático, siga el siguiente curso de matemáticas. Tampoco intentes cavar en un solo intento. Aprenda conceptos básicos y luego repase sus habilidades matemáticas y repita: -

Los temas de matemáticas son los siguientes: -

  • Álgebra lineal
  • Probabilidad
  • Cálculo Básico
  • Máximos y mínimos de función
Nikhil Agrawal
fuente