¿Cuáles son los prerrequisitos matemáticos para un investigador de IA?

12

¿Cuáles son los prerrequisitos matemáticos para comprender la parte central de los algoritmos en inteligencia artificial y desarrollar un algoritmo propio?

Por favor, remítame los libros específicos.

sbhusal123
fuente

Respuestas:

9

Fundación buena matemática

Comience por garantizar la plena competencia con álgebra intermedia y algunos otros fundamentos de cálculo y matemáticas discretas, incluida la terminología y los conceptos básicos dentro de estos temas.

  • Series infinitas
  • Pruebas lógicas
  • Álgebra lineal y matrices
  • Geometría analítica, especialmente la distinción entre extremos locales y globales (mínimos y máximos), puntos de silla de montar y puntos de inflexión.
  • Teoría de conjuntos
  • Probabilidad
  • Estadísticas

Fundamentos de la cibernética

Norbert Wiener, Cybernetics, 1948, MIT Press, contiene series de tiempo y conceptos de retroalimentación con una claridad y un comando que no se ven en trabajos posteriores; también contiene una introducción a la teoría de la información que comienza con la fórmula log 2 de Shannon para definir la cantidad de información en un bit. Esto es importante para comprender la expansión del concepto de entropía de la información.

Cálculo

Encuentre un buen libro de cálculo y asegúrese de tener claridad sobre la teoría clave y la aplicación en estas categorías.

  • Series de tiempo
  • Series infinitas
  • Convergencia: las redes artificiales convergen idealmente a un nivel óptimo durante el aprendizaje.
  • Diferenciales parciales
  • Matrices jacobianas y hessianas
  • Matemática multivariante
  • Regiones limítrofes
  • Matemáticas discretas

Gran parte de eso está en Calculus , Strang, MIT, Wellesley-Cambridge Press . Aunque el PDF está disponible en la web, es básico y no particularmente profundo. El que está en la biblioteca de nuestro laboratorio es Cálculo intermedio , Hurley, Holt Rinehart y Winston, 1980 . Es completo y, en algunos aspectos, está mejor diseñado que el que tengo en la biblioteca de mi casa, que Princeton usa para estudiantes de segundo año.

Asegúrese de estar cómodo trabajando en espacios más allá de ℝ 2 (más allá de 2D). Por ejemplo, los RNN a menudo se encuentran en espacios como ℝ 4 hasta ℝ 7 debido a las dimensiones horizontal, vertical, profundidad de píxeles y fotogramas de la película.

Matemáticas finitas

Es lamentable que ninguna combinación de ninguno de los tres libros que se me ocurra tenga todos estos.

  • Gráficos dirigidos: aprenda esto ANTES de los árboles o circuitos (redes artificiales) porque es la topografía de superconjunto de todas esas configuraciones
  • Árboles de símbolos abstractos (AST)
  • Teoría de conjuntos avanzada
  • Árboles de decisión
  • Cadenas de Markov
  • Teoría del caos (especialmente la diferencia entre aleatorio y pseudoaleatorio)
  • Teoría de juegos a partir de Von Neumann y Morgenstern teoría de juegos , el trabajo seminal en ese campo
  • Convergencia en sistemas discretos, especialmente la aplicación de la teoría a la saturación de señal en aritmética de punto entero, punto fijo o punto flotante
  • Medios estadísticos, desviaciones, correlación y los conceptos más progresivos de entropía, entropía relativa y entropía cruzada.
  • Ajuste de curvas
  • Circunvolución
  • Probabilidad especialmente el teorema de Bayes
  • Teoría algorítmica (teoremas de incertidumbre de Gödel e integridad de Turing)

Quimica y Neurologia

Es bueno recordar los equilibrios químicos de la química de la escuela secundaria. Balance juega un papel clave en diseños de IA más sofisticados. Comprender la relación simbiótica entre modelos generativos y discriminativos en las GAN ayudará a un alumno a profundizar esta comprensión.

Las funciones de control dentro de los sistemas biológicos siguen siendo una fuente primaria de pruebas de concepto en la investigación de inteligencia artificial. A medida que los investigadores se vuelven más creativos al imaginar formas de adaptación que no imitan directamente algún aspecto de la biología (aún a cierta distancia de este escrito), la creatividad puede jugar un papel más importante en la formulación de objetivos de investigación de IA.

Aun así, la IA probablemente seguirá siendo un campo en gran medida interdisciplinario.

FauChristian
fuente
2
Algunos comentarios: 1) Estoy de acuerdo con lo que John escribió en su respuesta, que su respuesta es sobre un "núcleo" más general, mientras que la suya incluye cosas que pueden ser útiles o pueden no depender de qué área de IA se encuentre. 2) Muchas de las cosas que usted describe en "matemáticas de la escuela secundaria" no son (necesariamente) matemáticas de la escuela secundaria, al menos no en Europa (no sé acerca de los Estados Unidos). En los Países Bajos, no obtuve ningún álgebra lineal, matrices, series infinitas o teoría de conjuntos hasta mi primer año en la universidad. Sin embargo, algunos de ellos podrían haber aparecido antes si hubiera elegido un conjunto diferente de cursos en la escuela secundaria.
Dennis Soemers
2
3) Análisis funcional / Teoría de la medida puede ser útil para incluir en algunas áreas. Pero, de nuevo, depende mucho de cuán profundo quieras llegar como investigador de IA. Algunos investigadores de IA en el lado más teórico de las cosas encontrarán útil casi todo esto. Otros investigadores de IA más del lado empírico / software / programación necesitan mucho, mucho menos. Ambos aún pueden generar investigaciones muy valiosas.
Dennis Soemers
7

Trabajo como profesor, y recientemente diseñé los requisitos de matemáticas para una nueva especialización en IA, en consulta con muchos de mis colegas en otras instituciones.

Las otras respuestas, particularmente @ FauChrisian, hacen un buen trabajo al catalogar todos los temas específicos que podrían ser útiles en algún lugar de la IA, pero no todos son igualmente útiles para comprender los temas centrales. En otros casos, comprender el tema es esencialmente lo mismo que comprender los algoritmos de IA relacionados, por lo que generalmente solo los enseñamos juntos en lugar de asumir el requisito previo de conocimiento. Por ejemplo, los procesos de decisión de Markov no son difíciles de enseñar a alguien que ya conoce los conceptos básicos de la teoría de gráficos y las probabilidades, por lo que generalmente solo los cubrimos cuando enseñamos el aprendizaje de refuerzo en un curso de IA, en lugar de como un tema separado en matemáticas curso.

Los requisitos matemáticos que decidimos son:

  • Un curso de uno o dos semestres en matemáticas discretas. Esto es tanto para establecer comodidad con pruebas y rigor matemático como con cualquier tema específico en el área. Se trata principalmente de conocimiento "fundamental", pero algunas partes resultan ser muy útiles. La comodidad con las sumas infinitas, los conceptos básicos de los gráficos, la combinatoria y el análisis asintótico son quizás las partes más directamente aplicables. Me gusta el libro de Susanna Epp .

    • Un curso de uno o dos semestres en álgebra lineal, que es útil en una amplia variedad de temas en IA, especialmente el aprendizaje automático y la minería de datos. Lay & Lay es un buen libro, pero probablemente no sea el mejor. Shilov es una recomendación de Ian Goodfellow y otros, pero no lo he intentado yo mismo.

    • Un curso de probabilidad, y posiblemente un curso moderno de estadística (es decir, con un enfoque bayesiano). Sin embargo, un curso anterior de estadística, o uno dirigido a científicos sociales, no es muy útil. Mis colegas estadísticos están usando Lock5 en este momento y tienen buenas experiencias con él.

    • Al menos cálculo diferencial e integral, y preferiblemente al menos derivadas parciales en cálculo vectorial, pero tal vez todo el curso. Esto es útil en la optimización, el aprendizaje automático y los enfoques económicos de la IA. Stewart es el libro de texto más común. Es completo y puede usarse para los tres cursos, pero sus explicaciones no siempre son las mejores. Sin embargo, aún lo recomendaría.

Esos son los temas centrales. Si no lo hace también tiene un fondo tradicional en la programación, a continuación, un curso de teoría de grafos y los fundamentos de la complejidad asintótica o el diseño de algoritmos y análisis podrían ser buenos suplementos. Por lo general, los AI provienen de un entorno estándar de informática, que cubre todas esas cosas muy bien.

John Doucette
fuente
1
@FauChristian Creo que hemos enumerado los mismos temas: Cálculo y matemáticas finitas con seguridad. Ambos pensamos que deberías tomar un par de clases en cada una. Enumeré estadísticas y probabilidad. Creo que si quieres hacer un trabajo moderno en IA, no llegarás lejos sin eso. Has enumerado química y neurociencia. Creo que pocos AI'ers pensarían en esos como temas necesarios. Ciertamente, puedes superar todo Russell & Norvig sin él. Sin embargo, si desea trabajar en neurociencia computacional (no en aprendizaje profundo), podría ser útil. También dudo que necesites 16 años para contribuir. 5-6 seguro sin embargo.
John Doucette
1
@FauChristian Eso es todo cierto. Tiendo a pensar que si quisieras investigar en la mayoría de los laboratorios modernos de IA, aún necesitarías probabilidad (al menos la mitad del trabajo moderno de IA está en algún tipo de aprendizaje automático, y una gran parte de eso está en el aprendizaje profundo) . Es generalmente el caso que los estudiantes graduados hacen trabajos de investigación. La mayoría de ellos realizan trabajos de investigación después de solo 1-2 años de estudios de posgrado. Algunos de ellos son incluso bastante buenos. Estas personas han tenido solo 4-6 años de educación formal en el tema, como máximo. Más que eso podría hacerte más rápido o más profundo, pero el potencial de investigación comienza por ahí.
John Doucette
3

En lo que respecta a algoritmos simples como Gradient Descent, debe tener una buena comprensión de las derivadas parciales. Especialmente si quieres implementar redes neuronales. Además, la mayoría de los algoritmos están vectorizados para mejorar la velocidad informática y, por lo tanto, debe sentirse cómodo con las matemáticas de matriz. Esto implica ser realmente rápido y cómodo con las dimensiones de matrices, dimensiones de productos, multiplicación de matrices, transposición, etc. Muy raramente, puede usar el cálculo matricial para llegar directamente a soluciones óptimas, por lo que algunos resultados de esta área deberían servir. Continuando, necesita comprender algunos análisis de funciones. esto es necesario para tener una idea de qué funciones de activación están haciendo sigmoid y tanh, log. Una comprensión de la probabilidad y las expectativas también es realmente útil. También debe ser claro con los vectores ortogonales y los productos internos.

Dicho esto, te sugiero que comprendas las operaciones básicas de cálculo y matriz e intentes aprender conceptos de IA. Si no puede resolver algo, explore las matemáticas.

Nota: nuevamente esto es solo para comenzar.

pranav
fuente