¿Cuál es la diferencia entre aprendizaje e inferencia?

20

Los trabajos de investigación sobre aprendizaje automático a menudo tratan el aprendizaje y la inferencia como dos tareas separadas, pero no me queda claro cuál es la distinción. En este libro, por ejemplo, usan estadísticas bayesianas para ambos tipos de tareas, pero no proporcionan una motivación para esa distinción. Tengo varias ideas vagas de lo que podría tratarse, pero me gustaría ver una definición sólida y tal vez también refutaciones o extensiones de mis ideas:

  • La diferencia entre inferir los valores de las variables latentes para un determinado punto de datos y aprender un modelo adecuado para los datos.
  • La diferencia entre extraer variaciones (inferencia) y aprender las variaciones para poder extraer variaciones (aprendiendo la dinámica del espacio de entrada / proceso / mundo).
  • La analogía neurocientífica podría ser la potenciación / depresión a corto plazo (rastros de memoria) frente a la potenciación / depresión a largo plazo.
Lenar Hoyt
fuente
44
No estoy seguro de si esto ayuda, pero en estadística una distinción es si quiere pensar en aprender como inferencia (principalmente Bayes) o como estimación (principalmente Frequentista). Para el primero, aprender sobre todo (variables latentes, parámetros, predicciones, modelos) es una inferencia (que devuelve una distribución). Para este último, algunos problemas de aprendizaje pueden ser una inferencia y otros un problema de estimación (que devuelve una estimación y un rango de incertidumbre motivado teóricamente por muestreo).
conjugateprior
55
El "aprendizaje" es solo una metáfora evocadora del proceso de entrenamiento de un algoritmo de aprendizaje automático. No creo que se pueda obtener mucha información aquí.
Sycorax dice Reinstate Monica el
1
@Winks ¿Ha leído la pregunta vinculada en absoluto ? Ninguna de las respuestas hace explícita la distinción que solicito.
Lenar Hoyt
1
@conjugateprior En el aprendizaje automático, nadie diría que "aprender sobre todo: variables latentes, parámetros, predicciones, modelos, es una inferencia". El aprendizaje y la inferencia se consideran totalmente separados a pesar de que ambos pueden producir distribuciones.
Neil G

Respuestas:

11

Estoy de acuerdo con la respuesta de Neil G, pero quizás esta fraseología alternativa también ayude:

Considere la configuración de un modelo de mezcla gaussiana simple. Aquí podemos pensar en los parámetros del modelo como el conjunto de componentes gaussianos del modelo de mezcla (cada uno de sus medios y variaciones, y el peso de cada uno en la mezcla).

Dado un conjunto de parámetros del modelo, la inferencia es el problema de identificar qué componente es probable que haya generado un solo ejemplo dado, generalmente en forma de "responsabilidad" para cada componente. Aquí, las variables latentes son solo el identificador único para qué componente generó el vector dado, e inferimos qué componente era probable que haya sido. (En este caso, la inferencia es simple, aunque en modelos más complejos se vuelve bastante complicada).

El aprendizaje es el proceso de, dado un conjunto de muestras del modelo, identificar los parámetros del modelo (o una distribución sobre los parámetros del modelo) que mejor se ajustan a los datos dados: elegir los medios, las variaciones y las ponderaciones de Gauss.

El algoritmo de aprendizaje Expectation-Maximization puede considerarse como realizar inferencia para el conjunto de entrenamiento, luego aprender los mejores parámetros dados esa inferencia y luego repetir. La inferencia se usa a menudo en el proceso de aprendizaje de esta manera, pero también es de interés independiente, por ejemplo, elegir qué componente generó un punto de datos dado en un modelo de mezcla gaussiana, para decidir el estado oculto más probable en un modelo oculto de Markov, para imputar valores perdidos en un modelo gráfico más general, ...

Dougal
fuente
1
Y una pequeña advertencia de que uno puede elegir dividir las cosas en aprendizaje e inferencia de esta manera, pero también puede elegir hacer todo el lote como inferencia: stats.stackexchange.com/questions/180582/…
conjugateprior
¿Por qué tantas líneas? Quiero ver una respuesta simple que los diferencie en una o dos oraciones. Además, no todos están familiarizados con los GMM o EM.
nbro
9

La inferencia es elegir una configuración basada en una sola entrada. Aprender es elegir parámetros basados ​​en algunos ejemplos de capacitación.

En el marco de modelo basado en energía (una forma de ver casi todas las arquitecturas de aprendizaje automático), la inferencia elige una configuración para minimizar una función de energía mientras se mantienen los parámetros fijos; El aprendizaje elige los parámetros para minimizar la función de pérdida .

Como señala conjugateprior, otras personas usan terminología diferente para la misma cosa. Por ejemplo, Bishop usa "inferencia" y "decisión" para referirse al aprendizaje y la inferencia, respectivamente. La inferencia causal significa aprender. Pero independientemente de los términos que decida, estos dos conceptos son distintos.

La analogía neurológica es un patrón de activación de neuronas, es una configuración; Un conjunto de fuerzas de enlace son los parámetros.

Neil G
fuente
@mcb Todavía no sé qué quieres decir con "variaciones". "Invarianzas" ni siquiera es una palabra en el diccionario. Sí, hay muchos algoritmos de aprendizaje que se basan en una configuración inferida como EM descrita en la respuesta de Dougal.
Neil G
@mcb Tampoco entiendo tus preguntas; quizás sería útil especificar un modelo de ejemplo y ser específico acerca de qué distribución / varianzas / invariantes (?) está hablando.
Dougal
Gracias por tus respuestas. Quizás he entendido mal algo.
Lenar Hoyt
@NeilG Creo que esta terminología se usa principalmente en el trabajo de visión ML donde las decisiones de clasificación deben ser 'invariantes' para la traducción, rotación, reescalamiento de objetos, etc. No se puede encontrar una buena referencia breve, pero hay esto: en.wikipedia.org/wiki / Prior_knowledge_for_pattern_recognition
conjugateprior
@conjugateprior Tenía la sensación de que a eso se refería, pero quería ver si aclaraba su pregunta.
Neil G
4

Esto se parece a la clásica confusión de jerga entre disciplinas. El OP parece estar usando una terminología similar a la neurociencia donde los dos términos en cuestión pueden tener diferentes connotaciones. Pero dado que Cross Validated generalmente se ocupa de estadísticas y aprendizaje de mecanizado, intentaré responder la pregunta en función del uso común de estos términos en esos campos.

En estadística clásica, la inferencia es simplemente el acto de tomar lo que sabe sobre una muestra y hacer una declaración matemática sobre la población de la que es (con suerte) representativa. Del libro de texto canónico de Casella & Berger (2002): "El tema de la teoría de la probabilidad es la base sobre la cual se construyen todas las estadísticas ... a través de estos modelos, los estadísticos pueden hacer inferencias sobre poblaciones, inferencias basadas en el examen de solo una parte del todo ". Entonces, en estadística, la inferencia está específicamente relacionada con valores p, estadísticas de prueba y distribuciones de muestreo, etc.

En cuanto al aprendizaje, creo que esta tabla de Wasserman's All of Statistics (2003) podría ser útil:

ingrese la descripción de la imagen aquí

Zoë Clark
fuente
Esto no está de acuerdo con muchos otros libros de texto, incluido el libro de Bishop mencionado en los comentarios. La clasificación es un tipo de aprendizaje supervisado cuando las variables objetivo son categorías. La palabra "estimación" por sí sola es vaga: usualmente nos referimos a "estimación de densidad" o "estimación de parámetros" o "estimación secuencial" o "estimación de máxima verosimilitud".
Neil G
1
Además, Bayes net no es solo un gráfico acíclico dirigido. Es un tipo de dag cuyos nodos representan proposiciones y cuyos bordes representan dependencias probabilísticas. Especifica las relaciones de independencia condicional.
Neil G
1
@NeilG Muy cierto. La traducción estadística más cercana probablemente sería "modelo de ecuación estructural"
conjugateprior
2
Y en una cantidad desalentadora de estadísticas debería haber dos líneas sobre los datos: CS: datos de entrenamiento, Estadísticas: datos. CS: datos de prueba, Estadísticas: ¿qué?
conjugateprior
Estadísticas 101: wut = otra muestra (con suerte aleatoria) de su población ...
Zoë Clark
-1

Es extraño que nadie más lo haya mencionado, pero puede hacer inferencia solo en los casos en que tiene una distribución de probabilidad. Aquí para citar Wiki, que cita el diccionario de Oxford:

La inferencia estadística es el proceso de usar el análisis de datos para deducir las propiedades de una distribución de probabilidad subyacente (Oxford Dictionary of Statistics)

https://en.wikipedia.org/wiki/Statistical_inference

En el caso de redes neuronales tradicionales, k-NN o SVM de vainilla, no tiene densidad de probabilidad para estimar, ni suposiciones sobre ninguna densidad, por lo tanto, no hay inferencia estadística allí. Solo entrenamiento / aprendizaje. Sin embargo, para la mayoría de los procedimientos estadísticos (¿todos?), Puede utilizar tanto la inferencia como el aprendizaje, ya que estos procedimientos poseen algunos supuestos sobre la distribución de la población en cuestión.

SWIM S.
fuente
Esto está mal. De todos modos, puede interpretar que las redes neuronales producen una distribución si lo desea. Ver, por ejemplo, Amari 1998.
Neil G
No está mal, ni especifique. PUEDES interpretar, pero originalmente no existe tal interpretación.
NADAR S.
Está mal porque las personas usan el término inferencia con modelos como autoenciders.
Neil G
Entonces, ¿está mal porque algún grupo de personas usa el término incorrectamente? ¿O porque tienen alguna interpretación probabilística de sus NN (no estoy muy familiarizado con los codificadores automáticos)? Lógicamente justifiqué por qué un término es diferente del otro. Entonces, dada la definición anterior, veo que aquellos que usan el término inferencia con NN, k-NN o SVM (a menos que con interpretación probabilística) estén abusando de la notación.
NADAR S.