Los trabajos de investigación sobre aprendizaje automático a menudo tratan el aprendizaje y la inferencia como dos tareas separadas, pero no me queda claro cuál es la distinción. En este libro, por ejemplo, usan estadísticas bayesianas para ambos tipos de tareas, pero no proporcionan una motivación para esa distinción. Tengo varias ideas vagas de lo que podría tratarse, pero me gustaría ver una definición sólida y tal vez también refutaciones o extensiones de mis ideas:
- La diferencia entre inferir los valores de las variables latentes para un determinado punto de datos y aprender un modelo adecuado para los datos.
- La diferencia entre extraer variaciones (inferencia) y aprender las variaciones para poder extraer variaciones (aprendiendo la dinámica del espacio de entrada / proceso / mundo).
- La analogía neurocientífica podría ser la potenciación / depresión a corto plazo (rastros de memoria) frente a la potenciación / depresión a largo plazo.
machine-learning
terminology
Lenar Hoyt
fuente
fuente
Respuestas:
Estoy de acuerdo con la respuesta de Neil G, pero quizás esta fraseología alternativa también ayude:
Considere la configuración de un modelo de mezcla gaussiana simple. Aquí podemos pensar en los parámetros del modelo como el conjunto de componentes gaussianos del modelo de mezcla (cada uno de sus medios y variaciones, y el peso de cada uno en la mezcla).
Dado un conjunto de parámetros del modelo, la inferencia es el problema de identificar qué componente es probable que haya generado un solo ejemplo dado, generalmente en forma de "responsabilidad" para cada componente. Aquí, las variables latentes son solo el identificador único para qué componente generó el vector dado, e inferimos qué componente era probable que haya sido. (En este caso, la inferencia es simple, aunque en modelos más complejos se vuelve bastante complicada).
El aprendizaje es el proceso de, dado un conjunto de muestras del modelo, identificar los parámetros del modelo (o una distribución sobre los parámetros del modelo) que mejor se ajustan a los datos dados: elegir los medios, las variaciones y las ponderaciones de Gauss.
El algoritmo de aprendizaje Expectation-Maximization puede considerarse como realizar inferencia para el conjunto de entrenamiento, luego aprender los mejores parámetros dados esa inferencia y luego repetir. La inferencia se usa a menudo en el proceso de aprendizaje de esta manera, pero también es de interés independiente, por ejemplo, elegir qué componente generó un punto de datos dado en un modelo de mezcla gaussiana, para decidir el estado oculto más probable en un modelo oculto de Markov, para imputar valores perdidos en un modelo gráfico más general, ...
fuente
La inferencia es elegir una configuración basada en una sola entrada. Aprender es elegir parámetros basados en algunos ejemplos de capacitación.
En el marco de modelo basado en energía (una forma de ver casi todas las arquitecturas de aprendizaje automático), la inferencia elige una configuración para minimizar una función de energía mientras se mantienen los parámetros fijos; El aprendizaje elige los parámetros para minimizar la función de pérdida .
Como señala conjugateprior, otras personas usan terminología diferente para la misma cosa. Por ejemplo, Bishop usa "inferencia" y "decisión" para referirse al aprendizaje y la inferencia, respectivamente. La inferencia causal significa aprender. Pero independientemente de los términos que decida, estos dos conceptos son distintos.
La analogía neurológica es un patrón de activación de neuronas, es una configuración; Un conjunto de fuerzas de enlace son los parámetros.
fuente
Esto se parece a la clásica confusión de jerga entre disciplinas. El OP parece estar usando una terminología similar a la neurociencia donde los dos términos en cuestión pueden tener diferentes connotaciones. Pero dado que Cross Validated generalmente se ocupa de estadísticas y aprendizaje de mecanizado, intentaré responder la pregunta en función del uso común de estos términos en esos campos.
En estadística clásica, la inferencia es simplemente el acto de tomar lo que sabe sobre una muestra y hacer una declaración matemática sobre la población de la que es (con suerte) representativa. Del libro de texto canónico de Casella & Berger (2002): "El tema de la teoría de la probabilidad es la base sobre la cual se construyen todas las estadísticas ... a través de estos modelos, los estadísticos pueden hacer inferencias sobre poblaciones, inferencias basadas en el examen de solo una parte del todo ". Entonces, en estadística, la inferencia está específicamente relacionada con valores p, estadísticas de prueba y distribuciones de muestreo, etc.
En cuanto al aprendizaje, creo que esta tabla de Wasserman's All of Statistics (2003) podría ser útil:
fuente
Es extraño que nadie más lo haya mencionado, pero puede hacer inferencia solo en los casos en que tiene una distribución de probabilidad. Aquí para citar Wiki, que cita el diccionario de Oxford:
La inferencia estadística es el proceso de usar el análisis de datos para deducir las propiedades de una distribución de probabilidad subyacente (Oxford Dictionary of Statistics)
https://en.wikipedia.org/wiki/Statistical_inference
En el caso de redes neuronales tradicionales, k-NN o SVM de vainilla, no tiene densidad de probabilidad para estimar, ni suposiciones sobre ninguna densidad, por lo tanto, no hay inferencia estadística allí. Solo entrenamiento / aprendizaje. Sin embargo, para la mayoría de los procedimientos estadísticos (¿todos?), Puede utilizar tanto la inferencia como el aprendizaje, ya que estos procedimientos poseen algunos supuestos sobre la distribución de la población en cuestión.
fuente