¿Cuáles son las diferencias entre "inferencia" y "estimación" en el contexto del aprendizaje automático ?
Como novato, siento que inferimos variables aleatorias y estimamos los parámetros del modelo. ¿Es correcto este entendimiento?
Si no es así, ¿cuáles son exactamente las diferencias y cuándo debo usar cuáles?
Además, ¿cuál es el sinónimo de "aprender"?
machine-learning
inference
terminology
Sibbs Gambling
fuente
fuente
Respuestas:
Se hace una inferencia estadística de toda la colección de conclusiones que se pueden extraer de un conjunto de datos dado y un modelo hipotético asociado, incluido el ajuste de dicho modelo. Para citar de Wikipedia ,
y,
La estimación no es más que un aspecto de la inferencia donde uno sustituye parámetros desconocidos (asociados con el modelo hipotético que generó los datos) con soluciones óptimas basadas en los datos (y posiblemente información previa sobre esos parámetros). Siempre debe asociarse con una evaluación de la incertidumbre de las estimaciones reportadas, evaluación que es una parte integral de la inferencia.
La probabilidad máxima es una instancia de estimación, pero no cubre la totalidad de la inferencia. Por el contrario, el análisis bayesiano ofrece una máquina de inferencia completa.
fuente
Si bien la estimación per se apunta a obtener valores de los parámetros desconocidos (por ejemplo, coeficientes en regresión logística o en el hiperplano de separación en máquinas de vectores de soporte), la inferencia estadística intenta adjuntar una medida de incertidumbre y / o una declaración de probabilidad a Los valores de los parámetros (errores estándar e intervalos de confianza). Si el modelo que asume el estadístico es aproximadamente correcto, siempre que los nuevos datos entrantes continúen cumpliendo con ese modelo, las declaraciones de incertidumbre pueden tener algo de verdad y proporcionar una medida de la frecuencia con la que cometerá errores al usar el modelo para tomar tus decisiones.
Lo más cercano al aprendizaje automático es la validación cruzada cuando la muestra se divide en las partes de capacitación y validación, y este último dice efectivamente: "si los datos nuevos se parecen a los datos anteriores, pero no tienen ninguna relación con los datos que se utilizó para configurar mi modelo, entonces una medida realista de la tasa de error es tal y tal ". Se deriva completamente empíricamente al ejecutar el mismo modelo en los datos, en lugar de tratar de inferir las propiedades del modelo haciendo suposiciones estadísticas e involucrando resultados matemáticos como el CLT anterior. Podría decirse que esto es más honesto, pero ya que utiliza menos información y, por lo tanto, requiere tamaños de muestra más grandes. Además, supone implícitamente que el proceso no cambia,
Si bien la frase "inferir lo posterior" puede tener sentido (no soy bayesiano, realmente no puedo decir cuál es la terminología aceptada), no creo que haya mucho que ver con suposiciones en ese paso de inferencia. Todos los supuestos bayesianos son (1) en el anterior y (2) en el modelo asumido, y una vez que se configuran, el posterior sigue automáticamente (al menos en teoría a través del teorema de Bayes; los pasos prácticos pueden ser muy complicados, y Sipps Gambling ... disculpe, el muestreo de Gibbs puede ser un componente relativamente fácil de llegar a esa parte posterior). Si "inferir lo posterior" se refiere a (1) + (2), entonces es un sabor de inferencia estadística para mí. Si (1) y (2) se indican por separado, y luego "inferir lo posterior" es otra cosa, entonces no
fuente
Supongamos que tiene una muestra representativa de una población.
La inferencia es cuando usa esa muestra para estimar un modelo y declarar que los resultados pueden extenderse a toda la población, con cierta precisión. Hacer inferencia es hacer suposiciones sobre una población usando solo una muestra representativa.
La estimación es cuando elige un modelo que se ajusta a su muestra de datos y calcula con cierta precisión los parámetros de ese modelo. Se llama estimación porque nunca podrá calcular los valores verdaderos de los parámetros, ya que solo tiene una muestra de datos y no toda la población.
fuente
Este es un intento de dar una respuesta a cualquier persona sin antecedentes en estadísticas. Para aquellos que estén interesados en obtener más detalles, hay muchas referencias útiles ( como esta, por ejemplo ) sobre el tema.
Respuesta corta:
Respuesta larga:
El término "estimación" se usa a menudo para describir el proceso de encontrar una estimación para un valor desconocido, mientras que "inferencia" a menudo se refiere a la inferencia estadística, un proceso de descubrir distribuciones (o características) de variables aleatorias y usarlas para sacar conclusiones.
Piense en responder la pregunta de: ¿Qué altura tiene la persona promedio en mi país?
Si decide encontrar una estimación, puede caminar un par de días y medir a los extraños que se encuentran en la calle (crear una muestra) y luego calcular su estimación, por ejemplo, como el promedio de su muestra. ¡Acabas de hacer alguna estimación!
Por otro lado, es posible que desee encontrar más de una estimación, que sabe que es un número único y está destinado a estar equivocado. Podría intentar responder la pregunta con cierta confianza, como por ejemplo: estoy 99% seguro de que la altura promedio de una persona en mi país está entre 1.60 my 1.90 m.
Para hacer tal afirmación, necesitaría estimar la distribución de la altura de las personas que está conociendo y sacar sus conclusiones en base a este conocimiento, que es la base de la inferencia estadística.
Lo crucial a tener en cuenta (como se señala en la respuesta de Xi'an) es que encontrar un estimador es parte de la inferencia estadística.
fuente
Bueno, hoy hay personas de diferentes disciplinas que hacen su carrera en el área de ML, y es probable que hablen dialectos ligeramente diferentes.
Sin embargo, independientemente de los términos que puedan usar, los conceptos detrás son distintos. Por lo tanto, es importante aclarar estos conceptos y luego traducir esos dialectos de la manera que prefiera.
P.ej.
En PRML por Bishop,
Entonces parece que aquí
Inference
=Learning
=Estimation
Pero en otro material, la inferencia puede diferir de la estimación, donde
inference
significaprediction
mientras queestimation
significa el procedimiento de aprendizaje de los parámetros.fuente
En el contexto del aprendizaje automático, la inferencia se refiere a un acto de descubrir configuraciones de variables latentes (ocultas) dadas sus observaciones. Esto también incluye determinar la distribución posterior de sus variables latentes. La estimación parece estar asociada con la "estimación puntual", que es determinar los parámetros de su modelo. Los ejemplos incluyen la estimación de máxima verosimilitud. En la maximización de expectativas (EM), en el paso E, haces inferencia. En el paso M, haces la estimación de parámetros.
Creo que escucho a la gente decir "inferir la distribución posterior" más que "estimar la distribución posterior". El último no se utiliza en la inferencia exacta habitual. Se utiliza, por ejemplo, en la propagación de expectativas o Bayes variacional, donde inferir un posterior exacto es intratable y se deben hacer suposiciones adicionales en el posterior. En este caso, el posterior inferido es aproximado. La gente puede decir "aproximar el posterior" o "estimar el posterior".
Todo esto es solo mi opinión. No es una regla
fuente
Quiero agregar a las respuestas de otros expandiéndome en la parte de "inferencia". En el contexto del aprendizaje automático, un aspecto interesante de la inferencia es la estimación de la incertidumbre. En general, es complicado con los algoritmos de ML: ¿cómo se coloca una desviación estándar en la etiqueta de clasificación que escupe una red neuronal o un árbol de decisión? En las estadísticas tradicionales, los supuestos de distribución nos permiten hacer cálculos matemáticos y descubrir cómo evaluar la incertidumbre en los parámetros. En ML, puede que no haya parámetros, ni suposiciones de distribución, ni ninguna.
Se han realizado algunos progresos en estos frentes, algunos de ellos muy recientes (más recientes que las respuestas actuales). Una opción es, como han mencionado otros, el análisis bayesiano donde su posterior le da estimaciones de incertidumbre. Los métodos de tipo Bootstrap son buenos. Stefan Wager y Susan Athey, en Stanford, tienen algo de trabajo de los últimos dos años para obtener inferencia para bosques aleatorios . De manera análoga, BART es un método de conjunto de árbol bayesiano que produce un posterior a partir del cual se puede extraer inferencia.
fuente