¿Qué se entiende por el término "anterior" en el aprendizaje automático

12

Soy nuevo en el aprendizaje automático. He leído varios documentos en los que han empleado el aprendizaje profundo para diversas aplicaciones y han usado el término "previo" en la mayoría de los casos de diseño de modelos, digamos anterior en la estimación de la postura del cuerpo humano. ¿Alguien puede explicar qué significa realmente? Solo pude encontrar la formulación matemática de anterior y posterior en los tutoriales.

Amy
fuente
55
Es un concepto matemático, así que sí, está formulado matemáticamente. Sin embargo, la página de Wikipedia parece dar mucha intuición. ¿Lo comprobaste? Si es así, ¿podría decir más sobre lo que no entendió y lo que está buscando en una respuesta?
David Richerby
@David Richerby . Gracias por su respuesta. Sí, revisé esa página de wikipedia y pude reunir una vaga idea de que se trata de conocimiento o información sobre una variable. Había estado leyendo documentos sobre la estimación de la postura del cuerpo donde había menciones de los anteriores, la cinemática del cuerpo, el modelado de los anteriores sobre la pose humana en 3D, aprendiendo los anteriores, antes de estimar la pose humana en 3D. No pude entender claramente qué significa realmente el término "anterior" en este contexto.
Amy

Respuestas:

13

En pocas palabras, y sin ningún símbolo matemático, anterior significa creencias iniciales sobre un evento en términos de distribución de probabilidad . Luego configura un experimento y obtiene algunos datos, y luego "actualiza" su creencia (y, por lo tanto, la distribución de probabilidad) de acuerdo con el resultado del experimento (la distribución de probabilidad posterior).

Ejemplo: supongamos que se nos dan dos monedas. Pero no sabemos qué moneda es falsa. La moneda 1 es imparcial (CABEZAS y COLAS tienen una probabilidad del 50%), y la moneda 2 está sesgada, por ejemplo, sabemos que da CABEZAS con una probabilidad del 60%. Matemáticamente:

Dado que tenemos CABEZAS, la probabilidad de que sea Moneda 1 es 0.4 y la probabilidad de que sea Moneda 2 es 0.6p ( H | C o i n 2 ) = 0.6

pags(HEl |Coyonorte1)=0.4 0.4
pags(HEl |Coyonorte2)=0.6

Entonces, eso es todo lo que sabemos antes de establecer un experimento.

Ahora vamos a elegir una moneda para lanzarla y, según la información que tenemos (H o T), vamos a adivinar qué moneda hemos elegido (Moneda 1 o Moneda 2).

Inicialmente suponemos que ambas monedas tienen las mismas posibilidades, porque todavía no tenemos información. Este es nuestro prior . Es una distribución uniforme .pags(Coyonorte1)=pags(Coyonorte2)=0.5 0.5

Ahora tomamos al azar una moneda, la lanzamos y tenemos CABEZAS. En este momento todo sucede. Calculamos la probabilidad / distribución posterior utilizando la fórmula bayesiana:

pags(Coyonorte1El |H)=pags(HEl |Coyonorte1)pags(Coyonorte1)pags(HEl |Coyonorte1)pags(Coyonorte1)+pags(HEl |Coyonorte2)pags(Coyonorte2)=0.4 0.4×0.5 0.50.4 0.4×0.5 0.5+0.6×0.5 0.5=0.4 0.4

pags(Coyonorte2El |H)=pags(HEl |Coyonorte2)pags(Coyonorte2)pags(HEl |Coyonorte1)pags(Coyonorte1)+pags(HEl |Coyonorte2)pags(Coyonorte2)=0.6×0.5 0.50.4 0.4×0.5 0.5+0.6×0.5 0.5=0.6

Entonces, inicialmente teníamos probabilidad para cada moneda, pero ahora después del experimento nuestras creencias han cambiado, ahora creemos que la moneda es la Moneda 1 con probabilidad 0.4 y es la Moneda 2 con probabilidad 0.6. Esta es nuestra distribución posterior , distribución de Bernoulli .0.5 0.5

Este es el principio básico de la inferencia bayesiana y las estadísticas utilizadas en el aprendizaje automático.

fade2black
fuente
2
Necesita arreglar el ejemplo anterior. Ese cálculo muestra que ambas monedas están sesgadas (la primera con una prob de cara 40% y la segunda con probabilidad de cara 60%). En caso de que la primera esté sesgada, sigue siendo una distribución de Bernoulli pero con probabilidades P (moneda1 | H) = 5/11 y P (Moneda2 | H) =
6/11
1
¿Debería "Dado que tenemos CABEZAS, la probabilidad de que sea Moneda 1 es 0.4" debe reescribirse como "Dado que tenemos Moneda 1, la probabilidad de que sea CABEZAS es 0.4" ?
Mateen Ulhaq
La explicación no explica en términos de aprendizaje automático.
user3023715