¿Por qué las distribuciones de probabilidad se multiplican aquí?

Estas operaciones se realizan según las probabilidades en lugar de las probabilidades. Aunque la distinción puede ser sutil, identificó un aspecto crucial: el producto de dos densidades nunca es una densidad.

El lenguaje en el blog sugiere esto, pero al mismo tiempo se equivoca sutilmente, así que analicémoslo:

La media de esta distribución es la configuración para la cual ambas estimaciones son más probables y, por lo tanto, es la mejor suposición de la configuración verdadera dada toda la información que tenemos.

Ya hemos observado que el producto no es una distribución. (Aunque podría convertirse en uno mediante la multiplicación por un número adecuado, eso no es lo que está sucediendo aquí).
Las palabras "estimaciones" y "mejor estimación" indican que esta maquinaria se está utilizando para estimar un parámetro, en este caso, la "configuración verdadera" (coordenadas x, y).
Desafortunadamente, la media no es la mejor suposición. El modo es Este es el principio de máxima verosimilitud (ML).

Para que la explicación del blog tenga sentido, debemos suponer lo siguiente. Primero, hay una ubicación verdadera y definida. Llamemos abstractamente $\mu$ . Segundo, cada "sensor" no informa $\mu$ . En cambio, informa un valor $X_i$ es probable que esté cerca de $\mu$ . El "gaussiano" del sensor da la densidad de probabilidad para la distribución de $X_i$ . Para ser muy claro, la densidad del sensor $i$ es una función $f_i$ , Dependiendo de $\mu$ , con la propiedad que para cualquier región $\mathcal{R}$ (en el plano), la posibilidad de que el sensor informe un valor en $\mathcal{R}$ es

Pr (X_{i} \in R) = \int_{R} f_{i} (x; μ) d x .

$\Pr(X_i \in \mathcal{R}) = \int_{\mathcal{R}} f_i(x;\mu) dx.$

En tercer lugar, se supone que los dos sensores funcionan con independencia física , lo que se considera que implica independencia estadística .

Por definición, la probabilidad de las dos observaciones es la densidad de probabilidad que tendrían bajo esta distribución conjunta, dada la verdadera ubicación es . El supuesto de independencia implica que ese es el producto de las densidades. Para aclarar un punto sutil, $x_1, x_2$ $\mu$

La función del producto que asigna a una observación no es una densidad de probabilidad para ; sin embargo, $f_1(x;\mu)f_2(x;\mu)$ $x$ $x$
El producto es la densidad conjunta para el par ordenado . $f_1(x_1;\mu)f_2(x_2;\mu)$ $(x_1, x_2)$

En la figura publicada, es el centro de un blob, es el centro de otro y los puntos dentro de su espacio representan posibles valores de . ¡Observe que ni ni tienen la intención de decir nada sobre las probabilidades de ! es solo un valor fijo desconocido . No es una variable aleatoria. $x_1$ $x_2$ $\mu$ $f_1$ $f_2$ $\mu$ $\mu$

Aquí hay otro giro sutil: la probabilidad se considera una función de . Tenemos los datos, solo estamos tratando de averiguar qué es probable que sea . Por lo tanto, lo que debemos trazar es la función de probabilidad $\mu$ $\mu$

Λ (μ) = f_{1} (x_{1}; μ) f_{2} (x_{2}; μ) .

$\Lambda(\mu) = f_1(x_1;\mu)f_2(x_2;\mu).$

¡Es una coincidencia singular que esto también sea gaussiano! La demostración es reveladora. Hagamos los cálculos en una sola dimensión (en lugar de dos o más) para ver el patrón: todo se generaliza a más dimensiones. El logaritmo de un gaussiano tiene la forma

\log f_{i} (x_{i}; μ) = A_{i} - B_{i} (x_{i} - μ)^{2}

$\log f_i(x_i;\mu) = A_i - B_i(x_i-\mu)^2$

para las constantes y . Por lo tanto, la probabilidad de registro es $A_i$ $B_i$

\begin{aligned} \log Λ (μ) & = A_{1} - B_{1} (x_{1} - μ)^{2} + A_{2} - B_{2} (x_{2} - μ)^{2} \\ = C - (B_{1} + B_{2}) {(μ - \frac{B_{1} x_{1} + B_{2} x_{2}}{B_{1} + B_{2}})}^{2} \end{aligned}

$\eqalign{ \log \Lambda(\mu) &= A_1 - B_1(x_1-\mu)^2 + A_2 - B_2(x_2-\mu)^2 \\ &= C - (B_1+B_2)\left(\mu - \frac{B_1x_1+B_2x_2}{B_1+B_2}\right)^2 }$

donde no depende de . Este es el registro de un gaussiano donde el papel de ha sido reemplazado por esa media ponderada que se muestra en la fracción. $C$ $\mu$ $x_i$

Volvamos al hilo principal. La estimación de ML de es ese valor que maximiza la probabilidad. De manera equivalente, maximiza este gaussiano que acabamos de derivar del producto de los gaussianos. Por definición, el máximo es un modo . Es una coincidencia, resultante de la simetría de puntos de cada gaussiano alrededor de su centro, que el modo coincide con la media. $\mu$

Este análisis ha revelado que varias coincidencias en la situación particular han oscurecido los conceptos subyacentes:

una distribución multivariada (conjunta) se confundió fácilmente con una distribución univariada (que no lo es);
la probabilidad parecía una distribución de probabilidad (que no lo es);
el producto de los gaussianos resulta ser gaussiano (una regularidad que generalmente no es cierta cuando los sensores varían en formas no gaussianas);
y su modo coincide con su media (que está garantizada solo para sensores con respuestas simétricas alrededor de los valores verdaderos).

Solo al centrarnos en estos conceptos y eliminar los comportamientos casuales podemos ver lo que realmente está sucediendo.

whuber
fuente

Muchas gracias por esta maravillosa respuesta. Parece que la pregunta no es tan simple como parece. Realmente me preguntaba por qué era tan difícil para mí entender el concepto de independencia que creía conocer bien. Me tomaré el tiempo para asegurarme de que cada punto esté claro.

entendido el

Recompensa virtual +150. Cuando escribe "el producto de dos densidades nunca es una densidad", ¿qué pasa con la densidad uniforme en o la densidad acumulada en 0? ¿No sería (incluso) mejor decir " genéricamente no es una densidad"?

[0, 1]

$[0,1]$

entendido el

Tienes razón. Tenía en mente una desigualdad que puede convertirse en una igualdad cuando todos los valores de la densidad son cero, uno o infinito. Todos sus contraejemplos son de ese tipo.

whuber

Ya veo una excelente respuesta, pero estoy publicando la mía ya que comencé a escribirla.

El médico 1 tiene este modelo de predicción: $d_1\sim N(\mu_1, \sigma_1)$

El médico 2 tiene este modelo de predicción: $d_2\sim N(\mu_2, \sigma_2)$

Entonces, para que podamos evaluar la probabilidad conjunta solo tenemos que darnos cuenta de que esto se factoriza en ya que debido a la independencia de los dos médicos. $P(d_1,d_2)=P(d_1|d_2)P(d_2)$ $P(d_1)P(d_2)$ $P(d_1|d_2)=P(d_1)$

Dr. Mike
fuente

Virtual +1 para los detalles ordenados. Es una pena que el sistema no me permita darle el +1 real.

Suerte

¿Cómo definirías como un evento? Por ejemplo, "el dado da un 3" es un evento, por lo que es "ganar más de 100". Aquí no puedo formularlo de esa manera, porque no tiene una dfp, es una dfp. Por ejemplo, puedo calcular la probabilidad de que tenga días de vida según el médico 1, pero ¿cuál es la probabilidad de ?

d_{1}

$d_1$

d_{1}

$d_1$

x

$x$

d_{1}

$d_1$

entendido el

Tal vez estoy confundido porque entiendo como un evento, mientras que es una variable aleatoria. Entonces, es la variable aleatoria que describe el número de días restantes según el médico 1. Pero, ¿cuál es el significado de la probabilidad conjunta de y es un número real en ? ¿Qué si toma el valor "3 días" y toma el valor "4 días"? Espero que mis preguntas te ayuden a comprender lo que me falta.

d_{1}

$d_1$

d_{1}

$d_1$

P (d_{1}, d_{2})

$P(d_1,d_2)$

[0, 1]

$[0,1]$

d_{1}

$d_1$

d_{2}

$d_2$

entendido el

Como los gaussianos son densidades de probabilidad , no probabilidades, esta explicación es incompleta.

whuber

¿Por qué las distribuciones de probabilidad se multiplican aquí?

Respuestas: