Estas operaciones se realizan según las probabilidades en lugar de las probabilidades. Aunque la distinción puede ser sutil, identificó un aspecto crucial: el producto de dos densidades nunca es una densidad.
El lenguaje en el blog sugiere esto, pero al mismo tiempo se equivoca sutilmente, así que analicémoslo:
La media de esta distribución es la configuración para la cual ambas estimaciones son más probables y, por lo tanto, es la mejor suposición de la configuración verdadera dada toda la información que tenemos.
Ya hemos observado que el producto no es una distribución. (Aunque podría convertirse en uno mediante la multiplicación por un número adecuado, eso no es lo que está sucediendo aquí).
Las palabras "estimaciones" y "mejor estimación" indican que esta maquinaria se está utilizando para estimar un parámetro, en este caso, la "configuración verdadera" (coordenadas x, y).
Desafortunadamente, la media no es la mejor suposición. El modo es Este es el principio de máxima verosimilitud (ML).
Para que la explicación del blog tenga sentido, debemos suponer lo siguiente. Primero, hay una ubicación verdadera y definida. Llamemos abstractamenteμ. Segundo, cada "sensor" no informaμ. En cambio, informa un valorXi es probable que esté cerca de μ. El "gaussiano" del sensor da la densidad de probabilidad para la distribución deXi. Para ser muy claro, la densidad del sensori es una función fi, Dependiendo de μ, con la propiedad que para cualquier región R (en el plano), la posibilidad de que el sensor informe un valor en R es
Pr(Xi∈R)=∫Rfi(x;μ)dx.
En tercer lugar, se supone que los dos sensores funcionan con independencia física , lo que se considera que implica independencia estadística .
Por definición, la probabilidad de las dos observaciones es la densidad de probabilidad que tendrían bajo esta distribución conjunta, dada la verdadera ubicación es . El supuesto de independencia implica que ese es el producto de las densidades. Para aclarar un punto sutil,x1,x2μ
La función del producto que asigna a una observación no es una densidad de probabilidad para ; sin embargo,f1(x;μ)f2(x;μ)xx
El producto es la densidad conjunta para el par ordenado .f1(x1;μ)f2(x2;μ)(x1,x2)
En la figura publicada, es el centro de un blob, es el centro de otro y los puntos dentro de su espacio representan posibles valores de . ¡Observe que ni ni tienen la intención de decir nada sobre las probabilidades de ! es solo un valor fijo desconocido . No es una variable aleatoria.x1x2μf1f2μμ
Aquí hay otro giro sutil: la probabilidad se considera una función de . Tenemos los datos, solo estamos tratando de averiguar qué es probable que sea . Por lo tanto, lo que debemos trazar es la función de probabilidadμμ
Λ(μ)=f1(x1;μ)f2(x2;μ).
¡Es una coincidencia singular que esto también sea gaussiano! La demostración es reveladora. Hagamos los cálculos en una sola dimensión (en lugar de dos o más) para ver el patrón: todo se generaliza a más dimensiones. El logaritmo de un gaussiano tiene la forma
logfi(xi;μ)=Ai−Bi(xi−μ)2
para las constantes y . Por lo tanto, la probabilidad de registro esAiBi
logΛ(μ)=A1−B1(x1−μ)2+A2−B2(x2−μ)2=C−(B1+B2)(μ−B1x1+B2x2B1+B2)2
donde no depende de . Este es el registro de un gaussiano donde el papel de ha sido reemplazado por esa media ponderada que se muestra en la fracción.Cμxi
Volvamos al hilo principal. La estimación de ML de es ese valor que maximiza la probabilidad. De manera equivalente, maximiza este gaussiano que acabamos de derivar del producto de los gaussianos. Por definición, el máximo es un modo . Es una coincidencia, resultante de la simetría de puntos de cada gaussiano alrededor de su centro, que el modo coincide con la media.μ
Este análisis ha revelado que varias coincidencias en la situación particular han oscurecido los conceptos subyacentes:
una distribución multivariada (conjunta) se confundió fácilmente con una distribución univariada (que no lo es);
la probabilidad parecía una distribución de probabilidad (que no lo es);
el producto de los gaussianos resulta ser gaussiano (una regularidad que generalmente no es cierta cuando los sensores varían en formas no gaussianas);
y su modo coincide con su media (que está garantizada solo para sensores con respuestas simétricas alrededor de los valores verdaderos).
Solo al centrarnos en estos conceptos y eliminar los comportamientos casuales podemos ver lo que realmente está sucediendo.
Ya veo una excelente respuesta, pero estoy publicando la mía ya que comencé a escribirla.
El médico 1 tiene este modelo de predicción:d1∼N(μ1,σ1)
El médico 2 tiene este modelo de predicción:d2∼N(μ2,σ2)
Entonces, para que podamos evaluar la probabilidad conjunta solo tenemos que darnos cuenta de que esto se factoriza en ya que debido a la independencia de los dos médicos.P(d1,d2)=P(d1|d2)P(d2) P(d1)P(d2) P(d1|d2)=P(d1)
fuente