¿Por qué las distribuciones de probabilidad se multiplican aquí?

9

Dejar Xsea, por ejemplo, la cantidad de días que le quedan de vida. Un médico 1 evalúa la distribución deX como gaussiano: P(X)N(μ1,σ1). Otro médico independiente 2 evalúaP(X)N(μ2,σ2). Ambos doctores son igualmente confiables. ¿Cómo combinar ambas informaciones?

En este artículo de blog , el autor dice que

Si tenemos dos probabilidades y queremos saber la posibilidad de que ambas sean verdaderas, simplemente las multiplicamos. Entonces, tomamos las dos gotas gaussianas y las multiplicamos: ingrese la descripción de la imagen aquí

Editar La mayoría de las personas (primero hice esta pregunta sobre matemáticas. SE) respondieron que esta es la relación trivial de independenciaP(AB)=P(A)P(B) pero sigo teniendo dificultades para entender lo que A y Bestar en este contexto: probablemente no eventos como "el dado dará un 3" o "el paciente está enfermo". Además, probablemente haya algo más, porque el producto de dos densidades no es una densidad de probabilidad ya que en generalRP(x)21. Entonces, probablemente no sea tan simple como eso.

Tomemos otro ejemplo. Un experto 1 te dice que un dado está perfectamente equilibrado. Otro experto 2 te dice, independientemente lo mismo. Entonces la probabilidad de que los dados den un 3 ciertamente no es1/62.

entendido
fuente

Respuestas:

8

Estas operaciones se realizan según las probabilidades en lugar de las probabilidades. Aunque la distinción puede ser sutil, identificó un aspecto crucial: el producto de dos densidades nunca es una densidad.

El lenguaje en el blog sugiere esto, pero al mismo tiempo se equivoca sutilmente, así que analicémoslo:

La media de esta distribución es la configuración para la cual ambas estimaciones son más probables y, por lo tanto, es la mejor suposición de la configuración verdadera dada toda la información que tenemos.

  1. Ya hemos observado que el producto no es una distribución. (Aunque podría convertirse en uno mediante la multiplicación por un número adecuado, eso no es lo que está sucediendo aquí).

  2. Las palabras "estimaciones" y "mejor estimación" indican que esta maquinaria se está utilizando para estimar un parámetro, en este caso, la "configuración verdadera" (coordenadas x, y).

  3. Desafortunadamente, la media no es la mejor suposición. El modo es Este es el principio de máxima verosimilitud (ML).

Para que la explicación del blog tenga sentido, debemos suponer lo siguiente. Primero, hay una ubicación verdadera y definida. Llamemos abstractamenteμ. Segundo, cada "sensor" no informaμ. En cambio, informa un valorXi es probable que esté cerca de μ. El "gaussiano" del sensor da la densidad de probabilidad para la distribución deXi. Para ser muy claro, la densidad del sensori es una función fi, Dependiendo de μ, con la propiedad que para cualquier región R (en el plano), la posibilidad de que el sensor informe un valor en R es

Pr(XiR)=Rfi(x;μ)dx.

En tercer lugar, se supone que los dos sensores funcionan con independencia física , lo que se considera que implica independencia estadística .

Por definición, la probabilidad de las dos observaciones es la densidad de probabilidad que tendrían bajo esta distribución conjunta, dada la verdadera ubicación es . El supuesto de independencia implica que ese es el producto de las densidades. Para aclarar un punto sutil,x1,x2μ

  1. La función del producto que asigna a una observación no es una densidad de probabilidad para ; sin embargo,f1(x;μ)f2(x;μ)xx

  2. El producto es la densidad conjunta para el par ordenado .f1(x1;μ)f2(x2;μ)(x1,x2)

En la figura publicada, es el centro de un blob, es el centro de otro y los puntos dentro de su espacio representan posibles valores de . ¡Observe que ni ni tienen la intención de decir nada sobre las probabilidades de ! es solo un valor fijo desconocido . No es una variable aleatoria.x1x2μf1f2μμ

Aquí hay otro giro sutil: la probabilidad se considera una función de . Tenemos los datos, solo estamos tratando de averiguar qué es probable que sea . Por lo tanto, lo que debemos trazar es la función de probabilidadμμ

Λ(μ)=f1(x1;μ)f2(x2;μ).

¡Es una coincidencia singular que esto también sea gaussiano! La demostración es reveladora. Hagamos los cálculos en una sola dimensión (en lugar de dos o más) para ver el patrón: todo se generaliza a más dimensiones. El logaritmo de un gaussiano tiene la forma

logfi(xi;μ)=AiBi(xiμ)2

para las constantes y . Por lo tanto, la probabilidad de registro esAiBi

logΛ(μ)=A1B1(x1μ)2+A2B2(x2μ)2=C(B1+B2)(μB1x1+B2x2B1+B2)2

donde no depende de . Este es el registro de un gaussiano donde el papel de ha sido reemplazado por esa media ponderada que se muestra en la fracción.Cμxi

Volvamos al hilo principal. La estimación de ML de es ese valor que maximiza la probabilidad. De manera equivalente, maximiza este gaussiano que acabamos de derivar del producto de los gaussianos. Por definición, el máximo es un modo . Es una coincidencia, resultante de la simetría de puntos de cada gaussiano alrededor de su centro, que el modo coincide con la media.μ


Este análisis ha revelado que varias coincidencias en la situación particular han oscurecido los conceptos subyacentes:

  • una distribución multivariada (conjunta) se confundió fácilmente con una distribución univariada (que no lo es);

  • la probabilidad parecía una distribución de probabilidad (que no lo es);

  • el producto de los gaussianos resulta ser gaussiano (una regularidad que generalmente no es cierta cuando los sensores varían en formas no gaussianas);

  • y su modo coincide con su media (que está garantizada solo para sensores con respuestas simétricas alrededor de los valores verdaderos).

Solo al centrarnos en estos conceptos y eliminar los comportamientos casuales podemos ver lo que realmente está sucediendo.

whuber
fuente
1
Muchas gracias por esta maravillosa respuesta. Parece que la pregunta no es tan simple como parece. Realmente me preguntaba por qué era tan difícil para mí entender el concepto de independencia que creía conocer bien. Me tomaré el tiempo para asegurarme de que cada punto esté claro.
entendido el
2
Recompensa virtual +150. Cuando escribe "el producto de dos densidades nunca es una densidad", ¿qué pasa con la densidad uniforme en o la densidad acumulada en 0? ¿No sería (incluso) mejor decir " genéricamente no es una densidad"? [0,1]
entendido el
1
Tienes razón. Tenía en mente una desigualdad que puede convertirse en una igualdad cuando todos los valores de la densidad son cero, uno o infinito. Todos sus contraejemplos son de ese tipo.
whuber
6

Ya veo una excelente respuesta, pero estoy publicando la mía ya que comencé a escribirla.

El médico 1 tiene este modelo de predicción:d1N(μ1,σ1)

El médico 2 tiene este modelo de predicción:d2N(μ2,σ2)

Entonces, para que podamos evaluar la probabilidad conjunta solo tenemos que darnos cuenta de que esto se factoriza en ya que debido a la independencia de los dos médicos.P(d1,d2)=P(d1|d2)P(d2)P(d1)P(d2)P(d1|d2)=P(d1)

Dr. Mike
fuente
2
Virtual +1 para los detalles ordenados. Es una pena que el sistema no me permita darle el +1 real.
Suerte
¿Cómo definirías como un evento? Por ejemplo, "el dado da un 3" es un evento, por lo que es "ganar más de 100". Aquí no puedo formularlo de esa manera, porque no tiene una dfp, es una dfp. Por ejemplo, puedo calcular la probabilidad de que tenga días de vida según el médico 1, pero ¿cuál es la probabilidad de ? d1d1xd1
entendido el
Tal vez estoy confundido porque entiendo como un evento, mientras que es una variable aleatoria. Entonces, es la variable aleatoria que describe el número de días restantes según el médico 1. Pero, ¿cuál es el significado de la probabilidad conjunta de y es un número real en ? ¿Qué si toma el valor "3 días" y toma el valor "4 días"? Espero que mis preguntas te ayuden a comprender lo que me falta. d1d1P(d1,d2)[0,1]d1d2
entendido el
2
Como los gaussianos son densidades de probabilidad , no probabilidades, esta explicación es incompleta.
whuber