Probabilidad - ¿Por qué multiplicar?

22

Estoy estudiando sobre la estimación de máxima verosimilitud y leí que la función de verosimilitud es el producto de las probabilidades de cada variable. ¿Por qué es el producto? ¿Por qué no la suma? He estado intentando buscar en Google pero no puedo encontrar ninguna respuesta significativa.

https://en.wikipedia.org/wiki/Maximum_likelihood

RuiQi
fuente
77
Tenga en cuenta que este no es necesariamente el caso, y en general la probabilidad máxima se define en términos de la densidad conjunta de las variables aleatorias. Por supuesto, si son independientes, su densidad articular es solo el producto de los marginales
Ant
Recuerde que multiplicar es solo una abreviatura para sumar. Cuando digo 2 veces 3, digo 2 + 2 + 2. Nos multiplicamos porque somos flojos. ¿Quién tiene tiempo para hacerlo de la manera difícil? Puedes agregar si te ayuda a ver lo que está sucediendo (me ayudó a entender el problema de Monty Hall) pero después de un tiempo te aburrirás.
candied_orange
digamos que tiene un 80% de probabilidad de tener cabello castaño y un 75% de probabilidad de tener ojos marrones. ¿Crees que es posible que la probabilidad de ser de cabello y ojos marrones sea 80% + 75% = 155%? ¿qué tal 80% * 75% = 60%?
njzk2

Respuestas:

39

Esta es una pregunta muy básica, y en lugar de usar lenguaje formal y notación matemática, trataré de responderla a un nivel en el que todos los que puedan entender la pregunta también puedan entender la respuesta.

Imagina que tenemos una raza de gatos. Tienen un 75% de probabilidad de nacer blanco y un 25% de probabilidad de nacer gris, sin otros colores. Además, tienen un 50% de probabilidad de tener ojos verdes y un 50% de probabilidad de tener ojos azules, y el color del pelaje y el color de los ojos son independientes.

Ahora echemos un vistazo a una camada de ocho gatitos:

ingrese la descripción de la imagen aquí

Verá que 1 de cada 4, o el 25%, son grises. Además, 1 de cada 2, o el 50% tiene ojos azules. Ahora la pregunta es:

¿Cuántos gatitos tienen pelaje gris y ojos azules?

Puedes contarlos, la respuesta es una. Es decir, , o 12.5% ​​de 8 gatitos.14 4×12=18

¿Por que sucede? Porque cualquier gato tiene una probabilidad de 1 en 4 de ser gris. Entonces, elige cuatro gatos, y puedes esperar que uno de ellos sea gris. Pero si solo elige cuatro gatos de entre muchos (y obtiene el valor esperado de 1 gato gris), el que es gris tiene una probabilidad de 1 en 2 de tener ojos azules. Esto significa que, del total de gatos que eliges, primero multiplicas el total por un 25% para obtener los gatos grises, y luego multiplicas el 25% seleccionado de todos los gatos por un 50% para obtener los que tienen ojos azules. Esto te da la probabilidad de tener gatos grises de ojos azules.

Resumirlos te daría , que hace314 4+12 o 6 de 8. En nuestra imagen, corresponde a resumir los gatos que tienen ojos azules con los gatos que tienen pelaje gris, ¡y contar dos veces el gatito gris de ojos azules! Tal cálculo puede tener su lugar, pero es bastante inusual en los cálculos de probabilidad, y ciertamente no es el que está preguntando.34 4

rumtscho
fuente
1
Soy consciente de que las otras respuestas aquí significan lo mismo. Aún así, creo que aquí se necesita una representación visual: si el OP pudo visualizar el concepto él mismo, probablemente ya habría llegado a la respuesta.
rumtscho
Esta es realmente una respuesta excelente, ya que muestra cada variable independiente como un eje independiente en la matriz cat. Esto hace que sea muy fácil de entender. ¡Usaré este ejemplo para enseñar a mis hijos!
dotancohen
3
Esta respuesta es realmente defectuosa, porque aún combina el valor observado y el valor esperado. Al ver cuán popular es, trataré de encontrar el tiempo para actualizarlo con una explicación de por qué esta forma de subgrupos de gatos nos da un estimador de máxima probabilidad (o, resolviendo el problema de elegir 8 gatos al azar y descubrir que no son los que pinté en la imagen).
rumtscho
¿Por qué no puede ser esta la población completa de tales gatos? (Digamos que tienen alguna propiedad de investigación especial: sus lenguas son quimioluminiscentes, por ejemplo). Entonces la fusión no es perjudicial.
Eric Towers
16

UNAsiSUNAsiPAGS(UNAsi)=PAGS(UNAsi)=PAGS(UNA)PAGS(si)UNA1,UNA2,...UNAnortePAGS(UNAyoyoyo)=yoyoPAGS(UNAyo)yo[1,2,...,norte]

X1,X2,...,XnortenorteF(X1,X2,...,XnorteEl |θ)=yo=1yo=norteF(XyoEl |θ)

Bahgat Nassour
fuente
6

PAGS(UNAsi)PAGS(UNA)PAGS(si)

Por lo tanto, si supone que todas sus observaciones son independientes, entonces la probabilidad de observar todos los valores que vio es igual al producto de las probabilidades individuales.

Acantilado
fuente
8
PAGS(UNAsi)
Hola, gracias por la respuesta ! ¿Por qué maximizo la probabilidad (función de densidad articular)? ¿Por qué no puedo maximizar la suma de las probabilidades de toda observación (o cualquier otra función)? Me gustaría encontrar la razón por la cual se elige la función de densidad conjunta. Wikipedia comienza utilizando la función de densidad conjunta. Pero, ¿hay alguna razón por la que usamos la función de densidad articular? Esto es lo que he estado tratando de entender.
RuiQi
@haziqRazali, la idea de MLE es elegir las estimaciones para hacer la muestra que probablemente haya dado la distribución. De ahí el nombre de máxima probabilidad
Repmat
1
@HaziqRazali Una pregunta como "por qué maximizar la probabilidad" es una pregunta nueva (una que se ha hecho y respondido en otro lugar del sitio)
Glen_b -Reinstate Monica
3

¿Por qué no agregar?

Porque eso claramente no tiene sentido. Supongamos que tiene un cuarto y una moneda de cinco centavos, y desea voltearlos a ambos. Hay un 50% de posibilidades de que el trimestre salga cara, y un 50% de posibilidades de que el níquel salga cara. Si la probabilidad de que ambos salieran cara fuera la suma, eso daría un 100% de posibilidades, lo que obviamente es incorrecto, ya que no deja ninguna posibilidad para HT, TH y TT.

¿Por qué multiplicar?

Porque tiene sentido. Cuando multiplicas el 50% de probabilidad de que el cuarto salga cara por el 50% de probabilidad de que el níquel salga cara, obtienes 0.5 x 0.5 = 0.25 = 25% de probabilidad de que ambas monedas sean caras. Dado que hay cuatro combinaciones posibles (HH, HT, TH, HT) y cada una es igualmente probable, esto encaja perfectamente. Al evaluar la probabilidad de que ocurran dos eventos independientes, multiplicamos sus probabilidades individuales.

Monty Harder
fuente
2

Estoy leyendo estas publicaciones porque, al igual que el póster original, mi necesidad es entender por qué la ' Probabilidad ' fn es el ' Producto ' de la densidad de cada valor de muestra: ' x '. Una razón legible y lógica se da bajo el título Principio de máxima verosimilitud Ref: [ http://www-structmed.cimr.cam.ac.uk/Course/Likelihood/likelihood.html] Una cita adicional Matemáticamente, la probabilidad está definida como la probabilidad de hacer el conjunto de mediciones (misma referencia). En resumen, la probabilidad de que haya llegado a la muestra que tiene a mano.

Genio
fuente
0

El objetivo del método de máxima verosimilitud es encontrar un estimador que maximice la probabilidad de observar ciertos valores de la variable (variable endógena). Esa es la razón por la cual debemos multiplicar las probabilidades de ocurrencia.

Por ejemplo: imagine que el número de llamadas telefónicas que una secretaria puede responder en una hora sigue una distribución de Poisson. Luego, extrae 2 valores de la muestra (5 llamadas telefónicas y 8 llamadas telefónicas por hora) Ahora debe responder esta pregunta. ¿Cuál es el valor del parámetro que maximiza la probabilidad de observar 5 y 8 llamadas telefónicas, simultáneamente? Después, intente responder con la probabilidad de observar todos los valores del sam

Debido a las variables aleatorias independientes,

f (y1 = 5 llamadas telefónicas) * f (y2 = 8 llamadas telefónicas) = ​​∏if (y, θ) = L (θ, y1, y2)

Finalmente, intente responder, la probabilidad de observar todos los valores de la muestra.

Enzo Cabañas
fuente