La entrada de Wikipedia sobre la probabilidad parece ambigua

26

Tengo una pregunta simple sobre "probabilidad condicional" y "Probabilidad". (Ya he encuestado esta pregunta aquí, pero fue en vano).

Comienza desde la página de Wikipedia sobre la probabilidad . Dicen esto:

La probabilidad de un conjunto de valores de parámetros, θ , dados los resultados x , es igual a la probabilidad de esos resultados observados dados esos valores de parámetros, es decir

L(θx)=P(xθ)

¡Excelente! Entonces, en inglés, leí esto como: "La probabilidad de que los parámetros sean iguales a theta, dados los datos X = x, (el lado izquierdo), es igual a la probabilidad de que los datos X sean iguales a x, dado que los parámetros son iguales a theta ". ( Negrita es mía para el énfasis ).

Sin embargo, no menos de 3 líneas más tarde en la misma página, la entrada de Wikipedia continúa diciendo:

Sea X una variable aleatoria con una distribución de probabilidad discreta p depende de un parámetro θ . Entonces la función

L(θx)=pθ(x)=Pθ(X=x),

considerada como una función de θ , se llama función de probabilidad (de θ , dado el resultado x de la variable aleatoria X ). Algunas veces la probabilidad del valor x de X para el valor del parámetro θ se escribe como P(X=xθ) ; a menudo escrito como P(X=x;θ) para enfatizar que esto difiere de L(θx)que no es una probabilidad condicional , porque θ es un parámetro y no una variable aleatoria.

( Negrita es mía para enfatizar ). Entonces, en la primera cita, literalmente se nos informa acerca de una probabilidad condicional de P(xθ) , pero inmediatamente después, se nos dice que esto NO es en realidad una probabilidad condicional, y de hecho debería escribirse como P(X=x;θ) ?

Entonces, ¿cuál es? ¿La probabilidad realmente connota una probabilidad condicional en la primera cita? ¿O connota una probabilidad simple a la segunda cita?

EDITAR:

En base a todas las respuestas útiles y perspicaces que he recibido hasta ahora, he resumido mi pregunta, y mi comprensión hasta ahora:

  • En inglés , decimos que: "La probabilidad es una función de parámetros, DAN los datos observados". En matemáticas , lo escribimos como: L(Θ=θX=x) .
  • La probabilidad no es una probabilidad.
  • La probabilidad no es una distribución de probabilidad.
  • La probabilidad no es una masa de probabilidad.
  • Sin embargo, la probabilidad es en inglés : "Un producto de distribuciones de probabilidad (caso continuo) o un producto de masas de probabilidad (caso discreto), donde X=x , y parametrizado por Θ=θ ". En matemáticas , luego lo escribimos como tal: (caso continuo, donde f es un PDF), y como L ( Θ =θ X = x ) = P (L(Θ=θX=x)=f(X=x;Θ=θ)f
    (caso discreto, donde P es una masa de probabilidad). La conclusión aquí es queen ningún momento aquíhay una probabilidad condicional que entre en juego.L(Θ=θX=x)=P(X=x;Θ=θ)P
  • En el teorema de Bayes, tenemos: . Coloquialmente, se nos dice que "P(X=xΘ=θ)es una probabilidad", sin embargo,esto no es cierto, ya queΘpodría ser una variable aleatoria real. Sin embargo, lo que podemos decir correctamente es que este términoP(X=xΘ=θ)es simplemente "similar" a una probabilidad. (?) [Sobre esto no estoy seguro.]P(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

EDITAR II:

Basado en la respuesta de @amoebas, he dibujado su último comentario. Creo que es bastante esclarecedor, y creo que aclara la disputa principal que estaba teniendo. (Comentarios sobre la imagen).

ingrese la descripción de la imagen aquí

EDITAR III:

También extendí los comentarios de @amoebas al caso bayesiano en este momento:

ingrese la descripción de la imagen aquí

Creatron
fuente
Ya tiene dos buenas respuestas, pero consulte también stats.stackexchange.com/q/112451/35989
Tim
@Tim Excelente enlace gracias! Desafortunadamente, todavía no estoy claro en cuanto a las preguntas específicas que tengo con respecto a la probabilidad y la probabilidad condicional (?) De que parece conjurar. Sobre esto, todavía no estoy claro. : - /
Creatron
2
"Dado que" no siempre significa probabilidad condicional. Algunas veces esta frase es simplemente un intento de indicar qué símbolos están destinados a ser fijados en un cálculo o conceptualmente.
whuber
2
Algunas personas sí usan una convención tipográfica con punto y coma. Hay muchas, muchas convenciones: subíndices, superíndices, etc. A menudo tiene que descubrir qué quiere decir alguien a partir del contexto o sus descripciones de texto de lo que está haciendo.
whuber
44
Cuando es una variante aleatoria (es decir, un valor que se considera que surge de la variable aleatoria Θ ), nada en la definición de probabilidad cambia. Todavía es una probabilidad. Lógicamente, esto no es diferente a decir que una mariposa azul sigue siendo una mariposa. Técnicamente, plantea problemas sobre la distribución conjunta de Θ y x . Evidentemente, esta distribución conjunta debe estar bien definida y disfrutar de ciertas "condiciones de regularidad" antes de que pueda identificar la probabilidad con una probabilidad condicional. θΘΘx
whuber

Respuestas:

18

Creo que esto es en gran medida innecesario dividir los pelos.

Probabilidad condicional de x dado y se define para dos variables aleatorias X e Y tomando valores x e y . Pero también podemos hablar sobre la probabilidad P ( x θ ) de x dado θ dondeP(xy)P(X=xY=y)xyXYxyP(xθ)xθ no es una variable aleatoria sino un parámetro.θ

Tenga en cuenta que en ambos casos se puede usar el mismo término "dado" y la misma notación . No hay necesidad de inventar anotaciones diferentes. Además, lo que se llama "parámetro" y lo que se llama "variable aleatoria" puede depender de su filosofía, pero las matemáticas no cambian.P()

La primera cita de Wikipedia establece que por definición. Aquí se supone que θ es un parámetro. La segunda cita dice que L ( θ x ) no es una probabilidad condicional. Esto significa que no es una probabilidad condicional de θ dado x ; y de hecho no puede ser, porque aquí se supone que θ es un parámetro.L(θx)=P(xθ)θL(θx)θxθ

En el contexto del teorema de Bayes tantoacomobson variables aleatorias. Pero aún podemos llamar aP(ba)"probabilidad" (dea), y ahora también es unaprobabilidad condicional debuena fe(deb). Esta terminología es estándar en las estadísticas bayesianas. Nadie dice que sea algo "similar" a la probabilidad; la gente simplemente lo llama la probabilidad.

P(ab)=P(ba)P(a)P(b),
abP(ba)ab

Nota 1: En el último párrafo, es obviamente una probabilidad condicional de b . Como probabilidad L ( a b ) se ve como una función de a ; pero no es una distribución de probabilidad (o probabilidad condicional) de a ! Su integral sobre a no necesariamente es igual a 1 . (Considerando que es integral sobre bP(ba)bL(ab)aaa1b hace).

Nota 2: a veces, la probabilidad se define hasta una constante de proporcionalidad arbitraria, como lo enfatiza @MichaelLew (porque la mayoría de las veces las personas están interesadas en la probabilidad razones de ). Esto puede ser útil, pero no siempre se hace y no es esencial.


Ver también ¿Cuál es la diferencia entre "probabilidad" y "probabilidad"? y en particular la respuesta de @ whuber allí.

Estoy totalmente de acuerdo con la respuesta de @ Tim en este hilo también (+1).

ameba dice Reinstate Monica
fuente
1
Por lo que una probabilidad, puede , de hecho, ser igual a, una probabilidad condicional (según el último párrafo), correctos? Esto es lo que estoy tratando de resolver. Por ejemplo, en una de las primeras respuestas, tenemos: " Primero, la probabilidad no puede ser generalmente igual a la probabilidad de los datos dados el valor del parámetro, ya que la probabilidad solo se define hasta una constante de proporcionalidad . Fisher fue explícito sobre eso cuando él primera probabilidad formalizada (Fisher, 1922). "Esto es lo que estoy tratando de resolver. ¿Es la probabilidad - puede la probabilidad - ser alguna vez igual a una probabilidad condicional?
Creatron
@Creatron Agregué dos notas a mi respuesta. ¿Lo aclaran?
ameba dice Reinstate Monica
1
Con respecto a la Nota 1: Dado que es una distribución de probabilidad condicional, y dado que L ( a | b ) no puede ser una distribución de probabilidad, me parece que de la manera más 'correcta' podemos escribir la ecuación para la probabilidad en este contexto es: L ( a | b ) P ( b | a ) , y no como, L ( a | b ) = P ( b | a )P(b|a) L(a|b) L(a|b)P(b|a)L(a|b)=P(b|a). (Sé que en la optimización esto no hace la diferencia, pero estoy tratando de precisar cuál es la probabilidad aquí). ¿Es correcto mi entendimiento? Gracias por su paciencia.
Creatron
1
abP(b|a)ba. But L(a|b) is supposed to be seen as a function of a, not of b! And it is not the probability distribution of aL(a|b)=P(b|a).
amoeba says Reinstate Monica
1
Amoeba, thank you!! You have been instrumental in un-knotting those concepts for me, thank you so much!! :) I just "extended" the diagram to the Bayesian case, and would appreciate your feedback to make sure I have understood that correctly as well. I have also accepted your answer. Once again, massively gracious!
Creatron
10

Ya tienes dos buenas respuestas, pero como aún no está claro, déjame darte una. La probabilidad se define como

L(θ|X)=P(X|θ)=ifθ(xi)

so we have likelihood of some parameter value θ given the data X. It is equal to product of probability mass (discrete case), or density (continuous case) functions f of X parametrized by θ. Likelihood is a function of parameter given the data. Notice that θ is a parameter that we are optimizing, not a random variable, so it does not have any probabilities assigned to it. This is why Wikipedia states that using conditional probability notation may be ambiguous, since we are not conditioning on any random variable. On another hand, in Bayesian setting θ is a random variable and does have distribution, so we can work with it as with any other random variable and we can use Bayes theorem to calculate the posterior probabilities. Bayesian likelihood is still likelihood since it tells us about likelihood of data given the parameter, the only difference is that the parameter is considered as random variable.

If you know programming, you can think of likelihood function as of overloaded function in programming. Some programming languages allow you to have function that works differently when called using different parameter types. If you think of likelihood like this, then by default if takes as argument some parameter value and returns likelihood of data given this parameter. On another hand, you can use such function in Bayesian setting, where parameter is random variable, this leads to basically the same output, but that can be understood as conditional probability since we are conditioning on random variable. In both cases the function works the same, just you use it and understand it a little bit differently.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

Moreover, you rather won't find Bayesians who write Bayes theorem as

P(θ|X)L(θ|X)P(θ)

...this would be very confusing. First, you would have θ|X on both sides of equation and it wouldn't have much sense. Second, we have posterior probability to know about probability of θ given data (i.e. the thing that you would like to know in likelihoodist framework, but you don't when θ is not a random variable). Third, since θ is a random variable, we have and write it as conditional probability. The L-notation is generally reserved for likelihoodist setting. The name likelihood is used by convention in both approaches to denote similar thing: how probability of observing such data changes given your model and the parameter.

Tim
fuente
Thank you Tim, this has been very helpful in my understanding. I have re-consolidated my question (see under "Edit") with this new knowledge. I believe everything I have now written there is true. The only holdout is the last point in the list on Bayes rule. If you could take a look I would appreciate that a lot. Thanks again, and have an upvote!
Creatron
1
@Creatron I added a sentence commenting your last bullet to my answer, hope it is now clear -- if not please say so.
Tim
(1/2) Your edits on the overloaded operator helps me a lot. In this case, it seems to me that we can say this: 1) Under the 'mathematically pure' (historical case in the sense of what Fisher probably meant), case, where θ is not a random variable, and instead is a parameter of a PDF, (or a function of a parameter?), then the likelihood is equal to the probability of P(X=x;θ). The likelihood function is NOT a probability distribution, sure, but it is EQUAL TO the probability of P(X=x;θ). Is this correct?
Creatron
(2/2) In the second case however, (2), when the context is a Bayesian setting, then in this case our parameters are a r.v, and so in this case the likelihood IS in fact, a conditional probability distribution, of P(b|a), written however, as L(a|b). So in the first 'default' case, the likelihood was definitely NOT a probability distribution, (but was equal to a probability value), however in the second case, the likelihood IS in fact a probability distribution, and that probability distribution is a conditional probability, written as P(b|a). Is this correct?
Creatron
2
Thank you Tim, even though I accepted @amoeba 's answer, your post truly helped me understand this varied and deep concept, esp your analogy to overloaded functions. Thank you again!
Creatron
7

There are several aspects of the common descriptions of likelihood that are imprecise or omit detail in a way that engenders confusion. The Wikipedia entry is a good example.

First, likelihood cannot be generally equal to a the probability of the data given the parameter value, as likelihood is only defined up to a proportionality constant. Fisher was explicit about that when he first formalised likelihood (Fisher, 1922). The reason for that seems to be the fact that there is no restraint on the integral (or sum) of a likelihood function, and the probability of observing data x within a statistical model given any value of the parameter(s) is strongly affected by the precision of the data values and of the granularity of specification of the parameter values.

Second, it is more helpful to think about the likelihood function than individual likelihoods. The likelihood function is a function of the model parameter value(s), as is obvious from a graph of a likelihood function. Such a graph also makes it easy to see that the likelihoods allow a ranking of the various values of the parameter(s) according to how well the model predicts the data when set to those parameter values. Exploration of likelihood functions makes the roles of the data and the parameter values much more clear, in my opinion, than can cogitation of the various formulas given in the original question.

The use a ratio of pairs of likelihoods within a likelihood function as the relative degree of support offered by the observed data for the parameter values (within the model) gets around the problem of unknown proportionality constants because those constants cancel in the ratio. It is important to note that the constants would not necessarily cancel in a ratio of likelihoods that come from separate likelihood functions (i.e. from different statistical models).

Finally, it is useful to be explicit about the role of the statistical model because likelihoods are determined by the statistical model as well as the data. If you choose a different model you get a different likelihood function, and you can get a different unknown proportionality constant.

Thus, to answer the original question, likelihoods are not a probability of any sort. They do not obey Kolmogorov's axioms of probability, and they play a different role in statistical support of inference from the roles played by the various types of probability.

  1. Fisher (1922) On the mathematical foundations of statistics http://rsta.royalsocietypublishing.org/content/222/594-604/309
Michael Lew
fuente
1
The first line in your post summarizes my frustration with this topic. At any rate, some questions based on your post, sir: 1) The bayesian formula is often written as P(a|b)=P(b|a)P(a)P(b), where (we are told) that P(b|a) is a 'likelihood', and that P(a) is a 'prior'. If likelihood is not a probability, then is this statement false? 2) My motivation for the question is in the context of deriving a maximum likelihood estimator, which inevitably links a likelihood to a (seemingly) concrete (conditional) probability. Given those two examples, how then to reconcile those? Thanks.
Creatron
@Creatron 1. No, the statement is not necessarily wrong. The likelihood function is how the evidence enters the calculation, and combining it with a probability distribution yields a probability distribution. In that context the unknown proportionality constant is not a problem because after the product of the likelihood function and prior probability distribution is arbitrarily scaled so that it has the correct unity integral (or sum).
Michael Lew
2. In the context of finding a maximum likelihood estimate it makes no difference whether you use a conditional probability or a likelihood, as they will be proportional over the entire range of parameter values.
Michael Lew
1
Can we then say that while L(θ|x)=P(x|θ) is technically wrong, L(θ|x)P(x|θ) is technically and formally correct? Is that all there is to it?
Creatron
Thank you Micheal Lew, your post has really helped in my understanding of this problem, much appreciated.
Creatron
7

Wikipedia should have said that L(θ) is not a conditional probability of θ being in some specified set, nor a probability density of θ. Indeed, if there are infinitely many values of θ in the parameter space, you can have

θL(θ)=,
for example by having L(θ)=1 regardless of the value of θ, and if there is some standard measure dθ on the parameter space Θ, then in the same way one can have
ΘL(θ)dθ=.
An essential point that the article should emphasize is that L is the function
θP(xθ) and NOT xP(xθ).
Michael Hardy
fuente
2
+1 and thanks for the edit of my answer; I forgot that \mid exists.
amoeba says Reinstate Monica
@amoeba : Glad to help.
Michael Hardy
3

"I read this as: "The likelihood of parameters equaling theta, given data X = x, (the left-hand-side), is equal to the probability of the data X being equal to x, given that the parameters are equal to theta". (Bold is mine for emphasis)."

It's the probability of the set of observations given the parameter is theta. This is perhaps confusing because they write P(x|θ) but then L(θ|x).

The explanation (somewhat objectively) implies that θ is not a random variable. It could, for example, be a random variable with some prior distribution in a Bayesian setting. The point however, is that we suppose θ=θ, a concrete value and then make statements about the likelihood of our observations. This is because there is only one true value of θ in whatever system we're interested in.

Alex R.
fuente
Ok, so I then conclude based on this that i) The first image on the wikipedia is wrong, because (to my knowledge at least), P(a|b) is always read as a conditional probability, and what they SEEM to want to say, is that it's not - or ever - "probability of the data GIVEN this theta", it's rather, "probability of the data, PARAMETERIZED by this theta". Is this correct? Thanks. (To summarize, it seems that L(θ|x)=P(X=x;θ).
Creatron
This however is problematic, because in a Bayesian formulation, P(a|b)=P(b|a) P(a)P(b), the P(b|a) we are told is in fact the likelihood, (and is in fact a conditional probability). However this contradicts what we just said, and also contradicts what the wiki says in image 2.
Creatron
L(θ|x):=P(x|θ). The θ is to the left of x in L to emphasize that we think of L as a function of θ, the parameter we wish to optimize. So there's no contradiction.
Alex R.
Is the right-hand-side of L(θ|x) := P(x|θ) a conditional probability?
Creatron
This makes more sense to me now. Thanks for your initial help, @Alex.
Creatron