Significado de las notaciones de probabilidad y

27

¿Cuál es la diferencia de significado entre la notación y que se usan comúnmente en muchos libros y documentos?PP(z;d,w)P(z|d,w)

Aprendiz
fuente
13
f (x; θ) es lo mismo que f (x | θ), simplemente significa que θ es un parámetro fijo y la función f es una función de x. f (x, Θ), OTOH, es un elemento de una familia (conjunto) de funciones, donde los elementos están indexados por Θ. Una distinción sutil, tal vez, pero importante, especialmente. cuando llega el momento de estimar un parámetro desconocido θ sobre la base de datos conocidos x; en ese momento, θ varía yx es fijo, lo que resulta en la "función de probabilidad". Uso de "|" es más común entre los estadísticos ";" entre matemáticos
jbowman
Sí jbowman es correcto. A veces lo llamamos la densidad de X dado Θ.
Michael R. Chernick
@jbowman, ¿por qué no publicar eso como respuesta? Mi única pregunta es: ¿por qué usarían ambos, pero supongo que tiene algo que ver con el contexto (el "|" se usa con "P" y el ";" con " "). f
Abe
Buen pensamiento, Abe; eso es probablemente es más genérico, supongo. f
jbowman

Respuestas:

12

Creo que el origen de esto es el paradigma de probabilidad (aunque no he verificado la corrección histórica real de lo siguiente, es una forma razonable de entender cómo surgió).

Digamos que en una configuración de regresión, tendrías una distribución: p (Y | x, beta) Lo que significa: la distribución de Y si conoces (condicionalmente) los valores de x y beta.

Si desea estimar las betas, desea maximizar la probabilidad: L (beta; y, x) = p (Y | x, beta) Esencialmente, ahora está viendo la expresión p (Y | x, beta) como una función de los beta, pero aparte de eso, no hay diferencia (para las expresiones matemáticas correctas que puede derivar correctamente, esto es una necesidad, aunque en la práctica nadie se molesta).

Luego, en la configuración bayesiana, la diferencia entre los parámetros y otras variables pronto se desvanece, por lo que uno comenzó a usar ambas anotaciones entremezcladas.

Entonces, en esencia: no existe una diferencia real: ambos indican la distribución condicional de la cosa a la izquierda, condicional a la (s) cosa (s) a la derecha.

Nick Sabbe
fuente
23

X x θ f ( x , θ ) X Θ ( x , θ ) Θ f ( x | θ ) X Θ Θf(x;θ) es la densidad de la variable aleatoria en el punto , siendo el parámetro de la distribución. es la densidad conjunta de y en el punto y solo tiene sentido si es una variable aleatoria. es la distribución condicional de dada , y nuevamente, solo tiene sentido si es una variable aleatoria. Esto se volverá mucho más claro cuando profundice en el libro y observe el análisis bayesiano.Xxθf(x,θ)XΘ(x,θ)Θf(x|θ)XΘΘ

PeterR
fuente
Uhhhh ... es la distribución condicional de dada tiene mucho sentido incluso si no es una variable aleatoria. Es una notación más o menos estándar en las estadísticas clásicas, donde no es una variable aleatoria. x θ θ θf(x|θ)xθθθ
jbowman
Uhhhh ... si interpretas que significa que P [Θ = θ] = 1 (izquierda Θ es una variable aleatoria, derecha θ es una constante), entonces estoy de acuerdo. De lo contrario, no ... ¿para qué significaría P [Θ = θ] en el denominador de la definición de distribución condicional?
PeterR
¿Denominador? Puedo escribir donde f es una distribución Normal sin referencia a la Regla de Bayes. μ y son fijos. Otros también lo hacen, por ejemplo, ll.mit.edu/mission/communications/ist/publications/… . xf(x|μ,σ)fμσ
jbowman
jbowman, entonces, ¿cuál es la definición de su f (x | μ, σ) como densidad condicional cuando μ y σ son números fijos (es decir, no variables aleatorias)?
PeterR
1
La palabra "condicional", asociada con la notación f (X | Y), se define como "condicional a la ocurrencia de algún evento aleatorio". Si lo está utilizando para significar algo más, como "dado", como en "f (x) dado (valores específicos de) μ y σ", bueno, eso es lo que significa la notación f (x; μ, σ) es para. Como el OP estaba preguntando qué significa la notación, debemos ser precisos sobre la notación en la respuesta.
PeterR
18

f(x;θ) es lo mismo quef(x|θ) , simplemente significa queθ es un parámetro fijo y la funciónf es una función dex . f(x,Θ) , OTOH, es un elemento de una familia (o conjunto) de funciones, donde los elementos están indexados porΘ . Una distinción sutil, tal vez, pero importante, especialmente. cuando llega el momento de estimar un parámetro desconocidoθ sobre la base de datos conocidosx ; en ese momento,θ varíaxes fijo, lo que resulta en la "función de probabilidad". El uso de es más común entre los estadísticos, mientras que ;entre matemáticos

jbowman
fuente
1
¿Cómo se habla verbalmente verbal)? ¿Dices "f de x dado θ"? f(x;θ)
stackoverflowuser2010
@ stackoverflowuser2010: sí, exactamente así.
jbowman
2
En algunos videos de Coursera descubrí que el profesor de Stanford, Andrew Ng, verbaliza el punto y coma como "parametrizado por". Ver: class.coursera.org/ml-005/lecture/34 . Entonces el ejemplo se hablaría como "f de x parametrizado por theta".
stackoverflowuser2010
55
Decir "dado" o "condicional" es muy diferente (en general) de "parametrizado". Odiaría si alguien viera esto y pensara que los dos son equivalentes. Decir "parametrizado" solo es apropiado cuando la cantidad a condicionar es un parámetro que indexa el pdf de la variable en el primer término. Para dos variables (p. Ej., F (x; y)), usar ese término sería incorrecto.
ATJ
2
@MikeWilliamson: ¡claro, elige una notación donde sepas lo que significa todo y quédate con ella! De esa manera, cuando vuelves a algo que hiciste antes, como 4 horas antes en mi experiencia, no tienes que entender a qué te referías cuando usaste ese "|". Estoy de acuerdo, es molesto, pero después de un tiempo solo observa el primer uso de la notación y la recuerda para el resto del documento / libro; las distinciones no suelen ser lo importante, de todos modos.
jbowman
9

Aunque no siempre ha sido así, en estos días generalmente se usa cuando no son variables aleatorias (lo que no quiere decir que sean conocidas, necesariamente). indica condicionamiento en los valores de . El condicionamiento es una operación en variables aleatorias y, como tal, usar esta notación cuando no son variables aleatorias es confuso (y trágicamente común).d , w P ( z | d , w ) d , w d , wP(z;d,w)d,wP(z|d,w)d,wd,w

Como @Nick Sabbe señala es una notación común para la distribución de muestreo de los datos observados . Algunos frecuentistas usarán esta notación pero insisten en que no es una variable aleatoria, lo cual es un abuso de la OMI. Pero no tienen el monopolio allí; También he visto a bayesianos hacerlo, añadiendo hiperparámetros fijos al final de los condicionales.y Θp(y|X,Θ)yΘ

JMS
fuente
2
Con respecto a su segundo párrafo, vale la pena señalar que en situaciones estadísticas típicas (por ejemplo, ajustando un modelo de regresión), tampoco se considera una variable aleatoria, sino un conjunto de constantes conocidas. X
gung - Restablece a Monica