¿Cómo definir rigurosamente la probabilidad?

30

La probabilidad podría definirse de varias maneras, por ejemplo:

  • la función L de Θ×X que mapea (θ,x) a L(θx) es decir, L:Θ×XR .

  • la función aleatoria L(X)

  • también podríamos considerar que la probabilidad es solo la probabilidad "observada" L(xobs)

  • en la práctica, la probabilidad trae información sobre θ solo hasta una constante multiplicativa, por lo tanto, podríamos considerar la probabilidad como una clase de funciones de equivalencia en lugar de una función

Otra pregunta ocurre cuando se considera el cambio de parametrización: si ϕ=θ2 es la nueva parametrización que comúnmente denotamos por L(ϕx) la probabilidad en ϕ y esta no es la evaluación de la función previa L(x) en θ2 pero a ϕ . Esta es una notación abusiva pero útil que podría causar dificultades a los principiantes si no se enfatiza.

¿Cuál es su definición rigurosa favorita de la probabilidad?

Además, ¿cómo se llama L(θx) ? Normalmente digo algo así como "la probabilidad de θ cuando se observa x ".

EDITAR: en vista de algunos comentarios a continuación, me doy cuenta de que debería haber precisado el contexto. Considero un modelo estadístico dado por una familia paramétrica {f(θ),θΘ} de densidades con respecto a alguna medida dominante, con cada f(θ) definida en el espacio de observaciones X . Por lo tanto, definimos L(θx)=f(xθ) y la pregunta es "¿qué es L ? "(la pregunta no se trata de una definición general de la probabilidad)

Stéphane Laurent
fuente
2
(1) Debido a que para todo θ , creo que incluso la constante en L está definida. (2) Si piensa que parámetros como ϕ y θ son meramente coordenadas de una variedad de distribuciones, entonces el cambio de parametrización no tiene un significado matemático intrínseco; Es simplemente un cambio de descripción. (3) Los hablantes nativos de inglés dirían más naturalmente "probabilidad de θ " en lugar de "activado". (4) La cláusula "cuando se observa x " tiene dificultades filosóficas, porque la mayoría de xL(θ|x)dx=1θLϕθ θxxnunca será observado ¿Por qué no solo decir "probabilidad de dado x "? θx
whuber
1
@whuber: Para (1), no creo que la constante esté bien definida. Ver el libro de ET Jaynes donde escribe: "que una probabilidad no es una probabilidad porque su normalización es arbitraria".
Neil G
3
Parece que estás confundiendo dos tipos de normalización, Neil: Jaynes se refería a la normalización por integración sobre , no x . θx
whuber
1
@whuber: No creo que un factor de escala importará para el límite de Cramer-Rao porque cambiar agrega una cantidad constante a la probabilidad logarítmica, que luego desaparece cuando se toma la derivada parcial. k
Neil G
1
Estoy de acuerdo con Neil, no veo ninguna aplicación donde la constante juegue un papel
Stéphane Laurent

Respuestas:

13

Su tercer elemento es el que he visto que se usa con más frecuencia como definición rigurosa.

Los otros también son interesantes (+1). En particular, el primero es atractivo, con la dificultad de que el tamaño de la muestra no esté (todavía) definido, es más difícil definir el conjunto "desde".

Para mí, la intuición fundamental de la probabilidad es que es una función del modelo + sus parámetros, no una función de las variables aleatorias (también un punto importante para fines de enseñanza). Entonces me apegaría a la tercera definición.

La fuente del abuso de la notación es que el conjunto "de" de la probabilidad es implícito, lo que generalmente no es el caso para funciones bien definidas. Aquí, el enfoque más riguroso es darse cuenta de que después de la transformación, la probabilidad se relaciona con otro modelo. Es equivalente al primero, pero aún otro modelo. Entonces, la notación de probabilidad debería mostrar a qué modelo se refiere (por subíndice u otro). Por supuesto, nunca lo hago, pero para enseñar, podría hacerlo.

Finalmente, para ser coherente con mis respuestas anteriores, digo la "probabilidad de " en su última fórmula.θ

gui11aume
fuente
Gracias. ¿Y cuál es su consejo sobre la igualdad hasta una constante multiplicativa?
Stéphane Laurent
Personalmente prefiero llamarlo cuando sea necesario en lugar de codificarlo en la definición. Y piense que para la selección / comparación de modelos, esta igualdad 'hasta una constante multiplicativa' no es válida.
gui11aume
Okay. Con respecto al nombre, puede imaginarse que discute sobre las probabilidades y L ( θ x 2 ) para dos posibles observaciones. En tal caso, ¿diría "la probabilidad de θ cuando x 1 observó", o "la probabilidad de θ para la observación x 1 ", o algo más? L(θx1)L(θx2)θx1θx1
Stéphane Laurent
1
Si vuelve a parametrizar su modelo con , en realidad calcula la probabilidad como una composición de funciones L ( . | X ) g ( . ) Donde g ( y ) = y 2 . En este caso, g va de R a R +, por lo que el conjunto de definición (mencionado como conjunto "de") de la probabilidad ya no es el mismo. Podría llamar a la primera función L 1 ( . | )ϕ=θ2L(.|x)g(.)g(y)=y2gRR+L1(.|)y el segundo porque no son las mismas funciones. L2(.|)
gui11aume
1
¿Cómo es rigurosa la tercera definición? ¿Y cuál es el problema con el tamaño de la muestra no se define? Dado que decimos , que naturalmente da origen a un álgebra sigma correspondiente para el espacio muestral Ω n , ¿por qué no podemos tener la definición paralela de probabilidades? P(x1,x2,,xnθ)Ωn
Neil G
8

Creo que lo llamaría algo diferente. La probabilidad es la densidad de probabilidad para la x observada dado el valor del parámetro expresado en función de θ para la x dada . No comparto la opinión sobre la constante de proporcionalidad. Creo que eso solo entra en juego porque maximizar cualquier función monotónica de la probabilidad da la misma solución para θ . Por lo tanto, puede maximizar c L ( θx ) para c > 0 u otras funciones monótonas como log ( L ( θx ) )θθxθcL(θx)c>0log(L(θx)) que se hace comúnmente

Michael R. Chernick
fuente
44
No solo la maximización: la proporcionalidad también entra en juego en la noción de razón de probabilidad y en la fórmula de Bayes para las estadísticas bayesianas
Stéphane Laurent
Pensé que alguien podría rechazar mi respuesta. Pero creo que es bastante razonable definir la probabilidad de esta manera como una probabilidad definitiva sin llamar a nada propotional una probabilidad. @ StéphaneLaurent a su comentario sobre anteriores, si la función es integrable se puede normalizar a una densidad. La posterior es proporcional a la probabilidad multiplicada por la anterior. Dado que la parte posterior debe normalizarse dividiendo por una integral, también podríamos especificar la distribución previa. Es solo en un sentido extendido que esto se aplica a los antecedentes impropios.
Michael R. Chernick
1
No estoy muy seguro de por qué alguien rechazaría esta respuesta. Parece que está intentando responder más a la segunda pregunta y preguntas del OP que a la primera. Quizás eso no estaba del todo claro para otros lectores. Aclamaciones. :)
cardenal
@Michael No veo la necesidad de rechazar esta respuesta también. Con respecto a los antecedentes no informativos (esta es otra discusión y) tengo la intención de abrir una nueva discusión sobre este tema. No lo haré pronto, porque no soy fácil con el inglés, y esto es más difícil para mí escribir "filosofía" que las matemáticas.
Stéphane Laurent
1
@Stephane: si lo desea, considere publicar su otra pregunta directamente en francés. Tenemos varios hablantes nativos de francés en este sitio que probablemente ayudarían a traducir cualquier pasaje que no esté seguro. Esto incluye un moderador y también un editor de una de las principales revistas de estadísticas en inglés. Espero con interés la pregunta.
cardenal
6

Aquí hay un intento de una definición matemática rigurosa:

Sea un vector aleatorio que admite una densidad f ( x | θ 0 ) con respecto a alguna medida ν en R n , donde para θ Θ , { f ( x | L ( θ | x ) a be f ( x | θ ) ; para mayor claridad, para cada x tenemos L x : ΘX:ΩRnf(x|θ0)νRnθΘ es una familia de densidades en R n con respecto a ν . Entonces, para cualquier x R n definimos la función de probabilidad{f(x|θ):θΘ}RnνxRnL(θ|x)f(x|θ)x . Uno puede pensar en x ser un potencial particular, x o b s y θ 0 para ser el "verdadero" valor de θ .Lx:ΘRxxobsθ0θ

Un par de observaciones sobre esta definición:

  1. La definición es lo suficientemente robusta como para manejar las clases discretas, continuas, y otros de familias de distribuciones de .X
  2. Estamos definiendo la probabilidad a nivel de funciones de densidad en lugar de a nivel de distribuciones / medidas de probabilidad. La razón de esto es que las densidades no son únicas, y resulta que esta no es una situación en la que uno puede pasar a clases de densidades de equivalencia y aún así ser seguro: las diferentes elecciones de densidades conducen a diferentes MLE en el caso continuo. Sin embargo, en la mayoría de los casos hay una elección natural de la familia de densidades que son deseables teóricamente.
  3. Me gusta esta definición porque incorpora las variables aleatorias con las que estamos trabajando y, por diseño, ya que tenemos que asignarles una distribución, también hemos construido rigurosamente la noción del valor "verdadero pero desconocido" de , aquí denotado θ 0 . Para mí, como estudiante, el desafío de ser riguroso con respecto a la probabilidad siempre fue cómo conciliar los conceptos del mundo real de un "verdadero" θ y "observado" x o b s con las matemáticas; los instructores afirmaron que estos conceptos no eran formales, pero luego se dieron la vuelta y los usaron formalmente al probar cosas. Entonces los tratamos formalmente en esta definición.θθ0θxobs
  4. EDITAR: Por supuesto, somos libres de considerar los elementos aleatorios habituales , S (L(θ|X) e I ( θ | X ) y bajo esta definición sin problemas reales de rigor siempre que tenga cuidado (o incluso si no lo eres si ese nivel de rigor no es importante para ti).S(θ|X)I(θ|X)
chico
fuente
44
X1,...,Xn(0,θ)f1(x)=θ1I[0<x<θ]f2(x)=θ1I[0xθ]f1f2U(0,θ)f2maxXif1jf1(xj|maxxi)=0θ^=maxXi0supθjf1(x|θ)θ
1
@guy: gracias, no sabía sobre este interesante contraejemplo.
Xi'an
1
supθjf1(xj|θ)θ
L1(θ;x)=j=1nf1(xj|θ)=θnj=1nI(0<xj<θ)=θnI(0<M<θ),
M=max{x1,,xn}xj>0j=1,,nL1(θ;x)=00<θML1(θ;x)=θnM<θ<
1
L1(θ;x)[0,Mn),
θ(0,)
supθ(0,)L1(θ,x)=Mn
M=argsupθ(0,)L1(θ;x).
L1(θ;x)
1
argsupL1(θ;x)supL1(θ;M)=0θ^supθ^supL2 . L1
chico