¿Hay alguna diferencia entre frequentista y bayesiano en la definición de probabilidad?

21

Algunas fuentes dicen que la función de probabilidad no es una probabilidad condicional, algunas dicen que sí. Esto es muy confuso para mí.

Según la mayoría de las fuentes que he visto, la probabilidad de una distribución con el parámetro , debería ser un producto de funciones de masa de probabilidad dadas muestras de :n x iθnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Por ejemplo, en Regresión logística, utilizamos un algoritmo de optimización para maximizar la función de probabilidad (Estimación de probabilidad máxima) para obtener los parámetros óptimos y, por lo tanto, el modelo LR final. Dadas las muestras de entrenamiento, que suponemos que son independientes entre sí, queremos maximizar el producto de las probabilidades (o las funciones de masa de probabilidad conjunta). Esto me parece bastante obvio.n

Según la relación entre: Probabilidad, probabilidad condicional y tasa de falla , "la probabilidad no es una probabilidad y no es una probabilidad condicional". También mencionó, "la probabilidad es una probabilidad condicional solo en la comprensión bayesiana de la probabilidad, es decir, si se supone que es una variable aleatoria".θ

Leí sobre las diferentes perspectivas de tratar un problema de aprendizaje entre frecuentista y bayesiano.

Según una fuente, para la inferencia bayesiana, tenemos a priori , probabilidad , y queremos obtener la posterior , utilizando el teorema bayesiano:P ( X | θ ) P ( θ | X )P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

No estoy familiarizado con la inferencia bayesiana. ¿Cómo es que que es la distribución de los datos observados condicional a sus parámetros, también se denomina probabilidad? En Wikipedia , dice que a veces se escribe . ¿Qué significa esto?L ( θ | X ) = p ( X | θ )P(X|θ)L(θ|X)=p(X|θ)

¿Hay alguna diferencia entre las definiciones frecuentas y bayesianas sobre la probabilidad?

Gracias.


EDITAR:

Existen diferentes formas de interpretar el teorema de Bayes: interpretación bayesiana e interpretación frequentista (ver: Teorema de Bayes - Wikipedia ).

Tyler 傲 来 国 主
fuente
2
Dos propiedades clave de probabilidad son que (a) que es una función de para una particular en lugar de al revés, y (b) solo se puede conocer hasta una constante positiva de proporcionalidad. No es una probabilidad (condicional o no), porque no necesita sumar o integrar a sobre todoX 1 θθX1θ
Henry

Respuestas:

24

No hay diferencia en la definición : en ambos casos, la función de probabilidad es cualquier función del parámetro que sea proporcional a la densidad de muestreo. Estrictamente hablando, no requerimos que la probabilidad sea igual a la densidad de muestreo; solo necesita ser proporcional, lo que permite la eliminación de partes multiplicativas que no dependen de los parámetros.

Mientras que la densidad de muestreo se interpreta como una función de los datos, condicional a un valor especificado del parámetro, la función de probabilidad se interpreta como una función del parámetro para un vector de datos fijo. Entonces, en el caso estándar de los datos IID, usted tiene:

Lx(θ)i=1np(xi|θ).

En las estadísticas bayesianas, generalmente expresamos el teorema de Bayes en su forma más simple como:

π(θ|x)π(θ)Lx(θ).

Esta expresión para el teorema de Bayes subraya que sus dos elementos multilicativos son funciones del parámetro, que es el objeto de interés en la densidad posterior. (Este resultado de proporcionalidad define completamente la regla, ya que el posterior es una densidad, por lo que hay una constante de multiplicación única que hace que se integre en uno.) Como señala en su actualización, la filosofía bayesiana y frecuentista tiene diferentes estructuras interpretativas. Dentro del paradigma frecuentista, el parámetro generalmente se trata como una "constante fija" y, por lo tanto, no se le atribuye una medida de probabilidad. Por lo tanto, los frecuentes rechazan la atribución de una distribución anterior o posterior al parámetro (para más discusión sobre estas diferencias filosóficas e interpretativas, véase, por ejemplo, O'Neill 2009 ).

Reinstalar a Mónica
fuente
14

La función de probabilidad se define independientemente de o antes de el paradigma estadístico que se usa para la inferencia, como una función, (o ), del parámetro , la función eso depende de o está indexado por las observaciones disponibles para esta inferencia. Y también implícitamente dependiendo de la familia de modelos de probabilidad elegidos para representar la variabilidad o aleatoriedad en los datos. Para un valor dado del par , el valor de esta función es exactamente idéntico al valor de la densidad del modelo enL(θ;x)L(θ|x)θx(θ,x)xcuando se indexa con el parámetro . θQue a menudo se traduce toscamente como la "probabilidad de los datos".

Para citar más fuentes autorizadas e históricas que una respuesta anterior en este foro,

"Podemos discutir la probabilidad de ocurrencia de cantidades que pueden observarse ... en relación con cualquier hipótesis que pueda sugerirse para explicar estas observaciones. No podemos saber nada de la probabilidad de hipótesis ... [Podemos] determinar la probabilidad de hipótesis ... mediante el cálculo de las observaciones: ... hablar de la probabilidad ... de una cantidad observable no tiene sentido ". RA Fisher, sobre el `` error probable '' de un coeficiente de correlación deducido de una muestra pequeña . Metron 1, 1921, p.25

y

"Lo que podemos encontrar en una muestra es la probabilidad de cualquier valor particular de r, si definimos la probabilidad como una cantidad proporcional a la probabilidad de que, de una población que tenga el valor particular de r, una muestra tenga el valor observado de r , debe ser obtenido ". RA Fisher, sobre el `` error probable '' de un coeficiente de correlación deducido de una muestra pequeña . Metron 1, 1921, p.24

que menciona una proporcionalidad que Jeffreys (y yo) encontramos superfluo:

"... probabilidad, un término conveniente introducido por el profesor RA Fisher, aunque en su uso a veces se multiplica por un factor constante. Esta es la probabilidad de que las observaciones den la información original y la hipótesis en discusión". H. Jeffreys, Teoría de la probabilidad , 1939, p.28

Para citar solo una oración de la excelente entrada histórica al tema de John Aldrich (Statistical Science, 1997):

"Fisher (1921, p. 24) volvió a redactar lo que había escrito en 1912 sobre probabilidad inversa, distinguiendo entre las operaciones matemáticas que se pueden realizar sobre densidades de probabilidad y probabilidades: la probabilidad no es un" elemento diferencial ", no puede integrarse ". J. Aldrich, RA Fisher y la creación de la máxima probabilidad 1912-1922 , 1997 , p.9

Al adoptar un enfoque bayesiano, la función de probabilidad no cambia de forma ni de naturaleza. Sigue siendo la densidad en indexada por . La característica adicional es que, ya que también está dotado de un modelo probabilístico, la distribución a priori, la densidad en indexados por también puede ser interpretada como un condicional densidad, condicionada a una realización de : en un modelado Bayesiano , una realización de se produce a partir de la anterior, con densidad , luego una realización de ,xθθxθθθπ()Xx, se produce a partir de la distribución con densidad , indexada por . En otras palabras, y con respecto a la medida dominante adecuada, el par tiene una densidad conjunta de la que se deriva la densidad posterior de , es decir, la densidad condicional de , condicional en la realización de como también expresada como encontrado desde Jeffreys (1939) .L(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Nota: Encuentro que la distinción hecha en la introducción de la página de Wikipedia sobre las funciones de probabilidad entre las probabilidades bayesianas y frecuentistas es confusa e innecesaria, o simplemente errónea, ya que la gran mayoría de los estadísticos bayesianos actuales no usa la probabilidad como un sustituto de la probabilidad posterior. De manera similar, la "diferencia" señalada en la página de Wikipedia sobre el Teorema de Bayes suena más confusa que cualquier otra cosa, ya que este teorema es una declaración de probabilidad sobre un cambio de condicionamiento, independiente del paradigma o del significado de una declaración de probabilidad. (¡ En mi opinión , es más una definición que un teorema!)

Xi'an
fuente
1

Como una pequeña adición:

El nombre "Probabilidad" es completamente engañoso, porque hay muchos significados posibles diferentes. No solo el "lenguaje normal", sino también en las estadísticas. Puedo pensar en al menos tres expresiones diferentes, pero incluso relacionadas, que se llaman Probabilidad; incluso en libros de texto.

Dicho esto, al tomar la definición multiplicativa de Probabilidad, no hay nada en ella que la convierta en ningún tipo de probabilidad en el sentido de su definición (por ejemplo, axiomática). Es un número de valor real. Puede hacer muchas cosas para calcular o relacionarlo con una probabilidad (tomar proporciones, calcular anteriores y posteriores, etc.), pero en sí mismo no tiene ningún significado en términos de probabilidad.

La respuesta ha sido más o menos obsoleta por la respuesta mucho más informativa e integral de Xi'an. Pero a pedido, algunas definiciones de libros de texto de Probabilidad:

  • la funciónL(x;θ)
  • El método para encontrar el "mejor" valor del parámetro bajo la condición de algunos datos observados (Máximo L., Mínimo L., log-L., etc.)θ
  • la relación de los valores de probabilidad para diferentes antecedentes (por ejemplo, en una tarea de clasificación) ... y además los diferentes significados que uno puede tratar de atribuir al uso (ab) de los elementos antes mencionados.
querubín
fuente
1
Esta sería una respuesta mucho mejor si pudiera agregar ejemplos / referencias, ya que puedo pensar en al menos tres expresiones diferentes, pero incluso relacionadas, que se llaman Probabilidad; incluso en libros de texto .
kjetil b halvorsen