Algunas fuentes dicen que la función de probabilidad no es una probabilidad condicional, algunas dicen que sí. Esto es muy confuso para mí.
Según la mayoría de las fuentes que he visto, la probabilidad de una distribución con el parámetro , debería ser un producto de funciones de masa de probabilidad dadas muestras de :n x i
Por ejemplo, en Regresión logística, utilizamos un algoritmo de optimización para maximizar la función de probabilidad (Estimación de probabilidad máxima) para obtener los parámetros óptimos y, por lo tanto, el modelo LR final. Dadas las muestras de entrenamiento, que suponemos que son independientes entre sí, queremos maximizar el producto de las probabilidades (o las funciones de masa de probabilidad conjunta). Esto me parece bastante obvio.
Según la relación entre: Probabilidad, probabilidad condicional y tasa de falla , "la probabilidad no es una probabilidad y no es una probabilidad condicional". También mencionó, "la probabilidad es una probabilidad condicional solo en la comprensión bayesiana de la probabilidad, es decir, si se supone que es una variable aleatoria".
Leí sobre las diferentes perspectivas de tratar un problema de aprendizaje entre frecuentista y bayesiano.
Según una fuente, para la inferencia bayesiana, tenemos a priori , probabilidad , y queremos obtener la posterior , utilizando el teorema bayesiano:P ( X | θ ) P ( θ | X )
No estoy familiarizado con la inferencia bayesiana. ¿Cómo es que que es la distribución de los datos observados condicional a sus parámetros, también se denomina probabilidad? En Wikipedia , dice que a veces se escribe . ¿Qué significa esto?L ( θ | X ) = p ( X | θ )
¿Hay alguna diferencia entre las definiciones frecuentas y bayesianas sobre la probabilidad?
Gracias.
EDITAR:
Existen diferentes formas de interpretar el teorema de Bayes: interpretación bayesiana e interpretación frequentista (ver: Teorema de Bayes - Wikipedia ).
fuente
Respuestas:
No hay diferencia en la definición : en ambos casos, la función de probabilidad es cualquier función del parámetro que sea proporcional a la densidad de muestreo. Estrictamente hablando, no requerimos que la probabilidad sea igual a la densidad de muestreo; solo necesita ser proporcional, lo que permite la eliminación de partes multiplicativas que no dependen de los parámetros.
Mientras que la densidad de muestreo se interpreta como una función de los datos, condicional a un valor especificado del parámetro, la función de probabilidad se interpreta como una función del parámetro para un vector de datos fijo. Entonces, en el caso estándar de los datos IID, usted tiene:
En las estadísticas bayesianas, generalmente expresamos el teorema de Bayes en su forma más simple como:
Esta expresión para el teorema de Bayes subraya que sus dos elementos multilicativos son funciones del parámetro, que es el objeto de interés en la densidad posterior. (Este resultado de proporcionalidad define completamente la regla, ya que el posterior es una densidad, por lo que hay una constante de multiplicación única que hace que se integre en uno.) Como señala en su actualización, la filosofía bayesiana y frecuentista tiene diferentes estructuras interpretativas. Dentro del paradigma frecuentista, el parámetro generalmente se trata como una "constante fija" y, por lo tanto, no se le atribuye una medida de probabilidad. Por lo tanto, los frecuentes rechazan la atribución de una distribución anterior o posterior al parámetro (para más discusión sobre estas diferencias filosóficas e interpretativas, véase, por ejemplo, O'Neill 2009 ).
fuente
La función de probabilidad se define independientemente de o antes de el paradigma estadístico que se usa para la inferencia, como una función, (o ), del parámetro , la función eso depende de o está indexado por las observaciones disponibles para esta inferencia. Y también implícitamente dependiendo de la familia de modelos de probabilidad elegidos para representar la variabilidad o aleatoriedad en los datos. Para un valor dado del par , el valor de esta función es exactamente idéntico al valor de la densidad del modelo en− − L(θ;x) L(θ|x) θ − − x (θ,x) x cuando se indexa con el parámetro . θ Que a menudo se traduce toscamente como la "probabilidad de los datos".
Para citar más fuentes autorizadas e históricas que una respuesta anterior en este foro,
y
que menciona una proporcionalidad que Jeffreys (y yo) encontramos superfluo:
Para citar solo una oración de la excelente entrada histórica al tema de John Aldrich (Statistical Science, 1997):
Al adoptar un enfoque bayesiano, la función de probabilidad no cambia de forma ni de naturaleza. Sigue siendo la densidad en indexada por . La característica adicional es que, ya que también está dotado de un modelo probabilístico, la distribución a priori, la densidad en indexados por también puede ser interpretada como un condicional densidad, condicionada a una realización de : en un modelado Bayesiano , una realización de se produce a partir de la anterior, con densidad , luego una realización de ,x θ θ x θ θ θ π(⋅) X x , se produce a partir de la distribución con densidad , indexada por . En otras palabras, y con respecto a la medida dominante adecuada, el par tiene una densidad conjunta
de la que se deriva la densidad posterior de , es decir, la densidad condicional de , condicional en la realización de como
también expresada como
encontrado desde Jeffreys (1939) .L(θ|⋅) θ (θ,x)
Nota: Encuentro que la distinción hecha en la introducción de la página de Wikipedia sobre las funciones de probabilidad entre las probabilidades bayesianas y frecuentistas es confusa e innecesaria, o simplemente errónea, ya que la gran mayoría de los estadísticos bayesianos actuales no usa la probabilidad como un sustituto de la probabilidad posterior. De manera similar, la "diferencia" señalada en la página de Wikipedia sobre el Teorema de Bayes suena más confusa que cualquier otra cosa, ya que este teorema es una declaración de probabilidad sobre un cambio de condicionamiento, independiente del paradigma o del significado de una declaración de probabilidad. (¡ En mi opinión , es más una definición que un teorema!)
fuente
Como una pequeña adición:
El nombre "Probabilidad" es completamente engañoso, porque hay muchos significados posibles diferentes. No solo el "lenguaje normal", sino también en las estadísticas. Puedo pensar en al menos tres expresiones diferentes, pero incluso relacionadas, que se llaman Probabilidad; incluso en libros de texto.
Dicho esto, al tomar la definición multiplicativa de Probabilidad, no hay nada en ella que la convierta en ningún tipo de probabilidad en el sentido de su definición (por ejemplo, axiomática). Es un número de valor real. Puede hacer muchas cosas para calcular o relacionarlo con una probabilidad (tomar proporciones, calcular anteriores y posteriores, etc.), pero en sí mismo no tiene ningún significado en términos de probabilidad.
La respuesta ha sido más o menos obsoleta por la respuesta mucho más informativa e integral de Xi'an. Pero a pedido, algunas definiciones de libros de texto de Probabilidad:
fuente