¿Cuál es la diferencia entre "probabilidad" y "probabilidad"?

474

La página de wikipedia afirma que la probabilidad y la probabilidad son conceptos distintos.

En lenguaje no técnico, "verosimilitud" suele ser sinónimo de "probabilidad", pero en el uso estadístico hay una clara distinción en perspectiva: el número que es la probabilidad de algunos resultados observados dado un conjunto de valores de parámetros se considera como el probabilidad del conjunto de valores de parámetros dados los resultados observados.

¿Alguien puede dar una descripción más realista de lo que esto significa? Además, algunos ejemplos de cómo "probabilidad" y "probabilidad" no están de acuerdo sería bueno.

Douglas S. Stones
fuente
99
Gran pregunta También agregaría "probabilidades" y "oportunidad" allí :)
Neil McGuigan
55
Creo que debería echar un vistazo a esta pregunta stats.stackexchange.com/questions/665/… porque la probabilidad es para fines estadísticos y la probabilidad de probabilidad.
robin girard
3
Wow, estas son algunas respuestas realmente buenas. ¡Muchas gracias por eso! Algún momento pronto, elegiré una que me guste particularmente como la respuesta "aceptada" (aunque hay varias que creo que son igualmente merecidas).
Douglas S. Stones
1
También tenga en cuenta que la "razón de probabilidad" es en realidad una "razón de probabilidad" ya que es una función de las observaciones.
JohnRos

Respuestas:

321

La respuesta depende de si se trata de variables aleatorias discretas o continuas. Entonces, dividiré mi respuesta en consecuencia. Asumiré que desea algunos detalles técnicos y no necesariamente una explicación en inglés simple.

Variables aleatorias discretas

Suponga que tiene un proceso estocástico que toma valores discretos (p. Ej., Resultados de lanzar una moneda 10 veces, número de clientes que llegan a una tienda en 10 minutos, etc.). En tales casos, podemos calcular la probabilidad de observar un conjunto particular de resultados haciendo suposiciones adecuadas sobre el proceso estocástico subyacente (p. Ej., La probabilidad de que las cabezas caigan monedas es y que los lanzamientos de monedas son independientes).p

Denote los resultados observados por y el conjunto de parámetros que describen el proceso estocástico como . Por lo tanto, cuando hablamos de probabilidad, queremos calcular . En otras palabras, dado valores específicos para , es la probabilidad de que se podría observar los resultados representados por .OθP(O|θ)θP(O|θ)O

Sin embargo, cuando modelamos un proceso estocástico de la vida real, a menudo no conocemos . Simplemente observamos y el objetivo, entonces, para llegar a una estimación de que sería una opción plausible, dado los resultados observados . Sabemos que dado un valor de la probabilidad de observar es . Por lo tanto, un proceso de estimación 'natural' es elegir que el valor de que maximizaría la probabilidad de que nos observan efectivamente . En otras palabras, encontramos los valores de los parámetros que maximizan la siguiente función:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O) se llama función de verosimilitud. Observe que, por definición, la función de probabilidad está condicionada por el observado y que es una función de los parámetros desconocidos .Oθ

Variables aleatorias continuas

En el caso continuo, la situación es similar con una diferencia importante. Ya no podemos hablar de la probabilidad de que observemos dado porque en el caso continuo . Sin entrar en tecnicismos, la idea básica es la siguiente:OθP(O|θ)=0

Denote la función de densidad de probabilidad (pdf) asociada con los resultados como: . Por lo tanto, en el caso continuo, estimamos resultados observados maximizando la siguiente función:Of(O|θ)θO

L(θ|O)=f(O|θ)

En esta situación, no podemos afirmar que técnicamente estamos encontrando el valor del parámetro que maximiza la probabilidad de que observamos al maximizar el PDF asociado con los resultados observados .OO

nbro
fuente
35
La distinción entre variables discretas y continuas desaparece desde el punto de vista de la teoría de la medida.
whuber
24
@whuber sí, pero una respuesta con la teoría de la medida no es tan accesible para todos.
16
@Srikant: De acuerdo. El comentario fue para el beneficio del OP, que es matemático (pero quizás no estadístico) para evitar ser engañado y pensar que hay algo fundamental en la distinción.
whuber
66
Puede interpretar una densidad continua igual que el caso discreto si se reemplaza por , en el sentido de que si pedimos (es decir, probabilidad de que los datos están contenidos en una región infinintesimal sobre ) y la respuesta es (el deja en claro que estamos calculando el área de un "bin" infinitamente delgado de un histograma ) d O P r ( O ( O , O + d O ) | θ ) O O f ( O | θ ) d O d O OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
chanceislogic
99
Llegué más de 5 años tarde a la fiesta, pero creo que un seguimiento crucial de esta respuesta sería stats.stackexchange.com/questions/31238/... que enfatiza el hecho de que la función de probabilidad es no es un pdf con respecto a . ) es de hecho un pdf de datos dado el valor del parámetro, pero dado que es una función de solo (con los datos mantenidos como una constante), es irrelevante que sea ​​un pdf de datos dados . θ L ( θ L θ L ( θ ) θL(θ)θL(θLθL(θ)θ
Shobhit
136

Este es el tipo de pregunta que casi todos responderán y esperaría que todas las respuestas fueran buenas. Pero eres matemático, Douglas, así que déjame ofrecerte una respuesta matemática.

Un modelo estadístico tiene que conectar dos entidades conceptuales distintas: datos , que son elementos de algún conjunto (como un espacio vectorial), y un posible modelo cuantitativo del comportamiento de los datos. Los modelos generalmente están representados por puntos en una variedad dimensional finita, una variedad con límite o un espacio funcional (este último se denomina un problema "no paramétrico").xθθ

Los datos están conectados a los posibles modelos por medio de una función . Para cualquier dada , pretende ser la probabilidad (o densidad de probabilidad) de . Por otro lado, para cualquier , se puede ver como una función de y, por lo general, se supone que tiene ciertas propiedades agradables, como ser continuamente segmentable en segundo lugar. La intención de ver a de esta manera e invocar estos supuestos se anuncia llamando a la "probabilidad".xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

Es bastante similar a la distinción entre variables y parámetros en una ecuación diferencial: a veces queremos estudiar la solución (es decir, nos centramos en las variables como argumento) y a veces queremos estudiar cómo varía la solución con los parámetros. La principal distinción es que en estadística rara vez necesitamos estudiar la variación simultánea de ambos conjuntos de argumentos; no hay ningún objeto estadístico que, naturalmente, corresponda a cambiar tanto los datos como los parámetros del modelo . Es por eso que escuchas más sobre esta dicotomía de lo que lo harías en entornos matemáticos análogos.xθ

whuber
fuente
66
+1, qué buena respuesta. La analogía con ecuaciones diferenciales parece muy apropiada.
mpiktas
3
Como economista, aunque esta respuesta no se relaciona tan estrechamente como la anterior con los conceptos que aprendí, fue la más informativa en un sentido intuitivo. Muchas gracias.
Robson el
1
En realidad, esta afirmación no es realmente cierta "no hay ningún objeto estadístico que corresponda naturalmente a cambiar tanto los datos x como los parámetros del modelo θ". No, se llama "suavizado, filtrado, y la predicción", en modelos lineales su filtro de Kalman, en modelos no lineales, que tienen los filtros no lineales completos, en.wikipedia.org/wiki/Kushner_equation etc
cuervo
1
Sí, gran respuesta! Por tonto que parezca, al elegir lugar de la notación estándar de , me fue más fácil ver que estamos comenzando con una probabilidad conjunta que puede definirse como una probabilidad o una probabilidad condicional. Además, el comentario de "ciertas propiedades agradables" ayudó. ¡Gracias! P ( x , θ )Λ(x,θ)P(x,θ)
Mike Williamson
2
@whuber Sí, lo sé no es la notación habitual. ¡Eso es exactamente por qué ayudó! Dejé de pensar que debía tener un significado particular y en su lugar simplemente seguí la lógica. ;-pΛ
Mike Williamson
111

Intentaré minimizar las matemáticas en mi explicación, ya que hay algunas buenas explicaciones matemáticas.

Como Robin Girand señala, la diferencia entre probabilidad y probabilidad está estrechamente relacionada con la diferencia entre probabilidad y estadística . En cierto sentido, la probabilidad y las estadísticas se refieren a problemas opuestos o inversos entre sí.

Considere lanzar una moneda. (Mi respuesta será similar al Ejemplo 1 en Wikipedia .) Si sabemos que la moneda es justa ( ), una pregunta de probabilidad típica es: ¿Cuál es la probabilidad de obtener dos caras seguidas? La respuesta es .P ( H H ) = P ( H ) × P ( H ) = 0.5 × 0.5 = 0.25p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Una pregunta estadística típica es: ¿es justa la moneda? Para responder esto, debemos preguntarnos: ¿en qué medida nuestra muestra respalda nuestra hipótesis de que ?P(H)=P(T)=0.5

El primer punto a tener en cuenta es que la dirección de la pregunta se ha invertido. En probabilidad, comenzamos con un parámetro supuesto ( ) y estimamos la probabilidad de una muestra dada (dos cabezas en una fila). En estadística comenzamos con la observación (dos cabezas seguidas) y hacemos INFERENCIA sobre nuestro parámetro ( ).P(head)p=P(H)=1P(T)=1q

El ejemplo 1 en Wikipedia nos muestra que la estimación de probabilidad máxima de después de 2 cabezas seguidas es . Pero los datos de ninguna manera descartan el verdadero valor del parámetro (no nos preocupemos por los detalles en este momento). De hecho, solo valores muy pequeños de y particularmente pueden eliminarse razonablemente después de (dos lanzamientos de la moneda). Después de que salga el tercer lanzamiento , ahora podemos eliminar la posibilidad de que (es decir, no es una moneda de dos caras), pero la mayoría de los valores intermedios pueden ser razonablemente compatibles con los datosP(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0. (Un intervalo de confianza binomial exacto del 95% para es de 0.094 a 0.992.p(H)

Después de 100 lanzamientos de monedas y (digamos) 70 caras, ahora tenemos una base razonable para sospechar que la moneda no es justa. Un IC exacto del 95% en ahora es de 0.600 a 0.787 y la probabilidad de observar un resultado tan extremo como 70 o más caras (o colas) de 100 lanzamientos dados es 0.0000785.p(H)p(H)=0.5

Aunque no he usado explícitamente los cálculos de probabilidad, este ejemplo captura el concepto de probabilidad: la probabilidad es una medida de la medida en que una muestra proporciona soporte para valores particulares de un parámetro en un modelo paramétrico .

Tilacoleo
fuente
3
¡Gran respuesta! Especialmente los tres últimos párrafos son muy útiles. ¿Cómo extenderías esto para describir el caso continuo?
Demetris
8
Para mí, la mejor respuesta. No me importan las matemáticas en absoluto, pero para mí las matemáticas son una herramienta regida por lo que quiero (no disfruto de las matemáticas por sí mismo, sino por lo que me ayuda a hacer). Solo con esta respuesta sé lo último.
Mörre
73

Le daré la perspectiva desde el punto de vista de la Teoría de Probabilidad que se originó con Fisher , y es la base para la definición estadística en el artículo de Wikipedia citado.

Suponga que tiene al azar variables aleatorias que surgen de una distribución parametrizada , donde es el parámetro que caracteriza . Entonces la probabilidad de sería: , con conocida . XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

Más a menudo, tiene datos y es desconocido. Dado el supuesto modelo , la probabilidad se define como la probabilidad de datos observados en función de : . Tenga en cuenta que es conocido, pero es desconocido; de hecho, la motivación para definir la probabilidad es determinar el parámetro de la distribución.XθFθL(θ)=P(θ;X=x)Xθ

Aunque parece que simplemente hemos reescrito la función de probabilidad, una consecuencia clave de esto es que la función de probabilidad no obedece las leyes de probabilidad (por ejemplo, no está vinculada al intervalo [0, 1]). Sin embargo, la función de probabilidad es proporcional a la probabilidad de los datos observados.

Este concepto de probabilidad en realidad conduce a una escuela de pensamiento diferente, "probabilistas" (distinta de frecuentista y bayesiano) y puede buscar en Google todos los debates históricos. La piedra angular es el Principio de Verosimilitud que esencialmente dice que podemos realizar inferencia directamente desde la función de verosimilitud (ni los bayesianos ni los frecuentistas aceptan esto ya que no es una inferencia basada en la probabilidad). En la actualidad, mucho de lo que se enseña como "frecuentista" en las escuelas es en realidad una amalgama de pensamiento frecuentista y de probabilidad.

Para una visión más profunda, un buen comienzo y una referencia histórica es la probabilidad de Edwards . Para una versión moderna, recomendaría la maravillosa monografía de Richard Royall, Evidencia estadística: un paradigma de probabilidad .

ars
fuente
3
Respuesta interesante, en realidad pensé que la "escuela de probabilidad" era básicamente los "frecuentistas que no diseñan muestras de la escuela", mientras que la "escuela de diseño" era el resto de los frecuentadores. De hecho, me resulta difícil decir qué "escuela" soy, ya que tengo un poco de conocimiento de cada escuela. La escuela "Probabilidad como lógica extendida" es mi favorita (duh), pero no tengo suficiente experiencia práctica en aplicarla a problemas reales para ser dogmática al respecto.
chanceislogic
55
+1 para "la función de probabilidad no obedece las leyes de probabilidad (por ejemplo, no está vinculada al intervalo [0, 1]). Sin embargo, la función de probabilidad es proporcional a la probabilidad de los datos observados".
Walrus the Cat
10
"la función de probabilidad no obedece las leyes de probabilidad" podría usar algunas aclaraciones adicionales, especialmente porque se escribió como θ: L (θ) = P (θ; X = x), es decir, ¡equiparado con una probabilidad!
redcalx
Gracias por tu respuesta. ¿Podría por favor abordar el comentario que hizo @locster?
Vivek Subramanian
2
Para mí, como no matemático, esto se lee como las matemáticas religiosas, con diferentes creencias que dan como resultado diferentes valores para las posibilidades de que ocurran eventos. ¿Puede formularlo para que sea más fácil entender cuáles son las diferentes creencias y por qué todas tienen sentido, en lugar de que una sea simplemente incorrecta y la otra escuela / creencia sea correcta? (suposición de que hay una manera correcta de calcular las posibilidades de que ocurran eventos)
Zelphir Kaltstahl
57

Dadas todas las buenas respuestas técnicas anteriores, permítanme volver al lenguaje: la probabilidad cuantifica la anticipación (del resultado), la probabilidad cuantifica la confianza (en el modelo).

Supongamos que alguien nos reta a un "juego de juego rentable". Luego, las probabilidades nos servirán para calcular cosas como el perfil esperado de sus ganancias y pérdidas (media, moda, mediana, varianza, relación de información, valor en riesgo, ruina de jugadores, etc.). En contraste, la probabilidad nos servirá para cuantificar si confiamos en esas probabilidades en primer lugar; o si 'huele a rata'.


Por cierto, dado que alguien mencionó anteriormente las religiones de las estadísticas, creo que la razón de probabilidad es una parte integral del mundo bayesiano y también del frecuentista: en el mundo bayesiano, la fórmula de Bayes solo combina lo anterior con la probabilidad de producir posterior.

gitano
fuente
Esta respuesta lo resume para mí. Tuve que pensar qué significaba cuando leí que la probabilidad no es probabilidad, pero se me ocurrió el siguiente caso. ¿Cuál es la probabilidad de que una moneda sea justa, dado que vemos cuatro caras seguidas? Realmente no podemos decir nada sobre la probabilidad aquí, pero la palabra "confianza" parece adecuada. ¿Sentimos que podemos confiar en la moneda?
dnuttle
Inicialmente, este podría haber sido el propósito históricamente previsto de las probabilidades, pero hoy en día las probabilidades son todos los cálculos bayesianos, y se sabe que las probabilidades pueden amalgamar creencias y plausibilidad, razón por la cual se creó la teoría Dempster-Shafer, para desambiguar ambas interpretaciones.
Gaborous
50

Supongamos que tiene una moneda con probabilidad para aterrizar caras y para aterrizar colas. Deje que indica caras y indica colas. Defina siguiente manerap(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3) es la probabilidad de x dado , es la probabilidad de dado . Básicamente, la probabilidad frente a la probabilidad le dice qué parámetro de densidad se considera la variablep=2/3f(1,p)px=1

Yaroslav Bulatov
fuente
Buen complemento a las definiciones teóricas utilizadas anteriormente!
Frank Meulenaar
Veo que da la probabilidad de tener cabezas en intentos. Su parece a la raíz -ésima de eso: . Qué significa eso? Cknpn(1p)knnkpx(1p)1xkx=n/k
Little Alien
41

Si tengo una moneda justa (valor del parámetro), entonces la probabilidad de que salga cara es 0.5. Si lanzo una moneda 100 veces y sale cara 52 veces, entonces tiene una alta probabilidad de ser justa (el valor numérico de la probabilidad puede tomar varias formas).

John
fuente
44
¡Esto y la respuesta de Gypsy deberían estar en la cima! Intuición y claridad por encima del rigor matemático seco, por no decir algo más despectivo.
Nemanja Radojković
24

P(x|θ) se puede ver desde dos puntos de vista:

  • En función de , tratar como conocido / observado. xθSi no es una variable aleatoria, entonces se denomina probabilidad ( parametrizada ) de dados los parámetros del modelo , que a veces también se escribe como o . Si es una variable aleatoria, como en las estadísticas bayesianas, entonces es una probabilidad condicional , definida como .θP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)P(xθ)/P(θ)
  • θxθ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ

A menudo, esta expresión sigue siendo una función de ambos argumentos, por lo que es más bien una cuestión de énfasis.

Lenar Hoyt
fuente
Para el segundo caso, pensé que la gente generalmente escribe P (theta | x).
Yuqian
Originalmente, intuitivamente, ya pensaba que ambas son palabras iguales con una diferencia de perspectiva o formulación del lenguaje natural, así que me siento como "¿Qué? ¡¿Tenía razón todo el tiempo ?!" Pero si este es el caso, ¿por qué es tan importante distinguirlos? El inglés no es mi lengua materna, crecí con una sola palabra para aparentemente los dos términos (¿o simplemente nunca tuve un problema en el que necesitaba distinguir los términos?) Y nunca supe que había alguna diferencia. Es solo ahora, que sé dos términos en inglés, que comienzo a dudar de mi comprensión de estas cosas.
Zelphir Kaltstahl
3
Su respuesta parece ser muy compasiva y es fácil de entender. Me pregunto por qué recibió tan pocos votos positivos.
Julian
44
θθθθ
Creo que esta es la mejor respuesta entre todas
Aaron
4

θ

P(X|θ)θP(X|θ)dθθθ

Respuesta777
fuente
1
Como señala la respuesta de @Lenar Hoyt, si theta es una variable aleatoria (que puede ser), entonces la probabilidad es una probabilidad. Entonces, la respuesta real parece ser que la probabilidad puede ser una probabilidad, pero a veces no lo es.
Mike Wise
@MikeWise, creo theta siempre podría ser visto como una variable "al azar", mientras que lo más probable es que simplemente no es tan "al azar" ...
Response777
4

¿Conoces al piloto de la serie de televisión "num3ers" en la que el FBI intenta localizar la base de un criminal en serie que parece elegir a sus víctimas al azar?

El asesor matemático del FBI y hermano del agente a cargo resuelve el problema con un enfoque de máxima probabilidad. primero, supone una probabilidad de "forma de gugelhupf" que los crímenes tienen lugar en lugares si el criminal vive en el lugar . (la suposición de gugelhupf es que el criminal no cometerá un delito en su vecindario inmediato ni viajará extremadamente lejos para elegir su próxima víctima aleatoria). Este modelo describe las probabilidades para diferentes dada una fija . en otras palabras, es una función de con un parámetro fijop(x|θ)xθxθpθ(x)=p(x|θ)xθ.

Por supuesto, el FBI no conoce el domicilio del criminal, ni quiere predecir la próxima escena del crimen. (¡esperan encontrar al criminal primero!) es al revés, el FBI ya conoce las escenas del crimen y quiere localizar el domicilio del criminal .xθ

entonces el hermano brillante del agente del FBI tiene que intentar encontrar la más probable entre todos los valores posibles, es decir, la que maximiza para la realmente observada . por lo tanto, ahora considera como una función de con un parámetro fijo . Hablando en sentido figurado, empuja su gugelhupf en el mapa hasta que se "ajusta" de manera óptima a las escenas del crimen conocidas . entonces el FBI llama a la puerta en el centro del gugelhupf.θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

Para enfatizar este cambio de perspectiva, se llama probabilidad (función) de , mientras que era la probabilidad (función) de . ambas son en realidad la misma función pero vistas desde diferentes perspectivas y con y cambiando sus roles como variable y parámetro, respectivamente.lx(θ)θ p θ ( x ) x p ( x | θ ) x θθpθ(x)xp(x|θ)xθ

Schotti
fuente