La página de wikipedia afirma que la probabilidad y la probabilidad son conceptos distintos.
En lenguaje no técnico, "verosimilitud" suele ser sinónimo de "probabilidad", pero en el uso estadístico hay una clara distinción en perspectiva: el número que es la probabilidad de algunos resultados observados dado un conjunto de valores de parámetros se considera como el probabilidad del conjunto de valores de parámetros dados los resultados observados.
¿Alguien puede dar una descripción más realista de lo que esto significa? Además, algunos ejemplos de cómo "probabilidad" y "probabilidad" no están de acuerdo sería bueno.
probability
likelihood
Douglas S. Stones
fuente
fuente
Respuestas:
La respuesta depende de si se trata de variables aleatorias discretas o continuas. Entonces, dividiré mi respuesta en consecuencia. Asumiré que desea algunos detalles técnicos y no necesariamente una explicación en inglés simple.
Variables aleatorias discretas
Suponga que tiene un proceso estocástico que toma valores discretos (p. Ej., Resultados de lanzar una moneda 10 veces, número de clientes que llegan a una tienda en 10 minutos, etc.). En tales casos, podemos calcular la probabilidad de observar un conjunto particular de resultados haciendo suposiciones adecuadas sobre el proceso estocástico subyacente (p. Ej., La probabilidad de que las cabezas caigan monedas es y que los lanzamientos de monedas son independientes).p
Denote los resultados observados por y el conjunto de parámetros que describen el proceso estocástico como . Por lo tanto, cuando hablamos de probabilidad, queremos calcular . En otras palabras, dado valores específicos para , es la probabilidad de que se podría observar los resultados representados por .O θ P(O|θ) θ P(O|θ) O
Sin embargo, cuando modelamos un proceso estocástico de la vida real, a menudo no conocemos . Simplemente observamos y el objetivo, entonces, para llegar a una estimación de que sería una opción plausible, dado los resultados observados . Sabemos que dado un valor de la probabilidad de observar es . Por lo tanto, un proceso de estimación 'natural' es elegir que el valor de que maximizaría la probabilidad de que nos observan efectivamente . En otras palabras, encontramos los valores de los parámetros que maximizan la siguiente función:θ O θ O θ O P(O|θ) θ O θ
Variables aleatorias continuas
En el caso continuo, la situación es similar con una diferencia importante. Ya no podemos hablar de la probabilidad de que observemos dado porque en el caso continuo . Sin entrar en tecnicismos, la idea básica es la siguiente:O θ P(O|θ)=0
Denote la función de densidad de probabilidad (pdf) asociada con los resultados como: . Por lo tanto, en el caso continuo, estimamos resultados observados maximizando la siguiente función:O f(O|θ) θ O
En esta situación, no podemos afirmar que técnicamente estamos encontrando el valor del parámetro que maximiza la probabilidad de que observamos al maximizar el PDF asociado con los resultados observados .O O
fuente
Este es el tipo de pregunta que casi todos responderán y esperaría que todas las respuestas fueran buenas. Pero eres matemático, Douglas, así que déjame ofrecerte una respuesta matemática.
Un modelo estadístico tiene que conectar dos entidades conceptuales distintas: datos , que son elementos de algún conjunto (como un espacio vectorial), y un posible modelo cuantitativo del comportamiento de los datos. Los modelos generalmente están representados por puntos en una variedad dimensional finita, una variedad con límite o un espacio funcional (este último se denomina un problema "no paramétrico").x θθ
Los datos están conectados a los posibles modelos por medio de una función . Para cualquier dada , pretende ser la probabilidad (o densidad de probabilidad) de . Por otro lado, para cualquier , se puede ver como una función de y, por lo general, se supone que tiene ciertas propiedades agradables, como ser continuamente segmentable en segundo lugar. La intención de ver a de esta manera e invocar estos supuestos se anuncia llamando a la "probabilidad".x θ Λ(x,θ) θ Λ(x,θ) x x Λ(x,θ) θ Λ Λ
Es bastante similar a la distinción entre variables y parámetros en una ecuación diferencial: a veces queremos estudiar la solución (es decir, nos centramos en las variables como argumento) y a veces queremos estudiar cómo varía la solución con los parámetros. La principal distinción es que en estadística rara vez necesitamos estudiar la variación simultánea de ambos conjuntos de argumentos; no hay ningún objeto estadístico que, naturalmente, corresponda a cambiar tanto los datos como los parámetros del modelo . Es por eso que escuchas más sobre esta dicotomía de lo que lo harías en entornos matemáticos análogos.x θ
fuente
Intentaré minimizar las matemáticas en mi explicación, ya que hay algunas buenas explicaciones matemáticas.
Como Robin Girand señala, la diferencia entre probabilidad y probabilidad está estrechamente relacionada con la diferencia entre probabilidad y estadística . En cierto sentido, la probabilidad y las estadísticas se refieren a problemas opuestos o inversos entre sí.
Considere lanzar una moneda. (Mi respuesta será similar al Ejemplo 1 en Wikipedia .) Si sabemos que la moneda es justa ( ), una pregunta de probabilidad típica es: ¿Cuál es la probabilidad de obtener dos caras seguidas? La respuesta es .P ( H H ) = P ( H ) × P ( H ) = 0.5 × 0.5 = 0.25p=0.5 P(HH)=P(H)×P(H)=0.5×0.5=0.25
Una pregunta estadística típica es: ¿es justa la moneda? Para responder esto, debemos preguntarnos: ¿en qué medida nuestra muestra respalda nuestra hipótesis de que ?P(H)=P(T)=0.5
El primer punto a tener en cuenta es que la dirección de la pregunta se ha invertido. En probabilidad, comenzamos con un parámetro supuesto ( ) y estimamos la probabilidad de una muestra dada (dos cabezas en una fila). En estadística comenzamos con la observación (dos cabezas seguidas) y hacemos INFERENCIA sobre nuestro parámetro ( ).P(head) p=P(H)=1−P(T)=1−q
El ejemplo 1 en Wikipedia nos muestra que la estimación de probabilidad máxima de después de 2 cabezas seguidas es . Pero los datos de ninguna manera descartan el verdadero valor del parámetro (no nos preocupemos por los detalles en este momento). De hecho, solo valores muy pequeños de y particularmente pueden eliminarse razonablemente después de (dos lanzamientos de la moneda). Después de que salga el tercer lanzamiento , ahora podemos eliminar la posibilidad de que (es decir, no es una moneda de dos caras), pero la mayoría de los valores intermedios pueden ser razonablemente compatibles con los datosP(H) pMLE=1 p(H)=0.5 p(H) p(H)=0 n=2 P(H)=1.0 . (Un intervalo de confianza binomial exacto del 95% para es de 0.094 a 0.992.p(H)
Después de 100 lanzamientos de monedas y (digamos) 70 caras, ahora tenemos una base razonable para sospechar que la moneda no es justa. Un IC exacto del 95% en ahora es de 0.600 a 0.787 y la probabilidad de observar un resultado tan extremo como 70 o más caras (o colas) de 100 lanzamientos dados es 0.0000785.p(H) p(H)=0.5
Aunque no he usado explícitamente los cálculos de probabilidad, este ejemplo captura el concepto de probabilidad: la probabilidad es una medida de la medida en que una muestra proporciona soporte para valores particulares de un parámetro en un modelo paramétrico .
fuente
Le daré la perspectiva desde el punto de vista de la Teoría de Probabilidad que se originó con Fisher , y es la base para la definición estadística en el artículo de Wikipedia citado.
Suponga que tiene al azar variables aleatorias que surgen de una distribución parametrizada , donde es el parámetro que caracteriza . Entonces la probabilidad de sería: , con conocida .X F(X;θ) θ F X=x P(X=x)=F(x;θ) θ
Más a menudo, tiene datos y es desconocido. Dado el supuesto modelo , la probabilidad se define como la probabilidad de datos observados en función de : . Tenga en cuenta que es conocido, pero es desconocido; de hecho, la motivación para definir la probabilidad es determinar el parámetro de la distribución.X θ F θ L(θ)=P(θ;X=x) X θ
Aunque parece que simplemente hemos reescrito la función de probabilidad, una consecuencia clave de esto es que la función de probabilidad no obedece las leyes de probabilidad (por ejemplo, no está vinculada al intervalo [0, 1]). Sin embargo, la función de probabilidad es proporcional a la probabilidad de los datos observados.
Este concepto de probabilidad en realidad conduce a una escuela de pensamiento diferente, "probabilistas" (distinta de frecuentista y bayesiano) y puede buscar en Google todos los debates históricos. La piedra angular es el Principio de Verosimilitud que esencialmente dice que podemos realizar inferencia directamente desde la función de verosimilitud (ni los bayesianos ni los frecuentistas aceptan esto ya que no es una inferencia basada en la probabilidad). En la actualidad, mucho de lo que se enseña como "frecuentista" en las escuelas es en realidad una amalgama de pensamiento frecuentista y de probabilidad.
Para una visión más profunda, un buen comienzo y una referencia histórica es la probabilidad de Edwards . Para una versión moderna, recomendaría la maravillosa monografía de Richard Royall, Evidencia estadística: un paradigma de probabilidad .
fuente
Dadas todas las buenas respuestas técnicas anteriores, permítanme volver al lenguaje: la probabilidad cuantifica la anticipación (del resultado), la probabilidad cuantifica la confianza (en el modelo).
Supongamos que alguien nos reta a un "juego de juego rentable". Luego, las probabilidades nos servirán para calcular cosas como el perfil esperado de sus ganancias y pérdidas (media, moda, mediana, varianza, relación de información, valor en riesgo, ruina de jugadores, etc.). En contraste, la probabilidad nos servirá para cuantificar si confiamos en esas probabilidades en primer lugar; o si 'huele a rata'.
Por cierto, dado que alguien mencionó anteriormente las religiones de las estadísticas, creo que la razón de probabilidad es una parte integral del mundo bayesiano y también del frecuentista: en el mundo bayesiano, la fórmula de Bayes solo combina lo anterior con la probabilidad de producir posterior.
fuente
Supongamos que tiene una moneda con probabilidad para aterrizar caras y para aterrizar colas. Deje que indica caras y indica colas. Defina siguiente manerap (1−p) x=1 x=0 f
fuente
Si tengo una moneda justa (valor del parámetro), entonces la probabilidad de que salga cara es 0.5. Si lanzo una moneda 100 veces y sale cara 52 veces, entonces tiene una alta probabilidad de ser justa (el valor numérico de la probabilidad puede tomar varias formas).
fuente
A menudo, esta expresión sigue siendo una función de ambos argumentos, por lo que es más bien una cuestión de énfasis.
fuente
fuente
¿Conoces al piloto de la serie de televisión "num3ers" en la que el FBI intenta localizar la base de un criminal en serie que parece elegir a sus víctimas al azar?
El asesor matemático del FBI y hermano del agente a cargo resuelve el problema con un enfoque de máxima probabilidad. primero, supone una probabilidad de "forma de gugelhupf" que los crímenes tienen lugar en lugares si el criminal vive en el lugar . (la suposición de gugelhupf es que el criminal no cometerá un delito en su vecindario inmediato ni viajará extremadamente lejos para elegir su próxima víctima aleatoria). Este modelo describe las probabilidades para diferentes dada una fija . en otras palabras, es una función de con un parámetro fijop(x|θ) x θ x θ pθ(x)=p(x|θ) x θ .
Por supuesto, el FBI no conoce el domicilio del criminal, ni quiere predecir la próxima escena del crimen. (¡esperan encontrar al criminal primero!) es al revés, el FBI ya conoce las escenas del crimen y quiere localizar el domicilio del criminal .x θ
entonces el hermano brillante del agente del FBI tiene que intentar encontrar la más probable entre todos los valores posibles, es decir, la que maximiza para la realmente observada . por lo tanto, ahora considera como una función de con un parámetro fijo . Hablando en sentido figurado, empuja su gugelhupf en el mapa hasta que se "ajusta" de manera óptima a las escenas del crimen conocidas . entonces el FBI llama a la puerta en el centro del gugelhupf.θ θ p(x|θ) x lx(θ)=p(x|θ) θ x x θ^
Para enfatizar este cambio de perspectiva, se llama probabilidad (función) de , mientras que era la probabilidad (función) de . ambas son en realidad la misma función pero vistas desde diferentes perspectivas y con y cambiando sus roles como variable y parámetro, respectivamente.lx(θ) θ p θ ( x ) x p ( x | θ ) x θθ pθ(x) x p(x|θ) x θ
fuente