¿Puede un valor de distribución de probabilidad superior a 1 estar bien?

149

En la página de Wikipedia sobre clasificadores ingenuos de Bayes , hay esta línea:

p(height|male)=1.5789 (Una distribución de probabilidad sobre 1 está bien. Es el área bajo la curva de campana que es igual a 1.)

¿Cómo puede un valor estar bien? Pensé que todos los valores de probabilidad se expresaban en el rango . Además, dado que es posible tener dicho valor, ¿cómo se obtiene ese valor en el ejemplo que se muestra en la página?>10p1

lector de babelproof
fuente
2
Cuando vi que pensaba que podría ser la altura de la función de densidad de probabilidad, que puede ser cualquier número positivo, siempre y cuando se integre en cualquier intervalo, la integral es menor o igual a 1. Wikipedia debería corregir esa entrada.
Michael Chernick
16
Como esto podría ayudar a futuros lectores, ofrezco una traducción geométrica de la parte general de esta pregunta: "¿Cómo puede una forma cuya área no excede posiblemente extenderse más de en cualquier dirección?" Específicamente, la forma es esa parte del medio plano superior delimitada anteriormente por el gráfico del PDF y la dirección en cuestión es vertical. En el entorno geométrico (desprovisto de la interpretación de probabilidad) es fácil pensar en ejemplos, como un rectángulo de base no mayor que y la altura . 111/22
whuber
el artículo de Wikipedia ahora usa minúsculas ppara la densidad de probabilidad y mayúsculas Ppara la probabilidad
Aprillion
Voy a dejar esto aquí para el siguiente chico: en.wikipedia.org/wiki/Dirac_delta_function
Joshua
1
Vale la pena señalar que una función de distribución acumulativa (la integral del PDF) no puede ir por encima de 1. El CDF es mucho más intuitivo de usar en muchos casos.
nada101

Respuestas:

168

Esa página Wiki está abusando del lenguaje al referirse a este número como una probabilidad. Tienes razón en que no lo es. En realidad es una probabilidad por pie . Específicamente, el valor de 1.5789 (para una altura de 6 pies) implica que la probabilidad de una altura entre, por ejemplo, 5.99 y 6.01 pies está cerca del siguiente valor sin unidades:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

Este valor no debe exceder 1, como sabes. (El pequeño rango de alturas (0.02 en este ejemplo) es una parte crucial del aparato de probabilidad. Es el "diferencial" de altura, que abreviaré .) Las probabilidades por unidad de algo son llamadas densidades por analogía a otras densidades, como masa por unidad de volumen.d(height)

Las densidades de probabilidad de buena fe pueden tener valores arbitrariamente grandes, incluso infinitos.

Distribución gamma

Este ejemplo muestra la función de densidad de probabilidad para una distribución Gamma (con parámetro de forma de y escala de ). Debido a que la mayor parte de la densidad es menor que , la curva tiene que elevarse por encima de para tener un área total de como se requiere para todas las distribuciones de probabilidad.3/21/5111

Distribución beta

Esta densidad (para una distribución beta con parámetros ) se vuelve infinita en y en . ¡El área total todavía es finita (e igual a )!1/2,1/10011


El valor de 1.5789 / pie se obtiene en ese ejemplo al estimar que las alturas de los machos tienen una distribución normal con una media de 5.855 pies y una varianza de 3.50e-2 pies cuadrados. (Esto se puede encontrar en una tabla anterior). La raíz cuadrada de esa varianza es la desviación estándar, 0.18717 pies. Re-expresamos 6 pies como el número de SD de la media:

z=(65.855)/0.18717=0.7747

La división por la desviación estándar produce una relación.

dz=d(height)/0.18717

La densidad de probabilidad normal, por definición, es igual a

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(En realidad, hice trampa: simplemente le pedí a Excel que calculara NORMDIST (6, 5.855, 0.18717, FALSE). Pero realmente lo comparé con la fórmula, solo para asegurarme). Cuando eliminamos el diferencial esencial de la fórmula solo queda el número , como la sonrisa del gato de Cheshire. Nosotros, los lectores, debemos entender que el número tiene que multiplicarse por una pequeña diferencia en las alturas para producir una probabilidad.d(height)1.5789

whuber
fuente
Observo que el ejemplo dado en esa página wiki usa densidades de probabilidad en lugar de probabilidades reales para el cálculo de posteriores, presumiblemente porque el aspecto por unidad no es necesario para fines comparativos si las unidades que se comparan son las mismas. Extendiendo esto, si uno no quiere asumir la normalidad, sino que tiene datos empíricos a partir de los cuales se puede estimar la densidad, por ejemplo, una estimación de la densidad del núcleo, ¿sería válido usar una lectura en un valor dado en el eje x a partir de esto? kde como entrada para calcular posteriores en un ingenuo clasificador bayes, suponiendo igual por unidades?
babelproofreader
1
@babelproofreader Creo que los posteriores son actualizaciones bayesianas, a través de los datos de entrenamiento, de los anteriores. No está claro cómo un kde podría interpretarse de manera similar, pero no soy un experto en esta área. Su pregunta es lo suficientemente interesante como para considerar publicarla por separado.
whuber
¿Cómo se determina qué es un buen diferencial? ¿Qué pasa si hubiera elegido un diferencial de 1 en su lugar? la probabilidad sería entonces mayor que 1? Perdón por mi confusión aquí. ¿Puedes explicar?
fiacobelli
3
@tree El área de un triángulo es la mitad del producto de la longitud de su base y su altura.
whuber
1
@ user929304 Puede consultar cualquier libro de texto teórico que le atraiga: esto es parte de los fundamentos de probabilidad y estadística. Este concepto particular de densidad de probabilidad se discute muy bien en los mejores libros de texto introductorios, como Freedman, Pisani y Purves .
whuber
43

Este es un error común al no entender la diferencia entre las funciones de masa de probabilidad, donde la variable es discreta, y las funciones de densidad de probabilidad, donde la variable es continua. Vea Qué es una distribución de probabilidad :

Las funciones de probabilidad continua se definen para un número infinito de puntos en un intervalo continuo, la probabilidad en un solo punto es siempre cero. Las probabilidades se miden en intervalos, no en puntos individuales. Es decir, el área bajo la curva entre dos puntos distintos define la probabilidad de ese intervalo. Esto significa que la altura de la función de probabilidad puede ser de hecho mayor que uno. La propiedad de que la integral debe ser igual a uno es equivalente a la propiedad para distribuciones discretas de que la suma de todas las probabilidades debe ser igual a una.

Tristan
fuente
14
El NIST suele ser autoritario, pero aquí es técnicamente incorrecto (y poco gramatical): tener una probabilidad definida en "un número infinito de puntos" no implica que la "probabilidad en un solo punto sea siempre cero". Por supuesto, solo están esquivando una distracción sobre infinitas cardinalidades, pero el razonamiento aquí es engañoso. Sería mejor para ellos simplemente omitir la primera oración de la cita.
whuber
Suponiendo un PDF continuo hipotético , la probabilidad en un solo punto es, en general, infinitamente pequeña (piense en los límites en el cálculo). Si el probablemente fuera "siempre cero", entonces, por definición , no sería posible tal resultado.
nobar hace
23

Creo que una distribución uniforme continua en un intervalo proporciona un ejemplo directo para esta pregunta: en una distribución uniforme continua, la densidad en cada punto es la misma en cada punto (distribución uniforme). Además, debido a que el área debajo del rectángulo debe ser uno (así como el área debajo de la curva normal debe ser uno) ese valor de densidad debe ser porque cualquier rectángulo con base y área debe tener una altura .[a,b]1/(ba)ba11/(ba)

Entonces, el valor para la densidad uniforme en el intervalo es , en el intervalo es , ...[0,0.5]1/(0.50)=2[0,0.1]10


fuente
4

No sé si el artículo de Wikipedia se ha editado después de las publicaciones iniciales en este hilo, pero ahora dice "Tenga en cuenta que un valor mayor que 1 está bien aquí; es una densidad de probabilidad en lugar de una probabilidad, porque la altura es una variable continua. ", y al menos en este contexto inmediato, P se usa para probabilidad y p se usa para densidad de probabilidad. Sí, muy descuidado ya que el artículo usa p en algunos lugares para significar probabilidad, y en otros lugares como densidad de probabilidad.

Volver a la pregunta original "¿Puede un valor de distribución de probabilidad superior a 1 estar bien?" No, pero lo he visto hecho (ver mi último párrafo a continuación).

Aquí le mostramos cómo interpretar una probabilidad> 1. En primer lugar, tenga en cuenta que las personas pueden dar un esfuerzo del 150% y lo hacen, ya que a menudo escuchamos en deportes y, a veces, trabajamos https://www.youtube.com/watch?v=br_vSdAOHQQ . Si está seguro de que algo sucederá, esa es una probabilidad de 1. Una probabilidad de 1.5 podría interpretarse ya que está 150% seguro de que el evento sucederá, algo así como dar un esfuerzo del 150%.

Y si puede tener una probabilidad> 1, supongo que puede tener una probabilidad <0. Las probabilidades negativas se pueden interpretar de la siguiente manera. Una probabilidad de 0.001 significa que casi no hay posibilidad de que ocurra el evento. Probabilidad = 0 significa "de ninguna manera". Una probabilidad negativa, como -1.2, corresponde a "Tienes que estar bromeando".

Cuando era un niño recién salido de la escuela hace 3 décadas, fui testigo de un evento más sorprendente que romper la barrera del sonido en la aviación, es decir, romper la barrera de la unidad en la probabilidad. Un analista con un doctorado. en Física había pasado 2 años a tiempo completo (probablemente dando el 150%) desarrollando un modelo para calcular la probabilidad de detectar el objeto X, al final del cual su modelo y análisis completaron con éxito la revisión por pares de varios científicos e ingenieros estrechamente afiliados a los EE. UU. gobierno. No le diré qué es el objeto X, pero el objeto X, y la probabilidad de detectarlo, fue y sigue siendo de considerable interés para el gobierno de EE. UU. El modelo incluía una fórmula para = Prob (el evento y sucede). PyPyy algunos otros términos, todos combinados en la fórmula final, que fue Prob (se detecta el objeto X). De hecho, los valores calculados de Prob (se detecta el objeto X) estaban dentro del rango de [0,1], como es "tradicional" en probabilidad en la tradición de Kolmogorov. en su forma original siempre estaba en [0,1] e involucraba funciones trascendentales de "variedad de jardín" que estaban disponibles en Fortran estándar o en cualquier calculadora científica. Sin embargo, por una razón conocida solo pero para el analista y Dios (tal vez porque lo había visto hecho en sus clases y libros de Física, pero no sabía que le mostraron los pocos casos en los que funciona, no los muchos más en los que funciona). no, y el nombre de este tipo y el juicio científico / matemático no fueron los de Dirac),PyPy(e ignore el término restante), que en adelante se denominará . Fue esta expansión de Taylor de dos términos de que se insertó en la expresión final para Prob (se detecta el objeto X). Lo que no se dio cuenta, hasta que se lo señalé, era que era igual a aproximadamente 1.2 usando sus valores de caso base para todos los parámetros. De hecho, fue posible paraPyPyPyPysubir a aproximadamente 1.8. Y así es como la barrera de la unidad se rompió en probabilidad. Pero el tipo no sabía que había logrado esta hazaña pionera hasta que se lo señalé, después de haber realizado cálculos rápidos en una calculadora científica Casio de tamaño de tarjeta de crédito con batería en una sala de conferencias oscura (no podría haberlo hecho con una calculadora con energía solar). Sería como si Chuck Yeager saliera a dar una vuelta el domingo en su avión, y solo unos meses después se le informara que había roto la barrera del sonido.

Mark L. Stone
fuente
Buena historia. ¿Tienes más información sobre esto, como una cita?
Jay Schyler Raadt
1
@ Jay Schyler Raadt Esto está documentado en stats.stackexchange.com/questions/4220/… , ja, ja.
Mark L. Stone
0

Cuando la variable aleatoria es continua y su función de densidad de probabilidad es , es una probabilidad, pero no es una probabilidad y puede ser mayor que uno. La informada no es una probabilidad, pero es.Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

En otras palabras, para una variable aleatoria continua , , , y . Lo mismo ocurre con las probabilidades condicionales.XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0

Esmailian
fuente
-1

El valor de punto en un valor de parámetro particular de una gráfica de densidad de probabilidad sería una probabilidad, ¿verdad? Si es así, entonces la declaración podría corregirse simplemente cambiando P (altura | hombre) a L (altura | hombre).

Michael Lew
fuente