“El área total debajo de una función de densidad de probabilidad es 1”, ¿en relación con qué?

20

Conceptualmente, entiendo el significado de la frase "el área total debajo de un PDF es 1". Debe significar que las posibilidades de que el resultado esté en el intervalo total de posibilidades es del 100%.

Pero realmente no puedo entenderlo desde un punto de vista "geométrico". Si, por ejemplo, en un PDF el eje x representa la longitud, ¿el área total debajo de la curva no aumentaría si x se midiera en mm en lugar de km?

Siempre trato de imaginar cómo se vería el área debajo de la curva si la función se aplanara en línea recta. ¿La altura (posición en el eje y) de esa línea sería la misma para cualquier PDF, o tendría un valor contingente en el intervalo en el eje x para el que se define la función?

TheChymera
fuente
Podría cambiar la escala del eje de km a mm, pero ¿a qué equivaldría? Aún tendría exactamente la misma imagen y seis ceros más para las unidades en el eje . Puede acercar o alejar si lo desea, pero eso no cambiaría la imagen. Mientras tanto, si la curva pdf es una línea horizontal recta (lo que implica una distribución uniforme), su posición en el eje no depende de las unidades del eje sino solo de la longitud del intervalo en el eje . No estoy seguro de lo útil que es para usted, pero para mí la idea de acercar y alejar hace que sea más fácil de entender. x yxxyxxx
Richard Hardy
2
Eso parece ser cierto. Pero eso es como usar una lupa (ciertamente extraña) que se amplía en dirección horizontal en 1000 y, al mismo tiempo, se reduce proporcionalmente en dirección vertical. Pero la esencia de la imagen no cambiará si solo cambia la escala.
Richard Hardy
2
Esta pregunta me parece ser la misma que se hizo (de una manera diferente) y se respondió en stats.stackexchange.com/questions/4220/… .
whuber
1
@amoeba, sí, aunque muchos pueden sentirse obligados a votar por la respuesta más larga en reconocimiento del esfuerzo realizado (lo que también hice, por cierto), Aksakal respondió mi pregunta de manera mucho más clara y sucinta. Para ser justos, diría que la respuesta de Silverfish también ayudó y entraría en un segundo lugar.
TheChymera
2
@amoeba Una dirección de respuesta completamente diferente podría haber sido centrarse en el hecho de que los PDF son derivados de los CDF, por lo que el área debajo del PDF es simplemente el valor límite del CDF, que es claramente uno, independientemente de las unidades utilizadas. Tuve la tentación de incluir una sección corta sobre esto, pero sentí que mi respuesta ya era lo suficientemente larga (y además, la clave del problema del OP parecía ser el problema de las unidades, que el enfoque de la FCD más bien evita).
Silverfish

Respuestas:

14

La función de densidad de probabilidad se mide en porcentajes por unidad de medida de su eje x. Digamos que en un punto dado su PDF es igual a 1000. Esto significa que la probabilidad de es donde está en metros. Si cambia las unidades a centímetros, la probabilidad no debería cambiar para el mismo intervalo, pero el mismo intervalo tiene 100 centímetros más que metros, por lo que y resolver obtenemos . Hay 100 veces menos unidades de probabilidad (porcentajes) por centímetro que por metro.x0x0<x<x0+dx1000dxdx1000dx=PDF(x0)100dxPDF(x0)=PDF(x0)100

Aksakal
fuente
46

Podría ayudarlo a darse cuenta de que el eje vertical se mide como una densidad de probabilidad . Entonces, si el eje horizontal se mide en km, entonces el eje vertical se mide como una densidad de probabilidad "por km". Supongamos que dibujamos un elemento rectangular en dicha cuadrícula, que tiene 5 "km" de ancho y 0.1 "por km" de alto (que tal vez prefiera escribir como "km "). El área de este rectángulo es de 5 km x 0.1 km = 0.5. Las unidades se cancelan y nos queda solo una probabilidad de la mitad.- 111

Si cambia las unidades horizontales a "metros", tendría que cambiar las unidades verticales a "por metro". El rectángulo ahora tendría 5000 metros de ancho y tendría una densidad (altura) de 0,0001 por metro. Aún te queda una probabilidad de la mitad. Es posible que se preocupe por lo extraño que se verán estos dos gráficos en la página en comparación entre sí (¿no tiene que ser mucho más ancho y más corto que el otro?), Pero cuando está dibujando físicamente las tramas, puede usar lo que sea escala que te gusta. Mire a continuación para ver qué poca rareza necesita estar involucrada.

Puede resultarle útil considerar los histogramas antes de pasar a las curvas de densidad de probabilidad. En muchos sentidos son análogos. El eje vertical de un histograma es la densidad de frecuencia [por unidad ]x y las áreas representan frecuencias, nuevamente porque las unidades horizontales y verticales se cancelan al multiplicarse. La curva PDF es una especie de versión continua de un histograma, con una frecuencia total igual a uno.

Una analogía aún más cercana es un histograma de frecuencia relativa : decimos que dicho histograma se ha "normalizado", de modo que los elementos de área ahora representan proporciones de su conjunto de datos original en lugar de frecuencias sin procesar, y el área total de todas las barras es una. Las alturas son ahora densidades de frecuencia relativas [por unidad ]x . Si un histograma de frecuencia relativa tiene una barra que corre a lo largo dexvalores de 20 km a 25 km (por lo que el ancho de la barra es de 5 km) y tiene una densidad de frecuencia relativa de 0.1 por km, entonces esa barra contiene una proporción de 0.5 de los datos. Esto corresponde exactamente a la idea de que un elemento elegido al azar de su conjunto de datos tiene un 50% de probabilidad de estar en esa barra. El argumento anterior sobre el efecto de los cambios en las unidades todavía se aplica: compare las proporciones de datos que se encuentran en la barra de 20 km a 25 km con la de la barra de 20,000 metros a 25,000 metros para estas dos parcelas. También puede confirmar aritméticamente que las áreas de todas las barras suman uno en ambos casos.

Histogramas de frecuencia relativa con diferentes unidades.

¿Qué podría haber querido decir con mi afirmación de que el PDF es una "especie de versión continua de un histograma"? Tomemos una pequeña franja bajo una curva de densidad de probabilidad, a lo largo de los valores de en el intervalo , de modo que la franja sea ancho, y la altura de la curva sea aproximadamente . Podemos dibujar una barra de esa altura, cuya área representa la probabilidad aproximada de estar en esa tira.[ x , x + δ x ] δ x f ( x ) f ( x )x[x,x+δx]δxf(x)f(x)δx

¿Cómo podríamos encontrar el área bajo la curva entre y ? Podríamos subdividir ese intervalo en pequeñas tiras y tomar la suma de las áreas de las barras, , que correspondería a la probabilidad aproximada de estar en el intervalo . Vemos que la curva y las barras no se alinean con precisión, por lo que hay un error en nuestra aproximación. Al hacer cada vez más pequeño para cada barra, llenamos el intervalo con barras más y más estrechas, cuya proporciona una mejor estimación del área.x = b f ( x )x=ax=b[ a , b ] δ x f ( x )f(x)δx[a,b]δxf(x)δx

Para calcular el área con precisión, en lugar de suponer que era constante en cada tira, evaluamos la integral , y esto corresponde a la verdadera probabilidad de estar en el intervalo . La integración sobre toda la curva da un área total (es decir, probabilidad total), por la misma razón que sumar las áreas de todas las barras de un histograma de frecuencia relativa da un área total (es decir, la proporción total) de uno. La integración es en sí misma una especie de versión continua de tomar una suma.b a f ( x ) d x [ a , b ]f(x)abf(x)dx[a,b]

ingrese la descripción de la imagen aquí

Código R para parcelas

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)
Lepisma
fuente
lo has clavado con las dos primeras líneas, pero el resto es igual de bueno.
PatrickT
2
f(x)=F(x)
1
@Silverfish: ¡Esta es la primera vez que veo a alguien usar el término "penny drops" en inglés!
Mehrdad
1
El primer gráfico parece alguien volteando el pájaro :)
Aksakal
1
@Aksakal Ooof. No me di cuenta de eso. Debo recordar no usar ese ejemplo en clase sin algunas modificaciones. (En la misma línea, cuando invento un problema para resolver en el tablero, hay ciertos números como 69 que trato de evitar aparecer. La experiencia es difícil de ganar.)
Silverfish
7

Ya obtuvo dos respuestas, con una excelente de Silverfish , sin embargo, creo que una ilustración podría ser útil aquí ya que usted preguntó sobre geometría e "imaginando" esas funciones.

Comencemos con un ejemplo simple de distribución de Bernoulli :

f(x)={pif x=1,1pif x=0.

ingrese la descripción de la imagen aquí

Dado que los valores son discretos, no hay una "curva" sino solo dos puntos, sin embargo, la idea es similar: si desea conocer la probabilidad total (área debajo de la curva) debe sumar las probabilidades de ambos posibles resultados:

p+(1p)=1

p1p

xxf(x)x1x11#{xi}=N#{xi}/N=1N

ingrese la descripción de la imagen aquí

xx. Entonces, si hubiera puntos, no podría verlos sin importar cuánto "acercara", ya que siempre podría haber un número infinito de puntos más pequeños entre cualquier punto dado. Debido a eso aquí, en realidad tenemos una curva: puedes imaginar que está hecha de infinitos "puntos". Podrías preguntarte: ¿cómo calcular una suma de un número infinito de probabilidades ...? En el gráfico debajo de la curva roja hay un PDF normal y los cuadros negros son un histograma de algunos valores extraídos de la distribución. Entonces, el diagrama del histograma ha simplificado nuestra distribución al número finito de "cajas" con un cierto anchoy si sumara las alturas de las cajas multiplicadas por su ancho, terminaría con un área debajo de la curva, o área de todas las cajas. Usamos áreas en lugar de puntos aquí, ya que cada cuadro es un resumen de un número infinito de "puntos" que se empaquetaron en el cuadro.

ingrese la descripción de la imagen aquí

f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0.511

11f(x).

ab33

abf(x)dx

f(x)dx

También preguntaste sobre la distribución "plana" (uniforme) :

ingrese la descripción de la imagen aquí

<a<b<11εpequeño ... Entonces este es un caso complicado y podrías imaginarlo en términos abstractos. Tenga en cuenta que, como Ilmari Karonen notó en el comentario, esta es más bien una idea abstracta que no es realmente posible en la práctica (ver el comentario a continuación). Si se utiliza dicha distribución como un previo, sería un previo incorrecto .

1

Tim
fuente
1
1XY(,)|X|<|Y|
Tienes razón, "complicado" es demasiado informal. Haré correcciones más adelante.
Tim
0

La siguiente idea clave se mencionó en un comentario, pero no en una respuesta existente ...

Una forma de intuir acerca de las propiedades de un PDF es considerar que el PDF y el CDF están relacionados por integración (cálculo), y que el CDF tiene una salida monotónica que representa un valor de probabilidad entre 0 y 1.

El área total integrada sin unidades debajo de la curva PDF no se ve afectada por las unidades del eje X.

Para hacerlo mas simple...

Area = Width x Height

Si el eje X se hace más grande, numéricamente, debido a un cambio en las unidades, entonces el eje Y debe reducirse en un factor lineal correspondiente .

sin bar
fuente