¿Cómo puede divergir una distribución de probabilidad?

8

¿Cómo puede, por ejemplo, la distribución Gamma divergir cerca de cero (para un conjunto apropiado de parámetros de escala y forma, digamos forma y escala ), y aún así tener su área igual a uno?=0.1=10

Según tengo entendido, el área de una distribución de densidad de probabilidad siempre debe ser igual a uno. Si toma la distribución delta dirac, que diverge en cero pero es cero en cualquier otro lugar, tiene un área igual a uno.

De alguna manera, si tomara el área de una distribución Gamma divergente, podría expresarla como el área de una distribución delta dirac, más algo más ya que no tiene un peso cero en , por lo que sería mayor que uno.x0

¿Alguien puede explicarme dónde sale mal mi razonamiento?

Delfina
fuente
1
Hay muchas distribuciones (como la distribución normal) que se definen en toda la línea real, son todas partes, pero tienen un área finita. Tome (el cuadrante principal de) esa distribución y gírela alrededor de la línea . Ahora tiene una distribución con la misma área que diverge en . >0x=yx=0
BlueRaja - Danny Pflughoeft
Mirar hacia arriba "paradoja de Zenón" - que podría ser interesante para usted aquí
shadowtalker
@Delphine ¡Hora de tomar la teoría de la medida! ¡buena suerte!
bdeonovic

Respuestas:

8

De alguna manera, si tomara el área de una distribución Gamma divergente, podría expresarla como el área de una distribución delta dirac, más algo más ya que tiene un peso distinto de cero en x0, entonces sería más grande que uno.

Ahí es donde su razonamiento va mal: no puede expresar automáticamente ninguna función que sea infinita en x=0como una distribución delta más algo más. Después de todo, si pudieras hacer esto conδ(x), quién puede decir que no podrías hacerlo también con 2δ(x)? O1010δ(x)? ¿O algún otro coeficiente? Es tan válido decir que esas distribuciones son cero parax0 e infinito en x=0; ¿Por qué no usar el mismo razonamiento con ellos?

En realidad, las distribuciones (en el sentido matemático de la teoría de la distribución) deberían considerarse más como funciones de funciones : se pone una función y se obtiene un número. Para la distribución delta específicamente, si pones en la funciónf, sacas el número f(0). Las distribuciones no son funciones normales de número a número. Son más complicados y más capaces que esas funciones "ordinarias".

Esta idea de convertir una función en un número es bastante familiar para cualquiera que esté acostumbrado a lidiar con la probabilidad. Por ejemplo, la serie de momentos de distribución (media, desviación estándar, asimetría, curtosis, etc.) puede considerarse como reglas que convierten una función (la distribución de probabilidad) en un número (el momento correspondiente). Tome el valor medio / expectativa, por ejemplo. Esta regla convierte una distribución de probabilidadP(x) en el número EP[x], calculado como

EP[x]=P(x)x dx
O la regla para los giros de variación P(x) en el número σP2, dónde
σP2[x]=P(x)(xEP[x])2 dx
Mi notación es un poco extraña aquí, pero espero que entiendas la idea. 1

Puede notar algo que estas reglas tienen en común: en todas ellas, la forma de pasar de la función al número es integrando la función por alguna otra función de ponderación. Esta es una forma muy común de representar distribuciones matemáticas. Entonces es natural preguntarse, ¿hay alguna función de ponderación?δ(x) que te permite representar la acción de una distribución delta como esta?

fδ(x)f(x) dx
Puede establecer fácilmente que si existe tal función, debe ser igual a0 en cada x0. Pero no puedes obtener un valor porδ(0)De este modo. Puede demostrar que es más grande que cualquier número finito, pero no hay un valor real paraδ(0)eso hace que esta ecuación funcione, usando las ideas estándar de integración. 2

La razón de esto es que hay más en la distribución delta que solo esto:

{0,x0,x=0
Ese ""es engañoso. Representa un conjunto adicional de información adicional sobre la distribución delta que las funciones normales simplemente no pueden representar. Y es por eso que no se puede decir de manera significativa que la distribución gamma es" más "que la distribución delta. Seguro , a cualquiera x>0, el valor de la distribución gamma es mayor que el valor de la distribución delta, pero toda la información útil sobre la distribución delta está bloqueada en ese punto en x=0, y esa información es demasiado rica y compleja para permitirle decir que una distribución es más que la otra.

Detalles técnicos

1 En realidad, puede cambiar las cosas y pensar en la distribución de probabilidad en sí misma como la distribución matemática. En este sentido, la distribución de probabilidad es una regla que toma una función de ponderación, comox o (xE[x])2a un número E[x] o σx2respectivamente. Si lo piensa de esa manera, la notación estándar tiene un poco más de sentido, pero creo que la idea general es un poco menos natural para una publicación sobre distribuciones matemáticas.

2 Específicamente, por "ideas estándar de integración" me refiero a la integración de Riemann y la integración de Lebesgue , las cuales tienen la propiedad de que dos funciones que difieren solo en un solo punto deben tener la misma integral (dados los mismos límites). Si hubiera una funciónδ(x), diferiría de la función 0 en un solo punto, a saber x=0y, por lo tanto, las integrales de las dos funciones siempre tendrían que ser las mismas.

abδ(x)f(x) dx=ab(0)f(x) dx=0
Por lo tanto, no hay un número al que pueda asignar δ(0) eso hace que reproduzca el efecto de la distribución delta.
David Z
fuente
10

El delta de Dirac realmente no es demasiado útil aquí (aunque es interesante), porque la distribución Gamma tiene una densidad continua, mientras que el Dirac es casi tan no continuo como se puede obtener.

Tiene razón en que la integral de una densidad de probabilidad debe ser una (me limitaré a las densidades definidas solo en el eje positivo),

0f(x)dx=1.

En el caso de Gamma, la densidad f(x) diverge como x0, entonces tenemos lo que se llama una integral impropia . En tal caso, la integral se define como el límite a medida que los límites de integración se acercan al punto donde el integrando no está definido,

0f(x)dx:=lima0af(x)dx,

mientras exista este límite .

(Por cierto, usamos el mismo abuso de notación para dar un significado al símbolo "", que se define como el límite de la integral b como b, de nuevo mientras exista este límite . Entonces, en este caso particular, tenemos dos puntos problemáticos:0, donde el integrando no está definido, y , donde no podemos evaluar la integral directamente. Necesitamos trabajar con límites en ambos casos).

Para la distribución Gamma específicamente, eludimos el problema. Primero definimos la función Gamma de la siguiente manera:

Γ(k):=0yk1eydy.

A continuación, demostramos que esta definición realmente tiene sentido, en el sentido de los diferentes límites descritos anteriormente. Por simplicidad, aquí podemos apegarnos ak>0, aunque la definición puede extenderse a (muchos) valores complejos ktambién. Este control es una aplicación estándar de cálculo y un buen ejercicio.

A continuación, sustituimos x:=θy para θ>0 y por el cambio de variables obtener fórmula

Γ(k)=0xk1exθθkdx,

de donde obtenemos eso

1=0xk1exθΓ(k)θkdx.

Es decir, el integrando se integra a uno y, por lo tanto, es una densidad de probabilidad. Lo llamamos la distribución Gamma con forma.k y escala θ.

Ahora, me doy cuenta de que realmente pasé el dinero aquí. El meollo del argumento radica en el hecho de que la definición de la función Gamma anterior tiene sentido. Sin embargo, este es un cálculo sencillo, no una estadística, por lo que solo me siento un poco culpable al referirlo a su libro de texto de cálculo favorito y la etiqueta de función gamma en Math.SO , especialmente esta pregunta y esta pregunta .

Stephan Kolassa
fuente
De hecho, debería volver a mis libros, ¡ha pasado un tiempo! ¡Gracias por la respuesta detallada!
Delphine
7

Considere una densidad exponencial estándar f(x)=exp(x),x>0 y considerar una trama de y=f(x) vs x (panel izquierdo en el diagrama a continuación).

Presumiblemente no le resulta insondable que haya densidad positiva para todos x>0 sin embargo, el área es no obstante 1.

Ahora intercambiemos x y y ... eso se deja x=exp(y)o y=ln(x), para 0<x1. Ahora bien, esta es una densidad válida, que asíntota a lay eje (por lo que es ilimitado como x0), pero su área es claramente idéntica a la exponencial (es decir, el área bajo la curva todavía debe ser 1; todo lo que hicimos fue reflejar la forma y la reflexión preserva el área).

ingrese la descripción de la imagen aquí

Claramente, entonces, las densidades pueden ser ilimitadas pero tienen área 1.

Glen_b -Reinstate a Monica
fuente
4

Esta es realmente una pregunta de cálculo, en lugar de estadísticas. ¿Se pregunta cómo una función que llega al infinito en algunos valores de su argumento puede tener un área finita debajo de la curva?

Es una pregunta valida. Por ejemplo, si en lugar de la función Gamma tomaste una hipérbole:y=1/x, para x=[0,) entonces el área debajo de la curva no converge, es infinita.

ingrese la descripción de la imagen aquí

Entonces, es bastante milagroso que una suma ponderada de números muy grandes o incluso infinitos converja de alguna manera en un número finito. La suma está ponderada porque si observa la definición integral de Riemann, podría ser una suma como esta:

01/xdx=limni=0nΔxixi
Entonces, dependiendo de qué puntos xi tú eliges, las pesas Δxipodría ser pequeño o grande Cuando te acercas a 0,1/xi hacerse más grande, pero también lo hacen Δxihacerse más pequeño En esta competencia1/xi gana, y la integral no converge.

Para la distribución Gamma sucede de modo que Δxise reduce más rápido de lo que crece Gamma PDF, y el área termina siendo finita. Es un cálculo directo para ver cómo exactamente converge a 1.

Aksakal
fuente
0

mira el siguiente ejemplo. Tenga en cuenta que para cualquier finitoN,

0N1xdx=log(N)log(0)

pero log(0) no está definido por lo que la integral es en cierto sentido (esto tiene un límite allí, pero ignóralo). Pero

0N1xdx=N0=N

En general, esto se basa en la idea de que

1xpdx=x1p

Así que si 1p>0El teorema fundamental del cálculo te dice que la integral es finita. Entonces, la idea es que diverge lo suficientemente lento (dondep es la velocidad) que el área todavía está acotada.

Esto es similar a la convergencia de series. Recordemos que por la prueba p tenemos que

01xp

converge si y solo si p>1. En este caso necesitamosxp lo suficientemente rápido, donde una vez más p es la velocidad y 1 Es el punto de inflexión.

¿Por qué puede ser esto algo real? Piensa en el copo de nieve de Koch . En este ejemplo, sigue agregando el perímetro del copo de nieve de manera que el área crezca lentamente. Esto se debe al hecho de que si haces un triángulo equilátero con lados de tamaño13, el perímetro es 1 mientras que el área es 11230.05. Dado que el área es mucho más pequeña que el perímetro (¡es la multiplicación de dos números pequeños en lugar de la suma!), Puede optar por agregar triángulos de tal manera que el perímetro llegue al infinito mientras el área permanece finita. Para hacerlo, debe elegir una velocidad a la que los triángulos lleguen a cero, y como probablemente ya haya adivinado, hay una velocidad en la que cambia de ser demasiado lenta y dar un área infinita a ser lo suficientemente rápida como para dar un área finita.

En total, el cálculo nos dice que no todas las singularidades (que lo que estos "van al infinito" como cero son) son iguales. Existen grandes diferencias basadas en la "velocidad local" de la singularidad.Γsimplemente tiene una singularidad que es "lo suficientemente lenta" como para que el área sea finita. Si desea obtener más información sobre el "por qué", las singularidades funcionan de esta manera, puede profundizar en muchos más detalles en el Análisis complejo y su estudio de las singularidades de las funciones analíticas complejas (de las cualesΓ es).

Chris Rackauckas
fuente
Eso es un montón de buenos puntos, ¡gracias! Lo recordaré
Delphine el