8

¿Cómo puede, por ejemplo, la distribución Gamma divergir cerca de cero (para un conjunto apropiado de parámetros de escala y forma, digamos forma y escala ), y aún así tener su área igual a uno? $=0.1$ $=10$

Según tengo entendido, el área de una distribución de densidad de probabilidad siempre debe ser igual a uno. Si toma la distribución delta dirac, que diverge en cero pero es cero en cualquier otro lugar, tiene un área igual a uno.

De alguna manera, si tomara el área de una distribución Gamma divergente, podría expresarla como el área de una distribución delta dirac, más algo más ya que no tiene un peso cero en , por lo que sería mayor que uno. $x\neq0$

¿Alguien puede explicarme dónde sale mal mi razonamiento?

probability distributions Delfina
fuente

1

Hay muchas distribuciones (como la distribución normal) que se definen en toda la línea real, son todas partes, pero tienen un área finita. Tome (el cuadrante principal de) esa distribución y gírela alrededor de la línea . Ahora tiene una distribución con la misma área que diverge en .

> 0

$> 0$

x = y

$x=y$

x = 0

$x=0$

BlueRaja - Danny Pflughoeft

Mirar hacia arriba "paradoja de Zenón" - que podría ser interesante para usted aquí

shadowtalker

@Delphine ¡Hora de tomar la teoría de la medida! ¡buena suerte!

bdeonovic

8

De alguna manera, si tomara el área de una distribución Gamma divergente, podría expresarla como el área de una distribución delta dirac, más algo más ya que tiene un peso distinto de cero en $x \neq 0$ , entonces sería más grande que uno.

Ahí es donde su razonamiento va mal: no puede expresar automáticamente ninguna función que sea infinita en $x = 0$ como una distribución delta más algo más. Después de todo, si pudieras hacer esto con $\delta(x)$ , quién puede decir que no podrías hacerlo también con $2\delta(x)$ ? O $10^{-10}\delta(x)$ ? ¿O algún otro coeficiente? Es tan válido decir que esas distribuciones son cero para $x\neq 0$ e infinito en $x = 0$ ; ¿Por qué no usar el mismo razonamiento con ellos?

En realidad, las distribuciones (en el sentido matemático de la teoría de la distribución) deberían considerarse más como funciones de funciones : se pone una función y se obtiene un número. Para la distribución delta específicamente, si pones en la función $f$ , sacas el número $f(0)$ . Las distribuciones no son funciones normales de número a número. Son más complicados y más capaces que esas funciones "ordinarias".

Esta idea de convertir una función en un número es bastante familiar para cualquiera que esté acostumbrado a lidiar con la probabilidad. Por ejemplo, la serie de momentos de distribución (media, desviación estándar, asimetría, curtosis, etc.) puede considerarse como reglas que convierten una función (la distribución de probabilidad) en un número (el momento correspondiente). Tome el valor medio / expectativa, por ejemplo. Esta regla convierte una distribución de probabilidad $P(x)$ en el número $E_P[x]$ , calculado como

E_{P} [x] = \int P (x) x d x

$E_P[x] = \int P(x)\,x\ \mathrm{d}x$ O la regla para los giros de variación

P (x)

$P(x)$ en el número

σ_{P}^{2}

$\sigma_P^2$ , dónde

σ_{P}^{2} [x] = \int P (x) (x - E_{P} [x])^{2} d x

$\sigma_P^2[x] = \int P(x)\,(x - E_P[x])^2\ \mathrm{d}x$ Mi notación es un poco extraña aquí, pero espero que entiendas la idea. ¹

Puede notar algo que estas reglas tienen en común: en todas ellas, la forma de pasar de la función al número es integrando la función por alguna otra función de ponderación. Esta es una forma muy común de representar distribuciones matemáticas. Entonces es natural preguntarse, ¿hay alguna función de ponderación? $\delta(x)$ que te permite representar la acción de una distribución delta como esta?

f \to \int δ (x) f (x) d x

$f\to \int \delta(x)\, f(x)\ \mathrm{d}x$ Puede establecer fácilmente que si existe tal función, debe ser igual a

0

$0$ en cada

x \neq 0

$x\neq 0$ . Pero no puedes obtener un valor por

δ (0)

$\delta(0)$ De este modo. Puede demostrar que es más grande que cualquier número finito, pero no hay un valor real para

δ (0)

$\delta(0)$ eso hace que esta ecuación funcione, usando las ideas estándar de integración. ²

La razón de esto es que hay más en la distribución delta que solo esto:

{\begin{cases} 0, & x \neq 0 \\ \infty, & x = 0 \end{cases}

$\begin{cases}0, & x\neq 0 \\ \infty, & x = 0\end{cases}$ Ese "

\infty

$\infty$ "es engañoso. Representa un conjunto adicional de información adicional sobre la distribución delta que las funciones normales simplemente no pueden representar. Y es por eso que no se puede decir de manera significativa que la distribución gamma es" más "que la distribución delta. Seguro , a cualquiera

x > 0

$x > 0$ , el valor de la distribución gamma es mayor que el valor de la distribución delta, pero toda la información útil sobre la distribución delta está bloqueada en ese punto en

x = 0

$x = 0$ , y esa información es demasiado rica y compleja para permitirle decir que una distribución es más que la otra.

Detalles técnicos

¹ En realidad, puede cambiar las cosas y pensar en la distribución de probabilidad en sí misma como la distribución matemática. En este sentido, la distribución de probabilidad es una regla que toma una función de ponderación, como $x$ o $(x - E[x])^2$ a un número $E[x]$ o $\sigma_x^2$ respectivamente. Si lo piensa de esa manera, la notación estándar tiene un poco más de sentido, pero creo que la idea general es un poco menos natural para una publicación sobre distribuciones matemáticas.

² Específicamente, por "ideas estándar de integración" me refiero a la integración de Riemann y la integración de Lebesgue , las cuales tienen la propiedad de que dos funciones que difieren solo en un solo punto deben tener la misma integral (dados los mismos límites). Si hubiera una función $\delta(x)$ , diferiría de la función $0$ en un solo punto, a saber $x = 0$ y, por lo tanto, las integrales de las dos funciones siempre tendrían que ser las mismas.

\int_{a}^{b} δ (x) f (x) d x = \int_{a}^{b} (0) f (x) d x = 0

$\int_a^b \delta(x)f(x)\ \mathrm{d}x = \int_a^b (0)f(x)\ \mathrm{d}x = 0$ Por lo tanto, no hay un número al que pueda asignar

δ (0)

$\delta(0)$ eso hace que reproduzca el efecto de la distribución delta.

David Z
fuente

10

El delta de Dirac realmente no es demasiado útil aquí (aunque es interesante), porque la distribución Gamma tiene una densidad continua, mientras que el Dirac es casi tan no continuo como se puede obtener.

Tiene razón en que la integral de una densidad de probabilidad debe ser una (me limitaré a las densidades definidas solo en el eje positivo),

\int_{0}^{\infty} f (x) d x = 1.

$\int_0^\infty f(x)\,dx =1.$

En el caso de Gamma, la densidad $f(x)$ diverge como $x\to 0$ , entonces tenemos lo que se llama una integral impropia . En tal caso, la integral se define como el límite a medida que los límites de integración se acercan al punto donde el integrando no está definido,

\int_{0}^{\infty} f (x) d x := lim_{a \to 0} \int_{a}^{\infty} f (x) d x,

$\int_0^\infty f(x)\,dx := \lim_{a\to 0}\int_a^\infty f(x)\,dx,$

mientras exista este límite .

(Por cierto, usamos el mismo abuso de notación para dar un significado al símbolo " $\int^\infty$ ", que se define como el límite de la integral $\int^b$ como $b\to\infty$ , de nuevo mientras exista este límite . Entonces, en este caso particular, tenemos dos puntos problemáticos: $0$ , donde el integrando no está definido, y $\infty$ , donde no podemos evaluar la integral directamente. Necesitamos trabajar con límites en ambos casos).

Para la distribución Gamma específicamente, eludimos el problema. Primero definimos la función Gamma de la siguiente manera:

Γ (k) := \int_{0}^{\infty} y^{k - 1} e^{- y} d y .

$\Gamma(k) := \int_0^\infty y^{k-1}e^{-y}\,dy.$

A continuación, demostramos que esta definición realmente tiene sentido, en el sentido de los diferentes límites descritos anteriormente. Por simplicidad, aquí podemos apegarnos a $k>0$ , aunque la definición puede extenderse a (muchos) valores complejos $k$ también. Este control es una aplicación estándar de cálculo y un buen ejercicio.

A continuación, sustituimos $x:=\theta y$ para $\theta>0$ y por el cambio de variables obtener fórmula

Γ (k) = \int_{0}^{\infty} \frac{x^{k - 1} e^{- \frac{x}{θ}}}{θ^{k}} d x,

$\Gamma(k) = \int_0^\infty \frac{x^{k-1}e^{-\frac{x}{\theta}}}{\theta^k}\,dx,$

de donde obtenemos eso

1 = \int_{0}^{\infty} \frac{x^{k - 1} e^{- \frac{x}{θ}}}{Γ (k) θ^{k}} d x .

$1 = \int_0^\infty \frac{x^{k-1}e^{-\frac{x}{\theta}}}{\Gamma(k)\theta^k}\,dx.$

Es decir, el integrando se integra a uno y, por lo tanto, es una densidad de probabilidad. Lo llamamos la distribución Gamma con forma. $k$ y escala $\theta$ .

Ahora, me doy cuenta de que realmente pasé el dinero aquí. El meollo del argumento radica en el hecho de que la definición de la función Gamma anterior tiene sentido. Sin embargo, este es un cálculo sencillo, no una estadística, por lo que solo me siento un poco culpable al referirlo a su libro de texto de cálculo favorito y la etiqueta de función gamma en Math.SO , especialmente esta pregunta y esta pregunta .

Stephan Kolassa
fuente

De hecho, debería volver a mis libros, ¡ha pasado un tiempo! ¡Gracias por la respuesta detallada!

Delphine

7

Considere una densidad exponencial estándar $f(x)=\exp(-x)\,,\:x>0$ y considerar una trama de $y=f(x)$ vs $x$ (panel izquierdo en el diagrama a continuación).

Presumiblemente no le resulta insondable que haya densidad positiva para todos $x>0$ sin embargo, el área es no obstante $1$ .

Ahora intercambiemos $x$ y $y$ ... eso se deja $x=\exp(-y)$ o $y = -\ln(x)$ , para $0<x\leq 1$ . Ahora bien, esta es una densidad válida, que asíntota a la $y$ eje (por lo que es ilimitado como $x\to 0$ ), pero su área es claramente idéntica a la exponencial (es decir, el área bajo la curva todavía debe ser 1; todo lo que hicimos fue reflejar la forma y la reflexión preserva el área).

Claramente, entonces, las densidades pueden ser ilimitadas pero tienen área 1.

Glen_b -Reinstate a Monica
fuente

4

Esta es realmente una pregunta de cálculo, en lugar de estadísticas. ¿Se pregunta cómo una función que llega al infinito en algunos valores de su argumento puede tener un área finita debajo de la curva?

Es una pregunta valida. Por ejemplo, si en lugar de la función Gamma tomaste una hipérbole: $y=1/x$ , para $x=[0,\infty)$ entonces el área debajo de la curva no converge, es infinita.

Entonces, es bastante milagroso que una suma ponderada de números muy grandes o incluso infinitos converja de alguna manera en un número finito. La suma está ponderada porque si observa la definición integral de Riemann, podría ser una suma como esta:

\int_{0}^{\infty} 1 / x d x = lim_{n \to \infty} \sum_{i = 0}^{n} \frac{Δ x_{i}}{x_{i}}

$\int_0^\infty 1/x dx=\lim_{n\rightarrow\infty} \sum_{i=0}^n \frac{\Delta x_i}{x_i}$ Entonces, dependiendo de qué puntos

x_{i}

$x_i$ tú eliges, las pesas

Δ x_{i}

$\Delta x_i$ podría ser pequeño o grande Cuando te acercas a 0,

1 / x_{i}

$1/x_i$ hacerse más grande, pero también lo hacen

Δ x_{i}

$\Delta x_i$ hacerse más pequeño En esta competencia

1 / x_{i}

$1/x_i$ gana, y la integral no converge.

Para la distribución Gamma sucede de modo que $\Delta x_i$ se reduce más rápido de lo que crece Gamma PDF, y el área termina siendo finita. Es un cálculo directo para ver cómo exactamente converge a 1.

Aksakal
fuente

0

mira el siguiente ejemplo. Tenga en cuenta que para cualquier finito $N$ ,

\int_{0}^{N} \frac{1}{x} d x = \log (N) - \log (0)

$\int_0^N \frac{1}{x} dx = \log(N)-\log(0)$

pero $\log(0)$ no está definido por lo que la integral es $\infty$ en cierto sentido (esto tiene un límite allí, pero ignóralo). Pero

\int_{0}^{N} \frac{1}{\sqrt{x}} d x = \sqrt{N} - \sqrt{0} = \sqrt{N}

$\int_0^N \frac{1}{\sqrt{x}} dx = \sqrt{N} - \sqrt{0} = \sqrt{N}$

En general, esto se basa en la idea de que

\int \frac{1}{x^{p}} d x = x^{1 - p}

$\int \frac{1}{x^p} dx = x^{1-p}$

Así que si $1-p>0$ El teorema fundamental del cálculo te dice que la integral es finita. Entonces, la idea es que diverge lo suficientemente lento (donde $p$ es la velocidad) que el área todavía está acotada.

Esto es similar a la convergencia de series. Recordemos que por la prueba p tenemos que

\sum_{0}^{\infty} \frac{1}{x^{p}}

$\sum_0^\infty \frac{1}{x^p}$

converge si y solo si $p>1$ . En este caso necesitamos $x^p \rightarrow \infty$ lo suficientemente rápido, donde una vez más $p$ es la velocidad y $1$ Es el punto de inflexión.

¿Por qué puede ser esto algo real? Piensa en el copo de nieve de Koch . En este ejemplo, sigue agregando el perímetro del copo de nieve de manera que el área crezca lentamente. Esto se debe al hecho de que si haces un triángulo equilátero con lados de tamaño $\frac{1}{3}$ , el perímetro es 1 mientras que el área es $\frac{1}{12\sqrt{3}}\sim 0.05$ . Dado que el área es mucho más pequeña que el perímetro (¡es la multiplicación de dos números pequeños en lugar de la suma!), Puede optar por agregar triángulos de tal manera que el perímetro llegue al infinito mientras el área permanece finita. Para hacerlo, debe elegir una velocidad a la que los triángulos lleguen a cero, y como probablemente ya haya adivinado, hay una velocidad en la que cambia de ser demasiado lenta y dar un área infinita a ser lo suficientemente rápida como para dar un área finita.

En total, el cálculo nos dice que no todas las singularidades (que lo que estos "van al infinito" como cero son) son iguales. Existen grandes diferencias basadas en la "velocidad local" de la singularidad. $\Gamma$ simplemente tiene una singularidad que es "lo suficientemente lenta" como para que el área sea finita. Si desea obtener más información sobre el "por qué", las singularidades funcionan de esta manera, puede profundizar en muchos más detalles en el Análisis complejo y su estudio de las singularidades de las funciones analíticas complejas (de las cuales $\Gamma$ es).

Chris Rackauckas
fuente

Eso es un montón de buenos puntos, ¡gracias! Lo recordaré

Delphine el

¿Cómo puede divergir una distribución de probabilidad?

Respuestas:

Detalles técnicos