¿Cómo puede, por ejemplo, la distribución Gamma divergir cerca de cero (para un conjunto apropiado de parámetros de escala y forma, digamos forma y escala ), y aún así tener su área igual a uno?
Según tengo entendido, el área de una distribución de densidad de probabilidad siempre debe ser igual a uno. Si toma la distribución delta dirac, que diverge en cero pero es cero en cualquier otro lugar, tiene un área igual a uno.
De alguna manera, si tomara el área de una distribución Gamma divergente, podría expresarla como el área de una distribución delta dirac, más algo más ya que no tiene un peso cero en , por lo que sería mayor que uno.
¿Alguien puede explicarme dónde sale mal mi razonamiento?
probability
distributions
Delfina
fuente
fuente
Respuestas:
Ahí es donde su razonamiento va mal: no puede expresar automáticamente ninguna función que sea infinita enx=0 como una distribución delta más algo más. Después de todo, si pudieras hacer esto conδ(x) , quién puede decir que no podrías hacerlo también con 2δ(x) ? O10−10δ(x) ? ¿O algún otro coeficiente? Es tan válido decir que esas distribuciones son cero parax≠0 e infinito en x=0 ; ¿Por qué no usar el mismo razonamiento con ellos?
En realidad, las distribuciones (en el sentido matemático de la teoría de la distribución) deberían considerarse más como funciones de funciones : se pone una función y se obtiene un número. Para la distribución delta específicamente, si pones en la funciónf , sacas el número f(0) . Las distribuciones no son funciones normales de número a número. Son más complicados y más capaces que esas funciones "ordinarias".
Esta idea de convertir una función en un número es bastante familiar para cualquiera que esté acostumbrado a lidiar con la probabilidad. Por ejemplo, la serie de momentos de distribución (media, desviación estándar, asimetría, curtosis, etc.) puede considerarse como reglas que convierten una función (la distribución de probabilidad) en un número (el momento correspondiente). Tome el valor medio / expectativa, por ejemplo. Esta regla convierte una distribución de probabilidadP(x) en el número EP[x] , calculado como
Puede notar algo que estas reglas tienen en común: en todas ellas, la forma de pasar de la función al número es integrando la función por alguna otra función de ponderación. Esta es una forma muy común de representar distribuciones matemáticas. Entonces es natural preguntarse, ¿hay alguna función de ponderación?δ(x) que te permite representar la acción de una distribución delta como esta?
La razón de esto es que hay más en la distribución delta que solo esto:
Detalles técnicos
1 En realidad, puede cambiar las cosas y pensar en la distribución de probabilidad en sí misma como la distribución matemática. En este sentido, la distribución de probabilidad es una regla que toma una función de ponderación, comox o (x−E[x])2 a un número E[x] o σ2x respectivamente. Si lo piensa de esa manera, la notación estándar tiene un poco más de sentido, pero creo que la idea general es un poco menos natural para una publicación sobre distribuciones matemáticas.
2 Específicamente, por "ideas estándar de integración" me refiero a la integración de Riemann y la integración de Lebesgue , las cuales tienen la propiedad de que dos funciones que difieren solo en un solo punto deben tener la misma integral (dados los mismos límites). Si hubiera una funciónδ(x) , diferiría de la función 0 en un solo punto, a saber x=0 y, por lo tanto, las integrales de las dos funciones siempre tendrían que ser las mismas.
fuente
El delta de Dirac realmente no es demasiado útil aquí (aunque es interesante), porque la distribución Gamma tiene una densidad continua, mientras que el Dirac es casi tan no continuo como se puede obtener.
Tiene razón en que la integral de una densidad de probabilidad debe ser una (me limitaré a las densidades definidas solo en el eje positivo),
En el caso de Gamma, la densidadf(x) diverge como x→0 , entonces tenemos lo que se llama una integral impropia . En tal caso, la integral se define como el límite a medida que los límites de integración se acercan al punto donde el integrando no está definido,
mientras exista este límite .
(Por cierto, usamos el mismo abuso de notación para dar un significado al símbolo "∫∞ ", que se define como el límite de la integral ∫b como b→∞ , de nuevo mientras exista este límite . Entonces, en este caso particular, tenemos dos puntos problemáticos:0 , donde el integrando no está definido, y ∞ , donde no podemos evaluar la integral directamente. Necesitamos trabajar con límites en ambos casos).
Para la distribución Gamma específicamente, eludimos el problema. Primero definimos la función Gamma de la siguiente manera:
A continuación, demostramos que esta definición realmente tiene sentido, en el sentido de los diferentes límites descritos anteriormente. Por simplicidad, aquí podemos apegarnos ak>0 , aunque la definición puede extenderse a (muchos) valores complejos k también. Este control es una aplicación estándar de cálculo y un buen ejercicio.
A continuación, sustituimosx:=θy para θ>0 y por el cambio de variables obtener fórmula
de donde obtenemos eso
Es decir, el integrando se integra a uno y, por lo tanto, es una densidad de probabilidad. Lo llamamos la distribución Gamma con forma.k y escala θ .
Ahora, me doy cuenta de que realmente pasé el dinero aquí. El meollo del argumento radica en el hecho de que la definición de la función Gamma anterior tiene sentido. Sin embargo, este es un cálculo sencillo, no una estadística, por lo que solo me siento un poco culpable al referirlo a su libro de texto de cálculo favorito y la etiqueta de función gamma en Math.SO , especialmente esta pregunta y esta pregunta .
fuente
Considere una densidad exponencial estándarf(x)=exp(−x),x>0 y considerar una trama de y=f(x) vs x (panel izquierdo en el diagrama a continuación).
Presumiblemente no le resulta insondable que haya densidad positiva para todosx>0 sin embargo, el área es no obstante 1 .
Ahora intercambiemosx y y ... eso se deja x=exp(−y) o y=−ln(x) , para 0<x≤1 . Ahora bien, esta es una densidad válida, que asíntota a lay eje (por lo que es ilimitado como x→0 ), pero su área es claramente idéntica a la exponencial (es decir, el área bajo la curva todavía debe ser 1; todo lo que hicimos fue reflejar la forma y la reflexión preserva el área).
Claramente, entonces, las densidades pueden ser ilimitadas pero tienen área 1.
fuente
Esta es realmente una pregunta de cálculo, en lugar de estadísticas. ¿Se pregunta cómo una función que llega al infinito en algunos valores de su argumento puede tener un área finita debajo de la curva?
Es una pregunta valida. Por ejemplo, si en lugar de la función Gamma tomaste una hipérbole:y=1/x , para x=[0,∞) entonces el área debajo de la curva no converge, es infinita.
Entonces, es bastante milagroso que una suma ponderada de números muy grandes o incluso infinitos converja de alguna manera en un número finito. La suma está ponderada porque si observa la definición integral de Riemann, podría ser una suma como esta:
Para la distribución Gamma sucede de modo queΔxi se reduce más rápido de lo que crece Gamma PDF, y el área termina siendo finita. Es un cálculo directo para ver cómo exactamente converge a 1.
fuente
mira el siguiente ejemplo. Tenga en cuenta que para cualquier finitoN ,
perolog(0) no está definido por lo que la integral es ∞ en cierto sentido (esto tiene un límite allí, pero ignóralo). Pero
En general, esto se basa en la idea de que
Así que si1−p>0 El teorema fundamental del cálculo te dice que la integral es finita. Entonces, la idea es que diverge lo suficientemente lento (dondep es la velocidad) que el área todavía está acotada.
Esto es similar a la convergencia de series. Recordemos que por la prueba p tenemos que
converge si y solo sip>1 . En este caso necesitamosxp→∞ lo suficientemente rápido, donde una vez más p es la velocidad y 1 Es el punto de inflexión.
¿Por qué puede ser esto algo real? Piensa en el copo de nieve de Koch . En este ejemplo, sigue agregando el perímetro del copo de nieve de manera que el área crezca lentamente. Esto se debe al hecho de que si haces un triángulo equilátero con lados de tamaño13 , el perímetro es 1 mientras que el área es 1123√∼0.05 . Dado que el área es mucho más pequeña que el perímetro (¡es la multiplicación de dos números pequeños en lugar de la suma!), Puede optar por agregar triángulos de tal manera que el perímetro llegue al infinito mientras el área permanece finita. Para hacerlo, debe elegir una velocidad a la que los triángulos lleguen a cero, y como probablemente ya haya adivinado, hay una velocidad en la que cambia de ser demasiado lenta y dar un área infinita a ser lo suficientemente rápida como para dar un área finita.
En total, el cálculo nos dice que no todas las singularidades (que lo que estos "van al infinito" como cero son) son iguales. Existen grandes diferencias basadas en la "velocidad local" de la singularidad.Γ simplemente tiene una singularidad que es "lo suficientemente lenta" como para que el área sea finita. Si desea obtener más información sobre el "por qué", las singularidades funcionan de esta manera, puede profundizar en muchos más detalles en el Análisis complejo y su estudio de las singularidades de las funciones analíticas complejas (de las cualesΓ es).
fuente