¿Cuál es la diferencia entre la varianza finita e infinita?

33

¿Cuál es la diferencia entre la varianza finita e infinita? Mi conocimiento de estadísticas es bastante básico; Wikipedia / Google no fue de mucha ayuda aquí.

AfterWorkGuinness
fuente
8
Las distribuciones con variación infinita son de cola pesada ; hay muchos valores atípicos y pueden tener propiedades diferentes de las que uno está acostumbrado a ver. Por ejemplo, la media muestral de muestras extraídas de una distribución Cauchy tiene la misma distribución (Cauchy) que las muestras individuales. Esto es bastante diferente de la creencia habitual de que la media de la muestra es un mejor "estimador" que cualquier muestra individual.
Dilip Sarwate
44
No, cola larga no es lo mismo que tener una variación infinita, o al menos, no desde mi punto de vista. Sin embargo, no soy un estadístico, por lo que debe esperar una respuesta más autorizada de usuarios altamente calificados en este foro.
Dilip Sarwate
44
La varianza infinita ocurre cuando la integral (suma) que define la varianza de la población aumenta más allá de cualquier límite finito a medida que se toma el límite. Una discusión de ejemplos aquí
Glen_b -Reinstate Monica
2
Creo que lo más importante es que la mayoría de los teoremas del límite central no se cumplen para dicha población y, por lo tanto, algunos resultados comunes colapsarán.
Henry.L
1
Punto importante: si la varianza de una población es infinita, pero la varianza de una muestra es finita, entonces cualquier estimación de la varianza de la población o la desviación estándar utilizando una estadística de muestra como , o , entonces estará bastante sesgado. Dado que muchas estadísticas de prueba se basan en una medida de efecto normalizada sobre un error estándar estimado del efecto, y dado que tantos IC se basan en una escala de un error estándar estimado, esto significa que la inferencia estadística sobre variables con varianza infinita probablemente ser bastante mal sesgada . s ss2ssnorte
Alexis

Respuestas:

48

¿Qué significa que una variable aleatoria tenga "varianza infinita"? ¿Qué significa que una variable aleatoria tenga una expectativa infinita? La explicación en ambos casos es bastante similar, así que comencemos con el caso de la expectativa, y luego la variación después de eso.

Sea una variable aleatoria continua (RV) (nuestras conclusiones serán válidas de manera más general, para el caso discreto, reemplace integral por suma). Para simplificar la exposición, supongamos que X 0 .XX0 0

Su expectativa está definida por la integral cuando esa integral existe, es decir, es finita. De lo contrario, decimos que la expectativa no existe. Esa es una integral impropia, y por definición es 0 x f ( x )

miX=0 0XF(X)reX
Para que ese límite sea finito, la contribución de la cola debe desaparecer, es decir, debemos tener lim a a x f ( x )
0 0XF(X)reX=limuna0 0unaXF(X)reX
Una condición necesaria (pero no suficiente) para que ese sea el caso es lim x x f ( x ) = 0 . Lo que dice la condición mostrada anteriormente es que lacontribución a la expectativa de la cola (derecha) debe desaparecer. Si no es así, la expectativaestá dominada por contribuciones de valores realizados arbitrariamente grandes. En la práctica, eso significará que los medios empíricos serán muy inestables, porqueestarán dominados por los valores poco frecuentes muy grandes realizados
limunaunaXF(X)reX=0 0
limXXF(X)=0 0. Y tenga en cuenta que esta inestabilidad de los medios de muestra no desaparecerá con muestras grandes, ¡es una parte integrada del modelo!

En muchas situaciones, eso parece poco realista. Digamos un modelo de seguro (de vida), entonces modela alguna vida (humana). Sabemos que, digamos, X > 1000 no ocurre, pero en la práctica usamos modelos sin un límite superior. La razón es clara: No dura se conoce límite superior, si una persona es (por ejemplo) 110 años de edad, no hay ninguna razón por la que no puede vivo un año más! Entonces, un modelo con un límite superior duro parece artificial. Aún así, no queremos que la cola superior extrema tenga mucha influencia.XX>1000

Si tiene una expectativa finita, entonces podemos cambiar el modelo para que tenga un límite superior duro sin influencia indebida en el modelo. En situaciones con un límite superior difuso que parece bueno. Si el modelo tiene una expectativa infinita, entonces, ¡cualquier límite superior duro que le presentemos tendrá consecuencias dramáticas! Esa es la verdadera importancia de la expectativa infinita.X

Con expectativas finitas, podemos ser confusos acerca de los límites superiores. Con una expectativa infinita, no podemos .

Ahora, se puede decir lo mismo sobre la varianza infinita, mutatis mutandi.

Para aclarar, veamos un ejemplo. Para el ejemplo, utilizamos la distribución de Pareto, implementada en el actuar del paquete R (en CRAN) como pareto1 --- distribución de Pareto de un solo parámetro, también conocida como distribución de Pareto tipo 1. Tiene función de densidad de probabilidad dada por para algunos parámetrosm>0,α>0. Cuandoα>1la expectativa existe y está dada porα

F(X)={αmetroαXα+1,Xmetro0 0,X<metro
metro>0 0,α>0 0α>1. Cuandoα1la expectativa no existe, o como decimos, es infinita, porque la integral que la define diverge al infinito. Podemos definir ladistribucióndelprimer momento(ver la publicación ¿Cuándo usaríamos tantiles y medial, en lugar de cuantiles y la mediana? Para obtener información y referencias) como (esto existe independientemente de si la expectativa en sí misma existe ) (Edición posterior: inventé el nombre "distribución de primer momento, luego supe que esto está relacionado con lo que es" oficialmente "nombres demomentos parcialesαα-1metroα1
mi(METRO)=metroMETROXF(X)reX=αα-1(metro-metroαMETROα-1)
)

Cuando existe la expectativa ( ) podemos dividirlo para obtener la distribución relativa del primer momento, dada por Cuando es un poco más grande que uno, por lo que la expectativa "apenas existe", la integral que define la expectativa convergerá lentamente. Veamos el ejemplo con . Tracemos entonces con la ayuda de R:E r ( M ) = E ( m ) / E ( ) = 1 - ( mα>1

mir(METRO)=mi(metro)/ /mi()=1-(metroMETRO)α-1
αmetro=1,α=1,2mir(METRO)
### Function for opening new plot file:
open_png  <-  function(filename) png(filename=filename,
                                     type="cairo-png")

library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm   and used some times at cross validated

m  <-  1.0
alpha <- 1.2
# Expectation:
E   <-  m * (alpha/(alpha-1))
# upper limit for plots:
upper  <- qpareto1(0.99, alpha, m)   
#
open_png("first_moment_dist1.png")
Er  <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function,  giving
#   what we may call "expectation quantiles":
Er_inv  <-   function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))     

plot(function(M) Er(M, m, alpha), from=1.0,  to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0,  to=upper, add=TRUE,  col="red")
dev.off()

que produce esta trama:

ingrese la descripción de la imagen aquí

Por ejemplo, de este gráfico puede leer que aproximadamente el 50% de la contribución a la expectativa proviene de observaciones superiores a alrededor de 40. Dado que la expectativa de esta distribución es 6, ¡eso es asombroso! (esta distribución no tiene una varianza existente. Para eso necesitamos ).μα>2

La función Er_inv definida anteriormente es la distribución inversa relativa del primer momento, análoga a la función cuantil. Tenemos:

> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example   
eq  <-  Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq

> > > [1] 0.984375
> [1] 32
> 

¡Esto muestra que el 50% de las contribuciones a la expectativa proviene de la cola superior del 1.5% de la distribución! Entonces, especialmente en muestras pequeñas donde hay una alta probabilidad de que la cola extrema no esté representada, la media aritmética, aunque sigue siendo un estimador imparcial de la expectativa , debe tener una distribución muy sesgada. Investigaremos esto por simulación: primero usamos un tamaño de muestra .μnorte=5 5

set.seed(1234)
n  <-  5
N  <-  10000000  # Number of simulation replicas
means  <-  replicate(N,  mean(rpareto1(n, alpha, m) ))


> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136

Para obtener una gráfica legible, solo mostramos el histograma de la parte de la muestra con valores inferiores a 100, que es una parte muy grande de la muestra.

open_png("mean_sim_hist1.png")
hist(means[means<=100],  breaks=100, probability=TRUE)
dev.off()

ingrese la descripción de la imagen aquí

La distribución de los medios aritméticos es muy sesgada,

> sum(means <= 6)/N
[1] 0.8596413
> 

Casi el 86% de las medias empíricas son menores o iguales que la media teórica, la expectativa. Eso es lo que debemos esperar, ya que la mayor parte de la contribución a la media proviene de la cola superior extrema, que no está representada en la mayoría de las muestras .

Necesitamos volver a evaluar nuestra conclusión anterior. Si bien la existencia de la media hace posible ser confuso sobre los límites superiores, vemos que cuando "la media apenas existe", lo que significa que la integral es lentamente convergente, no podemos ser tan confusos sobre los límites superiores . Las integrales lentamente convergentes tienen la consecuencia de que podría ser mejor utilizar métodos que no supongan que existe la expectativa . Cuando la integral converge muy lentamente, en la práctica es como si no convergiera en absoluto. ¡Los beneficios prácticos que se derivan de una integral convergente es una quimera en el caso lentamente convergente! Esa es una forma de entender la conclusión de NN Taleb en http://fooledbyrandomness.com/complexityAugust-06.pdf

kjetil b halvorsen
fuente
2
Fantástica respuesta.
Karl
2

La varianza es la medida de dispersión de la distribución de valores de una variable aleatoria. No es la única medida, por ejemplo, la desviación absoluta media es una de las alternativas.

La variación infinita significa que los valores aleatorios no tienden a concentrarse demasiado alrededor de la media . Podría significar que hay una probabilidad suficientemente grande de que el próximo número aleatorio esté muy lejos de la media.

Las distribuciones como Normal (Gaussian) pueden producir números aleatorios muy lejos de la media, pero la probabilidad de tales eventos disminuye muy rápidamente con la magnitud de la desviación.

En ese sentido, cuando observa el diagrama de distribución de Cauchy o una distribución gaussiana (normal), no se ven muy diferentes visualmente. Sin embargo, si intenta calcular la varianza de la distribución de Cauchy, será infinita, mientras que la de Gauss es finita. Entonces, la distribución normal es más ajustada alrededor de su media en comparación con la de Cauchy's.

Por cierto, si hablas con matemáticos, insistirán en que la distribución de Cauchy no tiene una media bien definida, que es infinita. Esto suena ridículo para los físicos que señalarían el hecho de que Cauchy es simétrico, por lo tanto, seguramente tendrá un significado. En este caso, argumentarían que el problema está en su definición de media, no en la distribución de Cauchy.

Aksakal
fuente
2
-
1
@kjetilbhalvorsen, "ningún matemático diría que el Cauchy tiene una media infinita"; esa media no está bien definida es exactamente lo que me dijo mi profesor de estadísticas, mientras que mi consejero de Theor Physcis se sorprendió de que haya una pregunta sobre la media, "por supuesto que es cero, y si no estás de acuerdo, entonces hay algo mal con tu definición de media"
Aksakal
¿Le preguntaste sobre su definición de la media?
kjetil b halvorsen
@kjetilbhalvorsen, Riemann integral si estás hablando del profesor de matemáticas. Su argumento es que en la suma de Riemann no se define un cierto orden de suma o partición de suma, por lo que su suma será infinita. El punto de los físicos es una simetría, claramente, "tiene que ser cero"
Aksakal
1
Entonces quizás puedas decirle que definió la mediana, no la media.
kjetil b halvorsen
2

Una forma alternativa de mirar es mediante la función cuantil.

Q(F(X))=X

Entonces podemos calcular un momento o expectativa

mi(T(X))=-T(X)F(X)reX

F(X)reX=reF

mi(T(X))=0 01T(Q(F))reF

T(X)=XX=0 0T(X)<0 0X=0 0π

Cauchy versus Normal

Las curvas en la imagen muestran cuánto contribuye cada cuantil en el cálculo.

T(Q(F))

Este infinito puede no ser tan extraño ya que la distancia del integrando en sí (media) o la distancia al cuadrado (varianza) puede volverse infinita. Es solo una pregunta cuánto peso , cuánto porcentaje de F tienen esas colas infinitas.

En la suma / integración de la distancia desde cero (media) o la distancia al cuadrado desde la media (varianza), un solo punto que está muy lejos tendrá más influencia en la distancia promedio (o distancia al cuadrado) que muchos puntos cercanos.

Por lo tanto, cuando nos movemos hacia el infinito, la densidad puede disminuir, pero la influencia en la suma de una cantidad (creciente), por ejemplo, la distancia o la distancia al cuadrado, no cambia necesariamente.

X2X12norte((2X)norte)212norte

Sexto Empírico
fuente
1

X

pags(k)=do/ /El |kEl |3kZ{0 0}pags(0 0)=0 0do=(2ζ(3))-1: =(2k=11/ /k3)-1<miX∣ <2k=1k2/ /El |kEl |3=2k=1k-1=

ζ(X): =k=1k-X

John Jiang
fuente
44
0 0-