Convergencia en probabilidad vs. convergencia casi segura

67

Nunca he asimilado la diferencia entre estas dos medidas de convergencia. (O, de hecho, cualquiera de los diferentes tipos de convergencia, pero menciono estos dos en particular debido a las leyes débiles y fuertes de los números grandes).

Claro, puedo citar la definición de cada uno y dar un ejemplo en el que difieren, pero aún no lo entiendo.

¿Cuál es una buena manera de entender la diferencia? ¿Por qué es importante la diferencia? ¿Hay un ejemplo particularmente memorable en el que difieren?

raegtin
fuente
También la respuesta a esto: stats.stackexchange.com/questions/72859/…
kjetil b halvorsen

Respuestas:

67

Desde mi punto de vista, la diferencia es importante, pero en gran medida por razones filosóficas. Supongamos que tiene algún dispositivo, que mejora con el tiempo. Por lo tanto, cada vez que usa el dispositivo, la probabilidad de que falle es menor que antes.

La convergencia en la probabilidad dice que la probabilidad de falla va a cero a medida que el número de usos va al infinito. Entonces, después de usar el dispositivo una gran cantidad de veces, puede estar seguro de que funcionará correctamente, aún podría fallar, es muy poco probable.

La convergencia casi seguramente es un poco más fuerte. Dice que el número total de fallas es finito . Es decir, si cuenta el número de fallas a medida que el número de usos llega al infinito, obtendrá un número finito. El impacto de esto es el siguiente: a medida que usa el dispositivo cada vez más, después de un número finito de usos, agota todas las fallas. A partir de entonces, el dispositivo funcionará perfectamente .

Como señala Srikant, en realidad no sabes cuándo has agotado todas las fallas, por lo que desde un punto de vista puramente práctico, no hay mucha diferencia entre los dos modos de convergencia.

Sin embargo, personalmente estoy muy contento de que, por ejemplo, exista una ley fuerte de grandes números, en lugar de solo la ley débil. Porque ahora, un experimento científico para obtener, por ejemplo, la velocidad de la luz, está justificado para tomar promedios. Al menos en teoría, después de obtener suficientes datos, puede acercarse arbitrariamente a la verdadera velocidad de la luz. No habrá fallas (por improbables que sean) en el proceso de promedio.

δ>0nX1,X2,,Xnμ

Sn=1nk=1nXk.
nSnn=1,2,Xn
P(|Snμ|>δ)0
n|Snμ|δI(|Snμ|>δ)|Snμ|>δ
n=1I(|Snμ|>δ)
Snn0|Snμ|<δn>n0n>n0
Robby McKilliam
fuente
1
¡Gracias, me gusta la convergencia del punto de vista de series infinitas!
raegtin
1
Creo que te referías a contable y no necesariamente finito, ¿me equivoco? ¿O me estoy mezclando con integrales?
Royi
Para ser más exactos, el conjunto de eventos que ocurre (o no) es con una medida de cero -> probabilidad de que ocurra cero.
Royi
n0n0
33

Sé que esta pregunta ya ha sido respondida (y bastante bien, en mi opinión), pero había una pregunta diferente aquí que tenía un comentario @NRH que mencionaba la explicación gráfica, y en lugar de poner las imágenes allí , parecería más apropiado ponlos aquí.

Entonces, aquí va. No es tan genial como un paquete R. Pero es autónomo y no requiere una suscripción a JSTOR.

Xi=±1

Snn=1ni=1nXi,n=1,2,.

Ley fuerte de grandes números

El SLLN (convergencia casi segura) dice que podemos estar 100% seguros de que esta curva que se extiende hacia la derecha eventualmente, en algún momento finito, caerá completamente dentro de las bandas para siempre (hacia la derecha).

El código R utilizado para generar este gráfico está debajo (las etiquetas de la trama se omiten por brevedad).

n <- 1000;  m <- 50; e <- 0.05
s <- cumsum(2*(rbinom(n, size=1, prob=0.5) - 0.5))
plot(s/seq.int(n), type = "l", ylim = c(-0.4, 0.4))
abline(h = c(-e,e), lty = 2)

Ley débil de grandes números

n

El código R para el gráfico sigue (nuevamente, omitiendo etiquetas).

x <- matrix(2*(rbinom(n*m, size=1, prob=0.5) - 0.5), ncol = m)
y <- apply(x, 2, function(z) cumsum(z)/seq_along(z))
matplot(y, type = "l", ylim = c(-0.4,0.4))
abline(h = c(-e,e), lty = 2, lwd = 2)
Comunidad
fuente
6

Lo entiendo de la siguiente manera,

Convergencia en probabilidad

La probabilidad de que la secuencia de variables aleatorias sea igual al valor objetivo disminuye asintóticamente y se aproxima a 0, pero en realidad nunca alcanza 0.

Convergencia casi segura

La secuencia de variables aleatorias será igual al valor objetivo asintóticamente, pero no puede predecir en qué punto sucederá.

La wiki tiene algunos ejemplos de ambos que deberían ayudar a aclarar lo anterior (en particular, ver el ejemplo del arquero en el contexto de convergencia en prob y el ejemplo de la caridad en el contexto de una convergencia casi segura).

Desde un punto de vista práctico, la convergencia en la probabilidad es suficiente ya que no nos preocupamos particularmente por eventos muy poco probables. Como ejemplo, la consistencia de un estimador es esencialmente convergencia en la probabilidad. Por lo tanto, cuando usamos una estimación consistente, reconocemos implícitamente el hecho de que en muestras grandes hay una probabilidad muy pequeña de que nuestra estimación esté lejos del valor verdadero. Vivimos con este 'defecto' de convergencia en la probabilidad, ya que sabemos que asintóticamente la probabilidad de que el estimador esté lejos de la verdad es muy pequeña.

gung - Restablece a Monica
fuente
El editor intentado argumenta que esto debería decir: "La probabilidad de que la secuencia de variables aleatorias no sea igual al valor objetivo ...".
gung - Restablece a Monica
"La probabilidad de que la secuencia de variables aleatorias sea igual al valor objetivo disminuye asintóticamente y se aproxima a 0, pero en realidad nunca alcanza 0." ¿No debería ser MAYO en realidad nunca alcanza 0?
Jyotish Robin
@gung La probabilidad de que sea igual al valor objetivo se aproxima a 1 o la probabilidad de que no sea igual a los valores objetivo se acerca a 0. La definición actual es incorrecta.
Undertherainbow
5

Si disfrutas de las explicaciones visuales, en el American Statistician hay un buen artículo sobre 'El rincón del profesor' (cita abajo). Como beneficio adicional, los autores incluyeron un paquete R para facilitar el aprendizaje.

@article{lafaye09,
  title={Understanding Convergence Concepts: A Visual-Minded and Graphical Simulation-Based Approach},
  author={Lafaye de Micheaux, P. and Liquet, B.},
  journal={The American Statistician},
  volume={63},
  number={2},
  pages={173--178},
  year={2009},
  publisher={ASA}
}
Kingsford Jones
fuente
1

Este último tipo lo explica muy bien. Si toma una secuencia de variables aleatorias Xn = 1 con probabilidad 1 / ny cero en caso contrario. Es fácil ver tomando límites que esto converge a cero en probabilidad, pero no logra converger casi con seguridad. Como él dijo, a la probabilidad no le importa que podamos obtener uno más adelante. Casi seguro que sí.

Casi seguramente implica convergencia en la probabilidad, pero no al revés yah?

Tim Brown
fuente
55
Bienvenido al sitio, @ Tim-Brown, apreciamos su ayuda para responder preguntas aquí. Una cosa a tener en cuenta es que es mejor identificar otras respuestas por el nombre de usuario del respondedor, "este último tipo" no será muy efectivo. Por ejemplo, la lista se reordenará con el tiempo a medida que la gente vote. Es posible que desee leer nuestras preguntas frecuentes .
gung - Restablece a Monica
0

Una cosa que me ayudó a comprender la diferencia es la siguiente equivalencia

ϵ > 0P(limn|XnX|=0)=1⇐⇒limn(supm>=n|XmX|>ϵ)=0 ϵ>0

En comparación, la convergencia estocástica:

ϵ > 0limnP(|XnX|>ϵ)=0 ϵ>0

Al comparar el lado derecho de la equivalencia superior con la convergencia estocástica, creo que la diferencia se hace más clara.

Sebastian
fuente