¿Cómo calcular un nivel de confianza para una distribución de Poisson?

32

Me gustaría saber qué tan seguro puedo estar en mi . ¿Alguien sabe de una manera de establecer niveles de confianza superiores e inferiores para una distribución de Poisson?λ

  • Observaciones ( ) = 88n
  • Muestra media ( λ ) = 47.18182

¿Cómo sería el 95% de confianza para esto?

Travis
fuente
También puede considerar el arranque de sus estimaciones. Aquí hay un breve tutorial sobre bootstrapping.
Mark T Patterson el

Respuestas:

27

Para Poisson, la media y la varianza son ambas λ . Si desea el intervalo de confianza alrededor de lambda, puede calcular el error estándar como λ/ /norte .

El intervalo de confianza del 95 por ciento es λ^±1,96λ^/ /norte .

Nick Stauner
fuente
26
Esto está bien cuando es grande, ya que el Poisson se aproxima adecuadamente por una distribución Normal. Para valores más pequeños o mayor confianza, hay mejores intervalos disponibles. Ver math.mcmaster.ca/peter/s743/poissonalpha.html para dos de ellos junto con un análisis de su cobertura real. (Aquí, el intervalo "exacto" es (45.7575, 48.6392), el intervalo "Pearson" es (45.7683, 48.639), y la aproximación Normal da (45.7467, 48.617): es un poco demasiado bajo, pero lo suficientemente cerca, porquenorteλnorteλ=4152
4152.
44
Para otros confundidos como yo: aquí hay una descripción de dónde viene el 1.96.
mjibson
2
¿Cómo calculó el intervalo exacto para este problema dada la información en ese sitio web proporcionada por whuber? No pude seguir porque ese sitio parece indicar solo cómo proceder cuando tienes una muestra. Tal vez simplemente no entiendo algo simple, pero mi distribución tiene un valor mucho menor de lambda (n), por lo que no puedo usar la aproximación normal y no sé cómo calcular el valor exacto. Cualquier ayuda sería muy apreciada. ¡Gracias!
Aquí están utilizando la desviación estándar de la media correcta? Es decir, SE = sig/sqrt(N) = sqrt(lam/N)? Esto tendría sentido ya que la desviación estándar de los valores individuales signos informa sobre la probabilidad de extraer muestras aleatorias de la distribución de Poisson, mientras que, SEcomo se definió anteriormente, nos dice acerca de nuestra confianza lam, dada la cantidad de muestras que hemos usado para estimarla.
AlexG
17

Este artículo analiza 19 formas diferentes de calcular un intervalo de confianza para la media de una distribución de Poisson.

http://www.ine.pt/revstat/pdf/rs120203.pdf

Tom
fuente
2
A pesar de la notificación del mod aquí, me gusta esta respuesta tal como está, porque señala que hay menos consenso general sobre cómo evaluar un sistema de Poisson medido.
Carl Witthoft
7

Además de las respuestas que otros han proporcionado, se logra otro enfoque para este problema a través de un enfoque basado en modelos. El enfoque del teorema del límite central es ciertamente válido, y las estimaciones de arranque ofrecen mucha protección contra pequeños problemas de muestra y especificación de modo.

Para una mayor eficiencia, puede obtener un mejor intervalo de confianza para utilizando un enfoque basado en el modelo de regresión. No es necesario pasar por derivaciones, pero un cálculo simple en R es el siguiente:λ

x <- rpois(100, 14)
exp(confint(glm(x ~ 1, family=poisson)))

Esta es una estimación de intervalo no simétrica, ya que el parámetro natural del poisson glm es la tasa relativa de registro. Esto es una ventaja ya que existe una tendencia a que los datos de conteo se sesguen a la derecha.

El enfoque anterior tiene una fórmula y es:

exp(Iniciar sesiónλ^±1norteλ^)

Este intervalo de confianza es "eficiente" en el sentido de que proviene de la estimación de máxima verosimilitud en la escala de parámetros naturales (log) para los datos de Poisson, y proporciona un intervalo de confianza más estricto que el basado en la escala de conteo mientras se mantiene la cobertura nominal del 95% .

AdamO
fuente
+1 Sin embargo, creo que usaría un adjetivo diferente a la eficiencia (o sea más claro, te refieres a la eficiencia computacional o de código de golf). El comentario de whuber apunta a un recurso que proporciona intervalos exactos, y el enfoque glm también se basa en resultados asintóticos. (Sin embargo, es más general, así que me gusta recomendar ese enfoque también.)
Andy W
μ
1
¿Cuál es su autoridad para esa fórmula? ¿Podemos tener una cita?
pauljohn32
@AndyW: su enlace no es válido para la simulación rápida
pauljohn32
1
@ pauljohn32 echa un vistazo al texto de Casella Berger especialmente en la familia exponencial, la tasa de registro es el parámetro natural
AdamO
5

Dada una observación de una distribución de Poisson ,

  • el número de eventos contados es n.
  • λσ2

Paso a paso,

  • λ^=norteλ
  • norte>20σ

stremirr=σ=λnorte

Ahora, el intervalo de confianza del 95% es,

yo=λ^±1,96 stremirr=norte±1,96 norte

[Editado] Algunos cálculos basados ​​en los datos de la pregunta,

  • λ

    Estoy haciendo esta suposición ya que la pregunta original no proporciona ningún contexto sobre el experimento o cómo se obtuvieron los datos (lo cual es de suma importancia al manipular datos estadísticos).

  • El intervalo de confianza del 95% es, para el caso particular,

yo=λ±1,96 stremirr=λ±1,96 λ=47,18182±1,96 47,18182[33,72,60,64]

Por lo tanto, como la medición (n = 88 eventos) está fuera del intervalo de confianza del 95%, concluimos que,

  1. El proceso no sigue un proceso de Poisson, o

  2. λ


λ/ /norte

jose.angel.jimenez
fuente
1
λnorteλ
2
λλ
2
Creo que la respuesta de jose.angel.jiminez anterior es incorrecta y surge de leer mal la pregunta original. El póster original decía "Observaciones (n) = 88": esta fue la cantidad de intervalos de tiempo observados, no la cantidad de eventos observados en general o por intervalo. El número promedio de eventos por intervalo, sobre la muestra de 88 intervalos de observación, es la lambda dada por el póster original. (Hubiera incluido esto como un comentario a la publicación de José, pero soy demasiado nuevo en el sitio para permitir que comente).
user44436
@ user44436 agregó una respuesta que se suponía que era un comentario. Lo vuelvo a publicar como un comentario para que pueda verlo y porque, como no respuesta, puede eliminarse: ------- Creo que la respuesta de jose anterior es incorrecta y surge de una mala lectura de la pregunta original. El póster original decía Observaciones (n) = 88: esta era la cantidad de intervalos de tiempo observados, no la cantidad de eventos observados en general o por intervalo. El número promedio de eventos por intervalo sobre la muestra de 88 intervalos de observación es la lambda dada por el cartel original.
Mörre