¿Cómo calcular la cobertura de intervalo discreto?
Lo que sé hacer:
Si tuviera un modelo continuo, podría definir un intervalo de confianza del 95% para cada uno de mis valores predichos, y luego ver con qué frecuencia los valores reales estaban dentro del intervalo de confianza. Podría encontrar que solo el 88% del tiempo mi intervalo de confianza del 95% cubrió los valores reales.
Lo que no sé hacer:
¿Cómo hago esto para un modelo discreto, como poisson o gamma-poisson? Lo que tengo para este modelo es el siguiente, tomando una sola observación (de más de 100,000 que planeo generar :)
Observación #: (arbitrario)
Valor previsto: 1.5
Probabilidad pronosticada de 0: .223
Probabilidad pronosticada de 1: .335
Probabilidad prevista de 2: .251
Probabilidad prevista de 3: .126
Probabilidad pronosticada de 4: .048
Probabilidad pronosticada de 5: .014 [y 5 o más es .019]
... (etc.)
Probabilidad pronosticada de 100 (o para alguna cifra poco realista): .000
Valor real (un entero como "4")
Tenga en cuenta que si bien he dado valores de Poisson arriba, en el modelo real un valor predicho de 1.5 puede tener diferentes probabilidades pronosticadas de 0,1, ... 100 a través de las observaciones.
Estoy confundido por la discreción de los valores. Un "5" obviamente está fuera del intervalo del 95%, ya que solo hay .019 en 5 y más, que es menor que .025. Pero habrá muchos 4, individualmente están dentro, pero ¿cómo evalúo conjuntamente el número de 4 más adecuadamente?
¿Porqué me importa?
Los modelos que estoy viendo han sido criticados por ser precisos a nivel agregado pero por dar malas predicciones individuales. Quiero ver cuánto peor son las malas predicciones individuales que los intervalos de confianza inherentemente amplios predichos por el modelo. Espero que la cobertura empírica sea peor (por ejemplo, podría encontrar que el 88% de los valores se encuentran dentro del intervalo de confianza del 95%), pero espero solo un poco peor.
fuente