Estimación robusta de la distribución de Poisson

8

Tengo un conjunto de números que se supone que provienen de una distribución de Poisson. El conjunto también tiene algunos valores atípicos y, debido a eso, las estimaciones de máxima probabilidad se ven gravemente afectadas. Escuché que los procedimientos de estimación robustos pueden ayudar en tal situación. ¿Alguien puede explicar cómo hacer esto? No soy estudiante de estadística.

Descubrí que la glmrobfunción en R se puede usar para esto. (Soy bastante nuevo en R). Pero no pude entender cómo usar eso a pesar de leer las páginas del manual. En particular, no puedo entender cómo obtener un forumulaque es el primer argumento para la función glmrob.

Gracias.

suresh
fuente
1
¿Has leído la documentación de glmrob ? Hay un código de muestra para un ajuste robusto de Poisson en p. 23.
whuber
Los miré. En ese ejemplo en la página 23, hay una fórmula como esta sumY ~ Age10 + Base4*Trt. Con los datos que tengo, no puedo encontrar ninguna de esas fórmulas. Solo se supone que un número de números proviene de una distribución de Poisson. Según tengo entendido, no tengo una variable dependiente y una variable independiente y puede ser por eso que no puedo encontrar una fórmula.
suresh
2
Implícitamente tienes un término de intercepción.
cardenal
2
Tiene recuentos de Poisson que son sus respuestas y sus "predictores" consisten solo en un término de intercepción, es decir, desea modelarlo como si todas sus respuestas provinieran de la misma distribución. ¿Eso tiene más sentido? :)
cardenal
1
Ejemplo fórmula: y~1.
cardenal

Respuestas:

17

@cardinal ha telegrafiado una respuesta en los comentarios. Vamos a desarrollarlo. Su punto es que, aunque los modelos lineales generales (como los implementados por lmy, en este caso, glmRob) parecen tener la intención de evaluar las relaciones entre variables, también pueden ser herramientas poderosas para estudiar una sola variable. El truco se basa en el hecho de que la regresión de datos contra una constante es solo otra forma de estimar su valor promedio ("ubicación") .

Como ejemplo, genere algunos datos distribuidos por Poisson:

set.seed(17)
x <- rpois(10, lambda=2)

En este caso, Rproducirá el vector de valores para una distribución de Poisson de la media . Estime su ubicación con :(1,5,2,3,2,2,1,1,3,1)x2glmRob

library(robust)
glmrob(x ~ 1, family=poisson())

La respuesta nos dice que la intercepción se estima en . Por supuesto, cualquiera que use un método estadístico necesita saber cómo funciona: cuando usa modelos lineales generalizados con la familia Poisson, la función estándar de "enlace" es el logaritmo. Esto significa que la intersección es el logaritmo de la ubicación estimada. Entonces calculamos0.7268

exp(0.7268)

El resultado, , se acerca cómodamente a : el procedimiento parece funcionar. Para ver qué está haciendo, trace los datos:2.06852

plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")

Parcela con linea ajustada

La línea ajustada es puramente horizontal y, por lo tanto, estima la mitad de los valores verticales: nuestros datos. Eso es todo lo que está pasando.

Para verificar la robustez, creemos un valor atípico incorrecto agregando unos ceros al primer valor de x:

x[1] <- 100

Esta vez, para una mayor flexibilidad en el procesamiento posterior, guardaremos la salida de glmRob:

m <- glmrob(x ~ 1, family=poisson())

Para obtener el promedio estimado podemos solicitar

exp(m$coefficients)

El valor esta vez es igual a : un poco apagado, pero no muy lejos, dado que el valor promedio de (obtenido como ) es . Ese es el sentido en que este procedimiento es "robusto". Se puede obtener más información a través de2.496xmean(x)12

summary(m)

Su salida nos muestra, entre otras cosas, que el peso asociado con el valor periférico de in es solo , casi , señalando el presunto atípico.100x[1]0.021790

whuber
fuente
3
(+1) Buena presentación, como siempre. :)
cardenal
Muchas gracias. Tal respuesta es muy importante para mí ahora porque soy completamente nuevo en todo esto (términos como predictor, intercepción e incluso el paquete R).
suresh
¿Puede señalar una herramienta similar para una distribución bivariada de Poisson?
Diogo Santos
@Diogo Depende de lo que se pretende hacer con esa herramienta y precisamente qué forma de dependencia se está utilizando entre los marginados.
whuber