Tengo un conjunto de números que se supone que provienen de una distribución de Poisson. El conjunto también tiene algunos valores atípicos y, debido a eso, las estimaciones de máxima probabilidad se ven gravemente afectadas. Escuché que los procedimientos de estimación robustos pueden ayudar en tal situación. ¿Alguien puede explicar cómo hacer esto? No soy estudiante de estadística.
Descubrí que la glmrob
función en R se puede usar para esto. (Soy bastante nuevo en R). Pero no pude entender cómo usar eso a pesar de leer las páginas del manual. En particular, no puedo entender cómo obtener un forumula
que es el primer argumento para la función glmrob.
Gracias.
sumY ~ Age10 + Base4*Trt
. Con los datos que tengo, no puedo encontrar ninguna de esas fórmulas. Solo se supone que un número de números proviene de una distribución de Poisson. Según tengo entendido, no tengo una variable dependiente y una variable independiente y puede ser por eso que no puedo encontrar una fórmula.y~1
.Respuestas:
@cardinal ha telegrafiado una respuesta en los comentarios. Vamos a desarrollarlo. Su punto es que, aunque los modelos lineales generales (como los implementados por
lm
y, en este caso,glmRob
) parecen tener la intención de evaluar las relaciones entre variables, también pueden ser herramientas poderosas para estudiar una sola variable. El truco se basa en el hecho de que la regresión de datos contra una constante es solo otra forma de estimar su valor promedio ("ubicación") .Como ejemplo, genere algunos datos distribuidos por Poisson:
En este caso,( 1 , 5 , 2 , 3 , 2 , 2 , 1 , 1 , 3 , 1 ) 2
R
producirá el vector de valores para una distribución de Poisson de la media . Estime su ubicación con :x
glmRob
La respuesta nos dice que la intercepción se estima en . Por supuesto, cualquiera que use un método estadístico necesita saber cómo funciona: cuando usa modelos lineales generalizados con la familia Poisson, la función estándar de "enlace" es el logaritmo. Esto significa que la intersección es el logaritmo de la ubicación estimada. Entonces calculamos0,7268
El resultado, , se acerca cómodamente a : el procedimiento parece funcionar. Para ver qué está haciendo, trace los datos:2.0685 2
La línea ajustada es puramente horizontal y, por lo tanto, estima la mitad de los valores verticales: nuestros datos. Eso es todo lo que está pasando.
Para verificar la robustez, creemos un valor atípico incorrecto agregando unos ceros al primer valor de
x
:Esta vez, para una mayor flexibilidad en el procesamiento posterior, guardaremos la salida de
glmRob
:Para obtener el promedio estimado podemos solicitar
El valor esta vez es igual a : un poco apagado, pero no muy lejos, dado que el valor promedio de (obtenido como ) es . Ese es el sentido en que este procedimiento es "robusto". Se puede obtener más información a través de2.496 12
x
mean(x)
Su salida nos muestra, entre otras cosas, que el peso asociado con el valor periférico de in es solo , casi , señalando el presunto atípico.100 0.02179 0
x[1]
fuente