Regresión de Poisson con datos grandes: ¿está mal cambiar la unidad de medida?

17

Debido al factorial en una distribución de Poisson, resulta poco práctico estimar los modelos de Poisson (por ejemplo, utilizando la máxima probabilidad) cuando las observaciones son grandes. Entonces, por ejemplo, si estoy tratando de estimar un modelo para explicar el número de suicidios en un año determinado (solo hay datos anuales disponibles) y decir que hay miles de suicidios cada año, ¿es incorrecto expresar suicidios en cientos? , de modo que 2998 sería 29.98 ~ = 30? En otras palabras, ¿está mal cambiar la unidad de medida para que los datos sean manejables?

Vivi
fuente

Respuestas:

15

Cuando se trata de una distribución de Poisson con valores grandes de \ lambda (su parámetro), es común utilizar una aproximación normal a la distribución de Poisson.

Como se menciona en este sitio , está bien usar la aproximación normal cuando \ lambda supera los 20, y la aproximación mejora a medida que \ lambda aumenta aún más.

La distribución de Poisson se define solo sobre el espacio de estado que consiste en los enteros no negativos, por lo que el cambio de escala y el redondeo introducirán cosas extrañas en sus datos.

Usando el normal aprox. para grandes estadísticas de Poisson es MUY común.

Baltimark
fuente
6

En el caso de Poisson, es malo, ya que los recuentos son recuentos: su unidad es una unidad. Por otro lado, si usa algún software avanzado como R, sus funciones de manejo de Poisson estarán al tanto de números tan grandes y usarían algunos trucos numéricos para manejarlos.

Obviamente, estoy de acuerdo en que la aproximación normal es otro buen enfoque.


fuente
3

La mayoría de los paquetes estadísticos tienen una función para calcular el logaritmo natural del factorial directamente (por ejemplo, la función lfactorial () en R, la función infactorial () en Stata). Esto le permite incluir el término constante en la probabilidad de registro si lo desea.

una parada
fuente
Además, n!= Gamma(n+1)para n> = 0. Intente buscar una función llamada Gammasi necesita calcular el factorial (o log Gamma si está calculando la probabilidad de log)
Andre Holzner
3

Me temo que no puedes hacer eso. Como dice @Baltimark, con la gran lambda la distribución tendrá una forma más normal (simétrica), y al reducirla ya no será una distribución de Poisson. Pruebe el siguiente código en R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

El resultado está abajo:

ingrese la descripción de la imagen aquí

Puede ver que el poisson de escala reducida (línea roja) es completamente diferente de la distribución de poisson.

Curioso
fuente
1

Simplemente puede ignorar el 'factorial' cuando usa la máxima probabilidad. Aquí está el razonamiento para su ejemplo de suicidio. Dejar:

λ: Sea el número esperado de suicidios por año

k i : Sea el número de suicidios en el año i.

Entonces maximizaría la probabilidad de registro como:

LL = ∑ (k i log (λ) - λ - k i !)

Maximizar lo anterior es equivalente a maximizar lo siguiente como k i ! es una constante

LL ' = ∑ (k i log (λ) - λ)

¿Podría explicar por qué el factorial es un problema? ¿Me estoy perdiendo de algo?


fuente
No se está perdiendo algo si todo lo que está tratando de hacer es estimar el parámetro a partir de un conjunto de observaciones. Esa fue definitivamente la idea principal de la pregunta del OP. Sin embargo, también preguntaba en general (si no rigurosamente) "cómo estimar los modelos de Poisson". Quizás ella quiera saber el valor del pdf en un punto específico. En ese caso, lo normal aprox. probablemente será mejor que escalar el parámetro y las observaciones en 100, o lo que sea, si las observaciones son lo suficientemente grandes como para hacer que el cálculo del factorial sea poco práctico.
Baltimark
1
@Srikant, tiene razón, al estimar los parámetros el factorial no es un problema, pero en general querrá el valor de la probabilidad para un modelo dado, y tendría que usar el factorial para eso. Además, para la prueba de hipótesis (por ejemplo, prueba de razón de probabilidad) necesitará el valor de la probabilidad.
Vivi
@Baltimark: sí, quiero saber en general, si es válido cambiar la unidad de medida de Poisson. Me hicieron esta pregunta y no sabía qué decir.
Vivi
@Vivi: ¡No estoy seguro de por qué querrías calcular la probabilidad con k_i! incluido como en la mayoría de las aplicaciones (por ejemplo, prueba de razón de probabilidad, estimación bayesiana) la constante no importará. En cualquier caso, no creo que pueda volver a escalar como sugirió. Si siento lo contrario, actualizaré mi respuesta.
@Srikant, entiendo su punto, pero algunos softwares (Eviews, por ejemplo) incluyen esto de manera predeterminada, y los números grandes son un problema que le guste o no. Supongo que realmente estaba buscando una explicación de por qué puedes o no hacerlo en lugar de evitarlo, pero la discusión ha sido interesante e instructiva, no obstante :)
Vivi