¿Cómo ajusta una distribución de Poisson a los datos de la tabla?

8

Me dieron una mesa de x=(0,1,2,3,4,5,6) y y=(3062,587,284,103,33,4,2), que son tales que el número de xi le dice a una cantidad de niños que todos yis tener.

Me piden que ajuste una distribución de Poisson a esto.

¿Qué significa ajustar una distribución de Poisson a esto?

Aquí, p.8:
http://www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf

se dice que adaptar Poisson implica calcular P(X=x) para cada x. ¿Pero de dónde viene elys ir? Es apropiado calcular elP(X=x)s?

mavavilj
fuente
Se le pide que ajuste un modelo de regresión de Poisson a estos datos. Esto debería ayudar: onlinecourses.science.psu.edu/stat504/node/168 . Además, agregue la etiqueta de autoaprendizaje a esta pregunta de tarea.
StatsStudent

Respuestas:

11

Por "ajustar la distribución a los datos" queremos decir que alguna distribución (es decir, función matemática) se usa como modelo , que puede usarse para aproximar la distribución empírica de los datos que tiene. Si está ajustando la distribución a los datos, debe inferir los parámetros de distribución a partir de los datos. Puede hacerlo utilizando algún software que lo haga automáticamente (por ejemplo, fitdistrplusen R), o calculándolo a mano a partir de sus datos, por ejemplo, utilizando la máxima probabilidad (consulte la entrada relevante en Wikipedia sobre la distribución de Poisson ).

En el gráfico a continuación, puede ver sus datos trazados con una distribución de Poisson ajustada. Como puede ver, la línea no encaja perfectamente, ya que es solo una aproximación.

ingrese la descripción de la imagen aquí

Entre otros métodos, uno de los enfoques para este problema es utilizar la máxima probabilidad . Recuerde que la probabilidad es una función de los parámetros para los datos fijos y al maximizar esta función podemos encontrar los parámetros "más probables" dados los datos que tenemos, es decir

L(λ|x1,,xn)=if(xi|λ)

donde en tu caso fes la función de masa de probabilidad de Poisson. La forma directa y numérica de encontrar el apropiadoλsería utilizar el algoritmo de optimización. Para esto, primero define la función de probabilidad y luego le pide al algoritmo que encuentre el punto donde la función alcanza su máximo:

# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum

Puedes notar algo extraño sobre este código: multiplico dpois()por y. Los datos que tiene se proporcionan en forma de tabla, donde para cada valor dexi tenemos condes acompañantes yi, mientras que la función de probabilidad se define en términos de datos sin procesar, en lugar de tales tablas. Puede volver a crear los datos sin procesar a partir de estos valores repitiendo cada uno de losxies exactamente yiveces (es decir, rep(x, y)en R) y usar esto como entrada para su software estadístico, pero podría adoptar un enfoque más inteligente. La probabilidad es un producto def(xi|λ). Multiplicandof(xi|λ) para idéntico xies exactamente yi veces es lo mismo que tomar yi-th poder de la misma: f(xi|λ)yi. Aquí estamos maximizando la probabilidad de registro (vea aquí por qué tomamos registro ), entoncesif(xi|λ)yi se convierte en: ilogf(xi|λ)×yi. Así es como obtuvimos la función de probabilidad para los datos tabulares.

Sin embargo, hay una forma más sencilla de hacerlo. Nosotros sabemos que la media empírica dex's es el estimador de máxima verosimilitud de λ (es decir, nos permite estimar dicho valor de λque maximiza la probabilidad), por lo que, en lugar de utilizar un software de optimización, simplemente podemos calcular la media. Dado que tiene datos en forma de una tabla con recuentos, la forma más directa de hacerlo sería simplemente usar la media ponderada dexies donde yiSe usan como pesas.

mx <- sum(x*(y/sum(y)))

Esto conduce a resultados idénticos como si calculara la media aritmética a partir de los datos sin procesar. Tanto maximizando la probabilidad usando el algoritmo de optimización como tomando la ventaja promedio para obtener casi exactamente los mismos resultados:

> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127

Entonces yNo se mencionan en ninguna parte de sus notas, ya que se crean artificialmente como una forma de almacenar estos datos en forma agregada (como una tabla), en lugar de enumerar todos los4075 crudo x's. Como se muestra arriba, puede aprovechar tener datos en este formato.

Los procedimientos anteriores le permiten encontrar el "mejor ajuste" λ y así es como se ajusta la distribución a los datos: al encontrar dichos parámetros de distribución, eso hace que se ajuste a los datos empíricos.


Comentaste que todavía no está claro por qué yiSe consideran pesos. La media aritmética se puede considerar como un caso especial de media ponderada donde todos los pesos son iguales e iguales a1/N:

x1++xnN=1N(x1++xn)=1Nx1++1Nxn

Ahora piense en cómo se almacenan sus datos. x6=5 y y6=4 significa que tienes cuatro cinco x6={5,5,5,5}, x7=6 y y7=2 medio x7={6,6} etc. Cuando calculas la media, primero debes sumarlas, entonces: 5+5+5+5=5×4=x6×y6. Esto lleva al uso de recuentos como ponderaciones para la media ponderada que da exactamente lo mismo que la media aritmética con datos sin procesar

x1y1++xnyny1++yn=x1y1N++xnynN=x1N++x1Ny1 times++xnN++xnNyn times

dónde N=iyi. La misma idea se aplicó a la función de probabilidad que fue ponderada por los recuentos. Lo que podría ser engañoso aquí es que en algunos casos usamosxi para denotar i-th valor observado de X, mientras que en tu caso xies un valor específico deX eso fue observado yiveces. Como se dijo antes, esta es solo una forma alternativa de almacenar los mismos datos.

Tim
fuente
Pero, ¿cómo se calculan esos? No entiendo la conexión entre Poisson, x e y. supongox es lo que uno se conecta al Poisson PMF como k, pero ¿cómo se relaciona el PMF de Poisson con el ys?
mavavilj
Entonces, ajustar un modelo significa calcular el (empírico) P(X=xi) para cada xi?
mavavilj
@mavavilj no, significa encontrar dicho valor de los parámetros de distribución (en este caso de λ) que hace que la función de distribución se ajuste mejor a la distribución empírica (ver primer párrafo). El último párrafo trata sobre cómo se almacenan sus datos. Si algo aún no está claro, por favor comente.
Tim
¿Cuál es la razonabilidad de inferir ys como pesos para la media ponderada (para obtener el MLE)?
mavavilj
Todavía no estoy claro sobre el razonamiento que lleva a calcular la media ponderada. ¿Por qué son losys considerado como pesas?
mavavilj
0

Supongo que la respuesta es encontrar la media de los datos, que será la lambda del proceso de Poisson. Dado que los datos vienen en la tabla de frecuencia, encuentre el valor esperado / promedio ponderado, que como se explicó anteriormente, es el mismo que el promedio aritmético de los datos sin procesar.

Aravot
fuente