Me dieron una mesa de y , que son tales que el número de le dice a una cantidad de niños que todos s tener.
Me piden que ajuste una distribución de Poisson a esto.
¿Qué significa ajustar una distribución de Poisson a esto?
Aquí, p.8:
http://www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf
se dice que adaptar Poisson implica calcular para cada . ¿Pero de dónde viene els ir? Es apropiado calcular els?
Respuestas:
Por "ajustar la distribución a los datos" queremos decir que alguna distribución (es decir, función matemática) se usa como modelo , que puede usarse para aproximar la distribución empírica de los datos que tiene. Si está ajustando la distribución a los datos, debe inferir los parámetros de distribución a partir de los datos. Puede hacerlo utilizando algún software que lo haga automáticamente (por ejemplo,
fitdistrplus
en R), o calculándolo a mano a partir de sus datos, por ejemplo, utilizando la máxima probabilidad (consulte la entrada relevante en Wikipedia sobre la distribución de Poisson ).En el gráfico a continuación, puede ver sus datos trazados con una distribución de Poisson ajustada. Como puede ver, la línea no encaja perfectamente, ya que es solo una aproximación.
Entre otros métodos, uno de los enfoques para este problema es utilizar la máxima probabilidad . Recuerde que la probabilidad es una función de los parámetros para los datos fijos y al maximizar esta función podemos encontrar los parámetros "más probables" dados los datos que tenemos, es decir
donde en tu casoF es la función de masa de probabilidad de Poisson. La forma directa y numérica de encontrar el apropiadoλ sería utilizar el algoritmo de optimización. Para esto, primero define la función de probabilidad y luego le pide al algoritmo que encuentre el punto donde la función alcanza su máximo:
Puedes notar algo extraño sobre este código: multiplicoxi tenemos condes acompañantes yi , mientras que la función de probabilidad se define en términos de datos sin procesar, en lugar de tales tablas. Puede volver a crear los datos sin procesar a partir de estos valores repitiendo cada uno de losxi es exactamente yi veces (es decir, f(xi|λ) . Multiplicandof(xi|λ) para idéntico xi es exactamente yi veces es lo mismo que tomar yi -th poder de la misma: f(xi|λ)yi . Aquí estamos maximizando la probabilidad de registro (vea aquí por qué tomamos registro ), entonces∏if(xi|λ)yi se convierte en: ∑ilogf(xi|λ)×yi . Así es como obtuvimos la función de probabilidad para los datos tabulares.
dpois()
pory
. Los datos que tiene se proporcionan en forma de tabla, donde para cada valor derep(x, y)
en R) y usar esto como entrada para su software estadístico, pero podría adoptar un enfoque más inteligente. La probabilidad es un producto deSin embargo, hay una forma más sencilla de hacerlo. Nosotros sabemos que la media empírica dex 's es el estimador de máxima verosimilitud de λ (es decir, nos permite estimar dicho valor de λ que maximiza la probabilidad), por lo que, en lugar de utilizar un software de optimización, simplemente podemos calcular la media. Dado que tiene datos en forma de una tabla con recuentos, la forma más directa de hacerlo sería simplemente usar la media ponderada dexi es donde yi Se usan como pesas.
Esto conduce a resultados idénticos como si calculara la media aritmética a partir de los datos sin procesar. Tanto maximizando la probabilidad usando el algoritmo de optimización como tomando la ventaja promedio para obtener casi exactamente los mismos resultados:
Entoncesy No se mencionan en ninguna parte de sus notas, ya que se crean artificialmente como una forma de almacenar estos datos en forma agregada (como una tabla), en lugar de enumerar todos los4075 crudo x 's. Como se muestra arriba, puede aprovechar tener datos en este formato.
Los procedimientos anteriores le permiten encontrar el "mejor ajuste"λ y así es como se ajusta la distribución a los datos: al encontrar dichos parámetros de distribución, eso hace que se ajuste a los datos empíricos.
Comentaste que todavía no está claro por quéyi Se consideran pesos. La media aritmética se puede considerar como un caso especial de media ponderada donde todos los pesos son iguales e iguales a1/N :
Ahora piense en cómo se almacenan sus datos.x6=5 y y6=4 significa que tienes cuatro cinco x6={5,5,5,5} , x7=6 y y7=2 medio x7={6,6} etc. Cuando calculas la media, primero debes sumarlas, entonces: 5+5+5+5=5×4=x6×y6 . Esto lleva al uso de recuentos como ponderaciones para la media ponderada que da exactamente lo mismo que la media aritmética con datos sin procesar
dóndeN=∑iyi . La misma idea se aplicó a la función de probabilidad que fue ponderada por los recuentos. Lo que podría ser engañoso aquí es que en algunos casos usamosxi para denotar i -th valor observado de X , mientras que en tu caso xi es un valor específico deX eso fue observado yi veces. Como se dijo antes, esta es solo una forma alternativa de almacenar los mismos datos.
fuente
Supongo que la respuesta es encontrar la media de los datos, que será la lambda del proceso de Poisson. Dado que los datos vienen en la tabla de frecuencia, encuentre el valor esperado / promedio ponderado, que como se explicó anteriormente, es el mismo que el promedio aritmético de los datos sin procesar.
fuente