¿Por qué elegirían una distribución gamma aquí?

14

En uno de los ejercicios de mi curso, estamos utilizando un conjunto de datos médicos de Kaggle .

El ejercicio dice:

queremos modelar la distribución de cargos individuales y también queremos capturar nuestra incertidumbre sobre esa distribución para poder capturar mejor el rango de valores que podríamos ver. Cargando los datos y realizando una vista inicial:

trama

Podemos sospechar de lo anterior que hay algún tipo de distribución exponencial en juego aquí. ... Los cargos de reclamo de seguro pueden ser multimodales. La distribución gamma puede ser aplicable y podríamos probar esto para la distribución de cargos que no fueron reclamos de seguros primero.

Yo levanté la "distribución Gamma" y encontró "una, sólo positivo, distribución unimodal continuo que codifica el tiempo necesario para«alfa»los acontecimientos que se produzcan en un proceso de Poisson con la hora de llegada media de«beta»"

No hay tiempo involucrado aquí, solo cargos no relacionados, asegurados o no.

¿Por qué elegirían una distribución gamma?

Vicki B
fuente

Respuestas:

27

Cuando está considerando modelos paramétricos simples para la distribución condicional de datos (es decir, la distribución de cada grupo o la distribución esperada para cada combinación de variables predictoras), y está tratando con una distribución continua positiva , las dos opciones comunes son Gamma y log-Normal . Además de satisfacer la especificación del dominio de la distribución (números reales mayores que cero), estas distribuciones son computacionalmente convenientes y a menudo tienen sentido mecanicista.

  • La distribución logarítmica normal se deriva fácilmente exponiendo una distribución normal (por el contrario, la transformación logarítmica normal se desvía de lo normal). Desde un punto de vista mecanicista, el log-Normal surge a través del Teorema del límite central cuando cada observación refleja el producto de un gran número de variables aleatorias iid. Una vez que ha transformado los datos, tiene acceso a una gran variedad de herramientas computacionales y analíticas (por ejemplo, cualquier cosa que suponga Normalidad o utilice métodos de mínimos cuadrados).
  • nλestá disponible; También tiene una forma particularmente conveniente para el análisis.

Hay otras razones por las que uno podría elegir uno u otro, por ejemplo, el "peso" de la cola de la distribución , que podría ser importante para predecir la frecuencia de los eventos extremos. Hay muchas otras distribuciones positivas y continuas (por ejemplo, vea esta lista ), pero tienden a usarse en aplicaciones más especializadas.

Muy pocas de estas distribuciones capturarán la multimodalidad que ve en las distribuciones marginales anteriores, pero la multimodalidad puede explicarse por los datos que se agrupan en categorías descritas por predictores categóricos observados. Si no hay predictores observables que expliquen la multimodalidad, uno podría elegir ajustar un modelo de mezcla finita basado en una mezcla de un número (pequeño, discreto) de distribuciones continuas positivas.

Ben Bolker
fuente
1
También vale la pena señalar que los modelos gamma y lognormal dan casi siempre resultados muy similares
carlo
2
Trabajo en investigación de servicios de salud. Puedo confirmar que, en general, una distribución gamma o lognormal sería una opción adecuada para un modelo de gastos de atención médica o montos de reclamos. La distribución gamma se puede usar a tiempo para modelos de eventos, pero estos no son aplicables aquí.
Weiwen Ng
¡¡Gracias!! Esto fue muy útil.
Vicki B