Medición de la bondad de ajuste en un modelo que combina dos distribuciones

9

Tengo datos con un pico doble que estoy tratando de modelar, y hay suficiente superposición entre los picos que no puedo tratarlos de forma independiente. Un histograma de los datos podría verse así:

texto alternativo

He creado dos modelos para esto: uno usa dos distribuciones de Poisson y el otro usa dos distribuciones binomiales negativas (para tener en cuenta la sobredispersión). ¿Cuál es la forma adecuada de saber qué modelo se ajusta a los datos con mayor precisión?

Mi pensamiento inicial es que podría usar una prueba de Kolmogorov-Smirnov para comparar cada modelo con los datos, luego hacer una prueba de razón de probabilidad para ver si uno se ajusta significativamente mejor. ¿Esto tiene sentido? Si es así, no estoy exactamente seguro de cómo realizar la prueba de razón de probabilidad. ¿Es apropiado el chi-cuadrado y cuántos grados de libertad tengo?

Si ayuda, algunos códigos R (muy simplificados) para los modelos podrían verse así:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

Editar: Aquí hay una imagen que puede explicar los datos y las distribuciones que estoy ajustando mejor. A partir de la visualización, queda totalmente claro que el segundo modelo (que usa el dist binomial negativo para dar cuenta de la sobredispersión) se ajusta mejor. Sin embargo, me gustaría mostrar esto cuantitativamente. texto alternativo

(rojo - datos, verde - modelo)

Chrisamiller
fuente
¿Conoces la distribución de probabilidad de los valores en cada bin ? La etiqueta del eje y me hace pensar que esto podría ser poissoniano o multinomial. (asumiendo que un modelo te da la media en cada contenedor)
Andre Holzner
Los datos se obtienen esencialmente de dos procesos de Poisson, pero hay variables ocultas que no puedo corregir, lo que lleva a una sobredispersión. Por lo tanto, un binomio negativo es definitivamente un mejor modelo. (vea la nueva imagen / texto que agregué arriba). Necesito demostrar que mi modelo nb se ajusta mejor cuantitativamente.
Chrisrisler
1
¿Qué tal una métrica como Error cuadrático medio entre los valores reales y los pronosticados?
hrmm - Me gusta esa idea, Srikant. Es mucho más simple de lo que estaba pensando, pero aún tiene sentido. Agregue una respuesta a continuación para que pueda acreditarla y enviarle un representante. Todavía estoy interesado en escuchar otros métodos, pero esto puede funcionar por ahora.
Chrisrisler

Respuestas:

4

Puede usar una métrica como el error cuadrático medio entre los valores reales y los pronosticados para comparar los dos modelos.


fuente
1
Esta fue la respuesta correcta para mi situación particular, a pesar de que la respuesta de Glen_b me ayudó a aprender más. Entonces, más votos a favor para él, respuesta aceptada para Srikant. Todos ganan, gracias a todos.
Chrisrisler
8

No puede compararlos directamente ya que el binomio negativo tiene más parámetros. De hecho, el Poisson está "anidado" dentro del binomio negativo en el sentido de que es un caso limitante, por lo que el NegBin siempre encajará mejor que el Poisson. Sin embargo, eso hace posible considerar algo así como una prueba de razón de probabilidad, pero el hecho de que el Poisson se encuentre en el límite del espacio de parámetros para el binomio negativo puede afectar la distribución del estadístico de prueba.

En cualquier caso, incluso si la diferencia en el número de parámetros no fue un problema, no puede hacer pruebas de KS directamente porque tiene parámetros estimados , y KS es específicamente para el caso en que se especifican todos los parámetros. Su idea de usar el bootstrap trata este problema, pero no el primero (diferencia en el número de parámetros)

También estaría considerando pruebas suaves de la bondad de ajuste (por ejemplo, vea el libro de Rayner y Best), que, por ejemplo, puede conducir a una partición de la prueba de bondad de ajuste chi-cuadrado en componentes de interés (medición de desviaciones del modelo de Poisson en este caso) - sacado para decir cuarto o sexto orden, esto debería conducir a una prueba con buen poder para la alternativa NegBin.

(Editar: puede comparar sus ajustes de poisson y negbin mediante una prueba de chi-cuadrado, pero tendrá poca potencia. Particionar el chi-cuadrado y observar solo los primeros 4-6 componentes, como se hace con pruebas suaves, podría ser mejor .)

Glen_b -Reinstate a Monica
fuente
Gracias. Eso aclara un montón de cosas y abre una gran cantidad de nuevas preguntas sobre las que tendré que investigar un poco. Supongo que mi pregunta principal es: ¿lo que estás diciendo significa que algo más simple, como simplemente tomar el error cuadrático medio, no es una forma válida de abordar este problema? Admito que probablemente no sea tan robusto y no me dará un valor p, pero es algo que podría hacer rápidamente mientras trato de localizar una copia del libro al que hace referencia. Cualquier pensamiento sería apreciado.
Chrisrisler
2
imagine que tenía un conjunto de puntos (x, y) y estaba considerando si podría ajustar una línea recta o una cuadrática. Si compara el RMSE, el cuadrático siempre vencería a la línea recta , porque la línea es cuadrática con un parámetro establecido en cero: si la estimación de mínimos cuadrados del parámetro es exactamente cero (que tiene una probabilidad cero de respuesta continua), es un empate, y en cualquier otro caso la línea pierde. Es lo mismo con el Poisson frente al binomio negativo: un binomio negativo libre siempre puede caber al menos tan bien como un Poisson libre.
Glen_b -Reinstate Monica
Buena explicación: ahora entiendo lo que dices. Creo que mi caso es un poco diferente, porque no estoy haciendo regresión para obtener un ajuste, sino que baso el parámetro NB adicional en información externa (espero que la relación var / media sea N). Dado que Poisson es el caso especial donde N = 1, lo que realmente estoy comparando es la elección de N. Estoy de acuerdo en que si estuviera haciendo una regresión, el NB siempre podría encontrar un mejor ajuste, porque está menos restringido. En mi caso, donde elijo un valor para N por adelantado, ciertamente sería posible elegir un valor loco de N que empeore el ajuste.
Chrisrisler
Sin embargo, voy a leer sobre las suaves pruebas de bondad de ajuste que sugirió sin embargo. Gracias por las respuestas informativas.
Chrisrisler
Perdón por no darse cuenta de que los datos no entraron en la elección del parámetro de sobredispersión. Puede haber algún argumento para hacerlo a su manera, pero si la estimación externa probablemente refleje lo que realmente observa, el NB aún puede tener alguna ventaja dependiendo de las circunstancias.
Glen_b -Reinstale a Monica el