¿Por qué se usa la regresión de Poisson para los datos de conteo?

33

Entiendo que para ciertos conjuntos de datos, como votar, funciona mejor. ¿Por qué se usa la regresión de Poisson sobre la regresión lineal ordinaria o la regresión logística? ¿Cuál es la motivación matemática para ello?

zaxtax
fuente
Vea mi respuesta a esta publicación para otro punto de vista: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen

Respuestas:

51

Los datos distribuidos de Poisson son intrínsecamente enteros, lo que tiene sentido para los datos de conteo. Mínimos cuadrados ordinarios (OLS, que usted llama "regresión lineal") supone que los valores verdaderos son normalmente se distribuyen alrededor del valor esperado y pueden tomar cualquier valor real, positivo o negativo, entero o fraccional, lo que sea. Finalmente, la regresión logística solo funciona para datos que tienen un valor de 0-1 (valor VERDADERO-FALSO), como "tiene una enfermedad" versus "no tiene la enfermedad". Por lo tanto, la distribución de Poisson tiene más sentido para los datos de conteo.

Dicho esto, una distribución normal es a menudo una aproximación bastante buena a una de Poisson para datos con una media superior a 30 aproximadamente. Y en un marco de regresión, donde hay predictores que influyen en el conteo, un OLS con su distribución normal puede ser más fácil de ajustar y en realidad sería más general, ya que la distribución y la regresión de Poisson suponen que la media y la varianza son iguales, mientras que el OLS puede lidiar con medias y variaciones desiguales: para un modelo de datos de conteo con diferentes medias y variaciones, uno podría usar una distribución binomial negativa , por ejemplo.

S. Kolassa - Restablece a Monica
fuente
17
Tenga en cuenta que simplemente ajustar usando OlS no requiere normalidad: es cuando hace inferencia sobre los parámetros que necesita el supuesto de distribución normal
Dason
1
@Dason: estoy corregido.
S. Kolassa - Restablece a Mónica el
3
Si utiliza el estimador de varianza Huber / White / Sandwich, puede relajar el supuesto de varianza media
Dimitriy V. Masterov
@Dason Si bien no es estrictamente necesario, usar la forma correcta de modelo para lo que está ajustando casi siempre ofrece una mejor estimación, y puede verlo en gráficos de residuos.
Joe
24

Esencialmente, se debe a que la regresión lineal y logística hace suposiciones incorrectas acerca de cómo se ven los resultados del conteo. Imagine su modelo como un robot muy estúpido que seguirá implacablemente sus órdenes, sin importar cuán absurdas sean esas órdenes; carece por completo de la capacidad de evaluar lo que le dices. Si le dice a su robot que algo así como los votos se distribuyen continuamente de infinito negativo a infinito, eso es lo que cree que son los votos, y podría darle predicciones sin sentido (Ross Perot recibirá -10.469 votos en las próximas elecciones).

Por el contrario, la distribución de Poisson es discreta y positiva (o cero ... cero cuenta como positivo, ¿sí?). Como mínimo, esto obligará a su robot a darle respuestas que realmente podrían suceder en la vida real. Pueden o no ser buenos respuestas, pero al menos se extraerán del posible conjunto de "número de votos emitidos".

Por supuesto, el Poisson tiene sus propios problemas: supone que la media de la variable de conteo de votos también será la misma que su varianza. No sé si alguna vez he visto un ejemplo no inventado en el que esto fuera cierto. Afortunadamente, las personas brillantes han ideado otras distribuciones que también son positivas y discretas, pero que agregan parámetros para permitir que la varianza varíe (por ejemplo, regresión binomial negativa).

Matt Parker
fuente
5

T=1λT=tλ.tλ.t

p(N=n)=(λ.t)nortemi-λ.tnorte!

A través de este y el método de máxima verosimilitud y los modelos lineales generalizados (o algún otro método) se llega a la regresión de Poisson .

En términos simples, la regresión de Poisson es el modelo que se ajusta a los supuestos del proceso aleatorio subyacente que genera un pequeño número de eventos a una tasa (es decir, número por unidad de tiempo) determinada por otras variables en el modelo.

Tilacoleo
fuente
3

Otros básicamente han dicho lo mismo que voy a decir, pero pensé en agregar mi opinión al respecto. Depende de lo que esté haciendo exactamente, pero muchas veces nos gusta conceptualizar el problema / datos disponibles. Este es un enfoque ligeramente diferente en comparación con solo construir un modelo que prediga bastante bien. Si estamos tratando de conceptualizar lo que está sucediendo, tiene sentido modelar datos de conteo usando una distribución no negativa que solo pone la masa en valores enteros. También tenemos muchos resultados que esencialmente se reducen a decir que, bajo ciertas condiciones, los datos de conteo realmente sondistribuido como un poisson. Entonces, si nuestro objetivo es conceptualizar el problema, realmente tiene sentido usar un poisson como la variable de respuesta. Otros han señalado otras razones por las cuales es una buena idea, pero si realmente está tratando de conceptualizar el problema y realmente comprende cómo se pueden generar los datos que ve, entonces usar una regresión de Poisson tiene mucho sentido en algunas situaciones.

Razón
fuente
2

Mi comprensión es principalmente porque los recuentos son siempre positivos y discretos, el Poisson puede resumir dichos datos con un parámetro. El problema principal es que la varianza es igual a la media.


fuente