¿Qué ventajas tiene la regresión de Poisson sobre la regresión lineal en este caso?

12

Me dieron un conjunto de datos que contiene la cantidad de premios ganados por los estudiantes en una escuela secundaria donde los predictores de la cantidad de premios ganados incluyen el tipo de programa en el que el estudiante se inscribió y la puntuación en su examen final de matemáticas.

Me preguntaba si alguien podría decirme por qué un modelo de regresión lineal puede no ser adecuado en este caso y por qué sería mejor usar una regresión de Poisson. Gracias.

Emily
fuente

Respuestas:

14

Tres puntos sobre la regresión de Poisson vs Normal, todos relacionados con la especificación del modelo:

Efecto de los cambios en los predictores.

Con un predictor continuo como el puntaje de la prueba de matemáticas, la regresión de Poisson (con el enlace de registro habitual) implica que un cambio de unidad en el predictor conduce a un cambio porcentual en el número de premios, es decir, 10 puntos más en la prueba de matemáticas se asocian, por ejemplo, con un 25 por ciento Más premios. Esto depende de la cantidad de premios que el alumno ya tiene previsto. En contraste, la regresión normal asocia 10 puntos más con una cantidad fija, digamos 3 premios más en todas las circunstancias. Debería estar contento con esa suposición antes de usar el modelo que la hace. (fwiw creo que es muy razonable, modulo el siguiente punto).

Tratar con estudiantes sin premios

A menos que haya realmente muchos premios repartidos entre muchos estudiantes, sus recuentos de premios serán en su mayoría bastante bajos. De hecho, predeciría cero inflación, es decir, la mayoría de los estudiantes no reciben ningún premio, por lo que muchos ceros, y algunos buenos estudiantes obtienen bastantes premios. Esto interfiere con los supuestos del modelo de Poisson y es al menos igual de malo para el modelo Normal.

Si tiene una cantidad de datos decente, un modelo 'inflado a cero' o 'obstáculo' sería natural. Se trata de dos modelos unidos: uno para predecir si el estudiante obtiene algún premio y otro para predecir cuántos obtendrá si obtiene alguno (generalmente alguna forma de modelo de Poisson). Esperaría que toda la acción sea en el primer modelo.

Premio exclusividad

Finalmente, un pequeño punto sobre los premios. Si los premios son exclusivos, es decir, si un estudiante obtiene el premio, ningún otro estudiante puede obtener el premio, entonces sus resultados se unen; un recuento para el estudiante a empuja hacia abajo el posible recuento de todos los demás. Si vale la pena preocuparse por esto depende de la estructura de premios y del tamaño de la población estudiantil. Lo ignoraría en un primer paso.

En conclusión, Poisson domina cómodamente a Normal, excepto para recuentos muy grandes, pero verifique los supuestos del Poisson antes de apoyarse en él para inferencia, y prepárese para pasar a una clase de modelo ligeramente más compleja si es necesario.

conjugadoprior
fuente
9

La regresión de Poisson sería más adecuada en este caso porque su respuesta es el conteo de algo.

En pocas palabras, modelamos que la distribución del número de premios para un estudiante individual proviene de una distribución de poisson, y que cada estudiante tiene su propio parámetro poisson. La regresión de Poisson relaciona este parámetro con las variables explicativas, en lugar del recuento.λ

La razón por la que esto es mejor que la regresión lineal normal es por los errores. Si nuestro modelo es correcto, y cada estudiante tiene su propia , entonces para una dada esperaríamos una distribución de poisson de conteos a su alrededor, es decir, una distribución asimétrica. Esto significa que valores inusualmente altos no son tan sorprendentes como inusualmente bajos.λλ

La regresión lineal normal supone errores normales alrededor de la media y, por lo tanto, los pondera de igual manera. Esto dice que si un estudiante tiene un número esperado de premios de 1, es tan probable que reciba -2 premios como para que reciba 3 premios: esto es claramente una tontería y qué poisson está diseñado para abordar.

Corone
fuente
8

La regresión ordinaria de los mínimos cuadrados de los premios en los predictores producirá estimaciones de parámetros consistentes siempre que la media condicional de los premios sea lineal en los predictores. Pero esto a menudo es inadecuado, ya que permite que el número previsto de premios sea negativo (incluso para valores "razonables" de predictores), lo que no tiene sentido. La gente a menudo intentará remediar esto tomando el registro natural de premios y usando OLS. Pero esto falla ya que algunos estudiantes no reciben premios, por lo que debe usar algo como , pero esto crea sus propios problemas, ya que presumiblemente le importan los premios, y la transformación no es trivial.ln(awards+0.5)

Además, a medida que el número esperado de premios se vuelve muy grande, OLS debería funcionar mejor por las razones descritas por @Corone. En Lake Wobegon , OLS es el camino a seguir.

Si el número esperado es bajo, con muchos ceros, usaría el Poisson con errores estándar robustos sobre el modelo binomial negativo. NB regresión hace una fuerte suposición acerca de la varianza que aparece en las condiciones de primer orden que producen los coeficientes. Si no se cumplen estos supuestos, los coeficientes mismos podrían contaminarse. Ese no es el caso con el Poisson.

Dimitriy V. Masterov
fuente
4

@corone plantea buenos puntos, pero tenga en cuenta que el Poisson solo es realmente asimétrico cuando es pequeño. Incluso para = 10, es bastante simétrico, por ejemplo.λλ

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

muestra un sesgo de 0,31, que es bastante cercano a 0.

También me gustan los puntos de @conjugateprior. En mi experiencia, es raro que la regresión de Poisson se ajuste bien; Por lo general, termino usando un binomio negativo o un modelo inflado a cero.

Peter Flom - Restablece a Monica
fuente