Regresión con datos sesgados

11

Intentando calcular el recuento de visitas a partir de la demografía y el servicio. Los datos están muy sesgados.

Histogramas:

histogramas

parcelas qq (a la izquierda está el registro):

parcelas qq - derecha es log

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityy serviceson variables factoriales.

Obtengo un valor p bajo *** para todas las variables, pero también obtengo un r-cuadrado bajo de .05. ¿Qué tengo que hacer? ¿Funcionaría otro modelo, como exponencial o algo así?

pxxd
fuente
Dado que lo que originalmente pensé que era una alta frecuencia de ceros era en realidad una alta frecuencia de dos, ¿podría contarnos un poco más sobre el proceso de generación de datos? ¿Para qué tipo de servicio iban las personas y cuál es el "objetivo final" del análisis? ¿Está tratando de predecir el número (recuento) de visitas, dado un conjunto de características (es decir, como una medida de la calidad del servicio)? ¿Es absolutamente necesario mantener el resultado como recuento con el fin de responder a su pregunta de investigación, o podría colapsar la variable de resultado en menos categorías, pero más grandes?
Marqués de Carabas
2
Tienes datos de conteo. Busque en este sitio la regresión de Poisson.
kjetil b halvorsen

Respuestas:

10

La regresión lineal no es la elección correcta para su resultado, dado:

  1. La variable de resultado no se distribuye normalmente
  2. La variable de resultado está limitada en los valores que puede asumir (los datos de conteo significan que los valores pronosticados no pueden ser negativos)
  3. Lo que parece ser una alta frecuencia de casos con 0 visitas

Modelos de variables dependientes limitadas para datos de conteo

La estrategia de estimación que puede elegir está dictada por la "estructura" de su variable de resultado. Es decir, si su variable de resultado está limitada en los valores que puede tomar (es decir, si es una variable dependiente limitada ), debe elegir un modelo en el que los valores pronosticados se encuentren dentro del rango posible para su resultado. Si bien a veces la regresión lineal es una buena aproximación para variables dependientes limitadas (por ejemplo, en el caso de logit / probit binario), a menudo no lo es. Ingrese modelos lineales generalizados . En su caso, debido a que la variable de resultado son los datos de conteo, tiene varias opciones:

  1. Modelo de Poisson
  2. Modelo binomial negativo
  3. Modelo de Poisson cero inflado (ZIP)
  4. Modelo Binomial Negativo Cero Inflado (ZINB)

La elección generalmente se determina empíricamente. Discutiré brevemente la elección entre estas opciones a continuación.


Poisson vs. Binomio negativo

θH0:θ=0H1:θ0θ

ZIP vs. ZINB

Una posible complicación es la inflación cero, que podría ser un problema aquí. Aquí es donde entran en juego los modelos ZIP y ZINB inflados con cero. Al usar estos modelos, usted asume que el proceso que genera los valores cero está separado del proceso que genera los otros valores distintos de cero. Al igual que antes, ZINB es apropiado cuando el resultado tiene ceros excesivos y se dispersa en exceso, mientras que ZIP es apropiado cuando el resultado tiene ceros excesivos pero media condicional = varianza condicional. Para los modelos inflados a cero, además de las covariables del modelo que ha enumerado anteriormente, deberá pensar en las variables que pueden haber generado los ceros en exceso que vio en el resultado. Una vez más, hay pruebas estadísticas que vienen con la salida de estos modelos (a veces puede que tenga que especificarlas cuando ejecuta un comando) que le permitiránθ

θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


θθ

Finalmente, no uso R, pero la página de ejemplos de análisis de datos de IDRE en UCLA puede guiarlo en la adaptación de estos modelos.

[Edite por otro usuario sin suficiente reputación para comentar: este documento explica por qué no debe usar la prueba de Vuong para comparar un modelo de inflación cero y ofrece alternativas.

P. Wilson, "El mal uso de la prueba de Vuong para modelos no anidados para probar la inflación cero". Cartas de economía, 2015, vol. 127, número C, 51-53 ]

Marqués de carabas
fuente
la mayoría son 2 ~ visitas. Todos los registros son más de 1 visita
pxxd
Estoy obteniendo gráficos qq similares para glm de poisson y gamma, ¿está bien?
pxxd
3
1. La variable de resultado no se distribuye normalmente no es per se un argumento válido contra la regresión lineal. Un conjunto de supuestos de regresión que garantiza buenas propiedades del estimador (como la consistencia y la normalidad asintótica) no incluye la normalidad de la variable de resultado (y ni siquiera la normalidad de los errores).
Richard Hardy
2

Pruebe el modelo lineal generalizado con distribución gamma. Puede aproximarse bien a su variable dependiente, ya que es positiva e igual a cero en x = 0. He usado R y GLM con cierto éxito en un caso similar.

Diego
fuente
Visits d
1
No, creo que no deberías usar el enlace de registro sino el enlace de identidad. Pero primero verifique qué tan bien la función gamma se ajusta a su distribución.
Diego
0

Todos los supuestos estadísticos son sobre los errores de un modelo. Si crea un modelo simple utilizando 6 series de indicadores que reflejan el día de la semana ... comenzará a ver una distribución mucho más agradable de los errores. Proceda a incorporar efectos mensuales y efectos festivos (ANTES, ENCENDIDO Y DESPUÉS) y la distribución de errores será aún más agradable. Agregar el día del mes, la semana del mes, los indicadores de fin de semana largo y las cosas serán aún mejores.

Mire el método simple de pronosticar el número de invitados con datos actuales e históricos y /stats//search?q=user%3A3382+daily+data para una lectura más divertida.

IrishStat
fuente
1
Esta respuesta no parece referirse a la pregunta realmente formulada. ¿Podría hacer explícita la conexión?
whuber
Tomé sus DVISITS para sugerir datos diarios ... si eso no es así, rescindiré mi respuesta. Si es verdaderamente transversal ... entonces quizás debería considerar estratificar los datos por clasificaciones principales.
IrishStat