Intentando calcular el recuento de visitas a partir de la demografía y el servicio. Los datos están muy sesgados.
Histogramas:
parcelas qq (a la izquierda está el registro):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
y service
son variables factoriales.
Obtengo un valor p bajo *** para todas las variables, pero también obtengo un r-cuadrado bajo de .05. ¿Qué tengo que hacer? ¿Funcionaría otro modelo, como exponencial o algo así?
Respuestas:
La regresión lineal no es la elección correcta para su resultado, dado:
Modelos de variables dependientes limitadas para datos de conteo
La estrategia de estimación que puede elegir está dictada por la "estructura" de su variable de resultado. Es decir, si su variable de resultado está limitada en los valores que puede tomar (es decir, si es una variable dependiente limitada ), debe elegir un modelo en el que los valores pronosticados se encuentren dentro del rango posible para su resultado. Si bien a veces la regresión lineal es una buena aproximación para variables dependientes limitadas (por ejemplo, en el caso de logit / probit binario), a menudo no lo es. Ingrese modelos lineales generalizados . En su caso, debido a que la variable de resultado son los datos de conteo, tiene varias opciones:
La elección generalmente se determina empíricamente. Discutiré brevemente la elección entre estas opciones a continuación.
Poisson vs. Binomio negativo
ZIP vs. ZINB
Una posible complicación es la inflación cero, que podría ser un problema aquí. Aquí es donde entran en juego los modelos ZIP y ZINB inflados con cero. Al usar estos modelos, usted asume que el proceso que genera los valores cero está separado del proceso que genera los otros valores distintos de cero. Al igual que antes, ZINB es apropiado cuando el resultado tiene ceros excesivos y se dispersa en exceso, mientras que ZIP es apropiado cuando el resultado tiene ceros excesivos pero media condicional = varianza condicional. Para los modelos inflados a cero, además de las covariables del modelo que ha enumerado anteriormente, deberá pensar en las variables que pueden haber generado los ceros en exceso que vio en el resultado. Una vez más, hay pruebas estadísticas que vienen con la salida de estos modelos (a veces puede que tenga que especificarlas cuando ejecuta un comando) que le permitiránθ
Finalmente, no uso R, pero la página de ejemplos de análisis de datos de IDRE en UCLA puede guiarlo en la adaptación de estos modelos.
[Edite por otro usuario sin suficiente reputación para comentar: este documento explica por qué no debe usar la prueba de Vuong para comparar un modelo de inflación cero y ofrece alternativas.
P. Wilson, "El mal uso de la prueba de Vuong para modelos no anidados para probar la inflación cero". Cartas de economía, 2015, vol. 127, número C, 51-53 ]
fuente
Pruebe el modelo lineal generalizado con distribución gamma. Puede aproximarse bien a su variable dependiente, ya que es positiva e igual a cero en x = 0. He usado R y GLM con cierto éxito en un caso similar.
fuente
Todos los supuestos estadísticos son sobre los errores de un modelo. Si crea un modelo simple utilizando 6 series de indicadores que reflejan el día de la semana ... comenzará a ver una distribución mucho más agradable de los errores. Proceda a incorporar efectos mensuales y efectos festivos (ANTES, ENCENDIDO Y DESPUÉS) y la distribución de errores será aún más agradable. Agregar el día del mes, la semana del mes, los indicadores de fin de semana largo y las cosas serán aún mejores.
Mire el método simple de pronosticar el número de invitados con datos actuales e históricos y /stats//search?q=user%3A3382+daily+data para una lectura más divertida.
fuente