Esto parece muy elemental, pero siempre me atoro en este punto ...
La mayoría de los datos con los que trato no son normales, y la mayoría de los análisis se basan en una estructura GLM. Para mi análisis actual, tengo una variable de respuesta que es "velocidad de marcha" (metros / minuto). ¡Es fácil para mí identificar que no puedo usar OLS, pero tengo una gran incertidumbre al decidir qué familia (Gamma, Weibull, etc.) es apropiada!
Uso Stata y miro diagnósticos como residuos y heterocedasticidad, residuos versus valores ajustados, etc.
Soy consciente de que los datos de recuento pueden tomar la forma de una tasa (p. Ej., Tasas de incidencia) y han utilizado gamma (el análogo a los modelos binomiales negativos discretos sobredispersados), pero me gustaría que una "pistola humeante" dijera SÍ, TIENE EL DERECHO FAMILIA. ¿Es la observación de los residuos estandarizados versus los valores ajustados la única y mejor manera de hacer esto? También me gustaría usar un modelo mixto para dar cuenta de cierta jerarquía en los datos, pero primero necesito resolver qué familia describe mejor mi variable de respuesta.
Cualquier ayuda apreciada. Lenguaje Stata especialmente apreciado!
Respuestas:
Tengo algunos consejos:
(1) Cómo los residuos deberían compararse con los ajustes no siempre es tan obvio, por lo que es bueno estar familiarizado con los diagnósticos para modelos particulares. En los modelos de regresión logística, por ejemplo, la estadística de Hosmer-Lemeshow se usa para evaluar la bondad del ajuste; los valores de apalancamiento tienden a ser pequeños cuando las probabilidades estimadas son muy grandes, muy pequeñas o casi iguales; & pronto.
(2) A veces, una familia de modelos puede verse como un caso especial de otro, por lo que puede usar una prueba de hipótesis en un parámetro para ayudarlo a elegir. Exponencial vs Weibull, por ejemplo.
(3) El Criterio de información de Akaike es útil para elegir entre diferentes modelos, lo que incluye elegir entre diferentes familias.
(4) El conocimiento teórico / empírico sobre lo que está modelando reduce el campo de los modelos plausibles.
Pero no hay una forma automática de encontrar la familia 'correcta'; Los datos de la vida real pueden provenir de distribuciones tan complicadas como desee, y la complejidad de los modelos que vale la pena intentar ajustar aumenta con la cantidad de datos que tiene. Esto forma parte del dictamen de Box de que ningún modelo es verdadero pero que algunos son útiles.
Comentario de Re @ gung: parece que la prueba de Hosmer-Lemeshow comúnmente utilizada es (a) sorprendentemente sensible a la elección de los contenedores, y (b) generalmente menos poderosa que algunas otras pruebas contra algunas clases relevantes de hipótesis alternativas. Eso no resta valor al punto (1): también es bueno estar actualizado.
fuente
Puede que le resulte interesante leer la viñeta (manual introductorio) para el paquete R
fitdistrplus
. Reconozco que prefiere trabajar en Stata, pero creo que la viñeta se explicará lo suficiente como para que pueda obtener algunas ideas sobre el proceso de inferir familias distribucionales a partir de los datos. Probablemente podrá implementar algunas de las ideas en Stata a través de su propio código. En particular, creo que el gráfico de Cullen y Frey, si se implementa / podría implementarse en Stata, puede ser útil para usted.fuente