Reflexiono sobre la discusión en torno a esta pregunta y, en particular, sobre el comentario de Frank Harrell de que la estimación de la varianza en un modelo reducido (es decir, uno a partir del cual se probaron y rechazaron varias variables explicativas) debería usar los grados de libertad generalizados de Ye . El profesor Harrell señala que esto estará mucho más cerca de los grados residuales de libertad del modelo "completo" original (con todas las variables incluidas) que de un modelo final (del cual se han rechazado varias variables).
Pregunta 1. Si quiero usar un enfoque apropiado para todos los resúmenes y estadísticas estándar de un modelo reducido (pero con una implementación completa de Grados de libertad generalizados), un enfoque razonable sería usar solo los grados residuales de libertad de ¿El modelo completo en mis estimaciones de varianza residual, etc.?
Pregunta 2. Si lo anterior es cierto y quiero hacerlo R
, ¿podría ser tan simple como configurar
finalModel$df.residual <- fullModel$df.residual
en algún momento del ejercicio de ajuste del modelo, donde finalModel y fullModel se crearon con lm () o una función similar. Después de lo cual, funciones como summary () y confint () parecen funcionar con el df.residual deseado, aunque devuelve un mensaje de error que alguien claramente ha sacado a relucir con el objeto finalModel.
fuente
lmer
salida. Vea su razonamiento aquí .Respuestas:
¿No está de acuerdo con la respuesta de @ FrankHarrel de que la parsimonia viene con algunas compensaciones científicas feas, de todos modos?
Me encanta el enlace proporcionado en el comentario de @ MikeWiezbicki a la justificación de Doug Bates. Si alguien no está de acuerdo con su análisis, puede hacerlo a su manera, y esta es una forma divertida de comenzar una discusión científica sobre sus supuestos básicos. Un valor p no convierte su conclusión en una "verdad absoluta".
Si la decisión de incluir o no un parámetro en su modelo se reduce a "recoger pelos" sobre lo que son, para muestras científicamente significativas, discrepancias relativamente pequeñas en el df, y no está lidiando con problemas que justifiquen de todos modos, de inferencia más matizada, entonces tienes un parámetro tan cerca de cumplir tus límites que deberías ser transparente y hablar sobre ello de cualquier manera: solo inclúyelo o analiza el modelo con y sin él, pero definitivamente discute transparentemente tu decisión en El análisis final.n < p
fuente