Grados residuales apropiados de libertad después de eliminar términos de un modelo

Reflexiono sobre la discusión en torno a esta pregunta y, en particular, sobre el comentario de Frank Harrell de que la estimación de la varianza en un modelo reducido (es decir, uno a partir del cual se probaron y rechazaron varias variables explicativas) debería usar los grados de libertad generalizados de Ye . El profesor Harrell señala que esto estará mucho más cerca de los grados residuales de libertad del modelo "completo" original (con todas las variables incluidas) que de un modelo final (del cual se han rechazado varias variables).

Pregunta 1. Si quiero usar un enfoque apropiado para todos los resúmenes y estadísticas estándar de un modelo reducido (pero con una implementación completa de Grados de libertad generalizados), un enfoque razonable sería usar solo los grados residuales de libertad de ¿El modelo completo en mis estimaciones de varianza residual, etc.?

Pregunta 2. Si lo anterior es cierto y quiero hacerlo R, ¿podría ser tan simple como configurar

finalModel$df.residual <- fullModel$df.residual

en algún momento del ejercicio de ajuste del modelo, donde finalModel y fullModel se crearon con lm () o una función similar. Después de lo cual, funciones como summary () y confint () parecen funcionar con el df.residual deseado, aunque devuelve un mensaje de error que alguien claramente ha sacado a relucir con el objeto finalModel.

r regression model-selection regression-strategies Peter Ellis
fuente

Buena pregunta. Esto está relacionado con por qué Douglas Bates no incluye valores p en la lmersalida. Vea su razonamiento aquí .

He visto el modelo completo df usado en tal situación más de una vez. (El enfoque de Ye surge mucho en diferentes situaciones; es un documento que recomiendo a las personas con regularidad. Sería bueno tener alguna función R genérica pero eficiente que muchas funciones podrían aprovechar.)

Glen_b -Reinstalar a Monica

Respuestas:

¿No está de acuerdo con la respuesta de @ FrankHarrel de que la parsimonia viene con algunas compensaciones científicas feas, de todos modos?

Me encanta el enlace proporcionado en el comentario de @ MikeWiezbicki a la justificación de Doug Bates. Si alguien no está de acuerdo con su análisis, puede hacerlo a su manera, y esta es una forma divertida de comenzar una discusión científica sobre sus supuestos básicos. Un valor p no convierte su conclusión en una "verdad absoluta".

Si la decisión de incluir o no un parámetro en su modelo se reduce a "recoger pelos" sobre lo que son, para muestras científicamente significativas, discrepancias relativamente pequeñas en el df, y no está lidiando con problemas que justifiquen de todos modos, de inferencia más matizada, entonces tienes un parámetro tan cerca de cumplir tus límites que deberías ser transparente y hablar sobre ello de cualquier manera: solo inclúyelo o analiza el modelo con y sin él, pero definitivamente discute transparentemente tu decisión en El análisis final. $n<p$

egbutter
fuente

+1 y ahora me inclino a aceptar que, de hecho, mi pregunta original no es tan importante dados estos otros problemas

Peter Ellis