¿Alguien podría aconsejar si lo siguiente tiene sentido:
Estoy tratando con un modelo lineal ordinario con 4 predictores. Estoy en dos mentes si abandonar el término menos significativo. Su valor es un poco más de 0.05. He argumentado a favor de dejarlo caer en estas líneas: multiplicar la estimación de este término por (por ejemplo) el rango intercuartil de los datos de la muestra para esta variable, da algún significado al efecto clínico que tiene mantener este término en el modelo general . Dado que este número es muy bajo, aproximadamente igual al rango de valores intradía típico que la variable puede tomar al medirlo en un entorno clínico, lo veo como no clínicamente significativo y, por lo tanto, podría descartarse para dar un modelo más parsimonioso, incluso aunque se caiga reduce el ajustado un poco.
fuente
Respuestas:
Nunca he entendido el deseo de parsimonia. La búsqueda de parsimonia destruye todos los aspectos de la inferencia estadística (sesgo de los coeficientes de regresión, errores estándar, intervalos de confianza, valores P). Una buena razón para mantener variables es que esto preserva la precisión de los intervalos de confianza y otras cantidades. Piénselo de esta manera: solo se han desarrollado dos estimadores imparciales de la varianza residual en la regresión múltiple ordinaria: (1) la estimación del modelo (grande) preespecificado, y (2) la estimación de un modelo reducido que sustituye a los grados generalizados de libertad (GDF) para grados de libertad de regresión aparente (reducida). GDF estará mucho más cerca del número de parámetros candidatos que del número de parámetros "significativos" finales.
Aquí hay otra forma de pensarlo. Suponga que está haciendo un ANOVA para comparar 5 tratamientos, obteniendo una prueba F de 4 df. Luego, por alguna razón, observa las diferencias por pares entre los tratamientos que usan pruebas t y decide combinar o eliminar algunos de los tratamientos (esto es lo mismo que hacer una selección por pasos usando P, AIC, BIC, Cp en las 4 variables ficticias). La prueba F resultante con 1, 2 o 3 df tendrá un error de tipo I inflado. La prueba F original con 4 df contenía un ajuste de multiplicidad perfecto.
fuente
Estas respuestas sobre la selección de variables suponen que el costo de la observación de variables es 0.
Y eso no es cierto.
Si bien la cuestión de la selección de variables para un modelo dado puede o no involucrar la selección, las implicaciones para el comportamiento futuro sí implican la selección.
Considere el problema de predecir qué liniero universitario tendrá mejores resultados en la NFL. Eres un explorador Debe considerar qué cualidades de los linieros actuales en la NFL son más predictivas de su éxito. Mide 500 cantidades y comienza la tarea de seleccionar las cantidades que se necesitarán en el futuro.
Que deberias hacer ¿Deberías retener los 500? ¿Deben eliminarse algunos (signo astrológico, día de la semana de nacimiento)?
Esta es una pregunta importante, y no es académica. La observación de datos tiene un costo, y el marco de costo-efectividad sugiere que algunas variables NO DEBEN observarse en el futuro, ya que su valor es bajo.
fuente
Existen al menos otras dos posibles razones para mantener una variable: 1) Afecta los parámetros para OTRAS variables. 2) El hecho de que sea pequeño es clínicamente interesante en sí mismo
Para ver aproximadamente 1, puede ver los valores pronosticados para cada persona de un modelo con y sin la variable en el modelo. Sugiero hacer un diagrama de dispersión de estos dos conjuntos de valores. Si no hay grandes diferencias, entonces ese es un argumento en contra de esta razón
Para 2, piense por qué tenía esta variable en la lista de posibles variables. ¿Se basa en la teoría? ¿Otra investigación encontró un tamaño de efecto grande?
fuente
El consejo más común en estos días es obtener el AIC de los dos modelos y tomar el que tenga el AIC más bajo. Entonces, si su modelo completo tiene un AIC de -20 y el modelo sin el predictor más débil tiene un AIC> -20, entonces conserva el modelo completo. Algunos podrían argumentar que si la diferencia <3 se mantiene la más simple. Prefiero el consejo de que podría usar el BIC para romper los "lazos" cuando los AIC están dentro de 3 entre sí.
Si está utilizando R entonces el comando para obtener la AIC es ...
AIC
.Tengo un libro de texto sobre modelado aquí de principios de los 90 que sugiere que elimine todos sus predictores que no son significativos. Sin embargo, esto realmente significa que dejará de funcionar independientemente de la complejidad que el predictor agregue o reste del modelo. También es solo para ANOVA donde la importancia se trata de la variabilidad explicada en lugar de la magnitud de la pendiente a la luz de lo que otras cosas se han explicado. El consejo más moderno de usar AIC toma en consideración estos factores. Hay todo tipo de razones por las que el predictor no significativo debe incluirse incluso si no es significativo. Por ejemplo, puede haber problemas de correlación con otros predictores, ya que puede ser un predictor relativamente simple. Si desea el consejo más simple, vaya con AIC y use BIC para romper lazos y use una diferencia de 3 como su ventana de igualdad.
fuente
¿Para qué estás usando este modelo? ¿Es la parsimonia un objetivo importante?
Se prefieren modelos más parsimoniosos en algunas situaciones, pero no diría que la parsimonia es algo bueno en sí mismo. Los modelos parsimoniosos pueden entenderse y comunicarse más fácilmente, y la parsimonia puede ayudar a proteger contra el ajuste excesivo, pero a menudo estos problemas no son preocupaciones importantes o pueden abordarse de otra manera.
Acercarse desde la dirección opuesta, incluyendo un término adicional en una ecuación de regresión, tiene algunos beneficios incluso en situaciones en las que el término extra en sí mismo no es de interés y no mejora mucho el ajuste del modelo ... es posible que no piense que es una variable importante para controlar, pero otros podrían. Por supuesto, hay otras razones sustantivas muy importantes para excluir una variable, por ejemplo, podría ser causada por el resultado.
fuente
Según su redacción, suena como si estuviera inclinado a soltar el último predictor porque su valor predictivo es bajo; un cambio sustancial en ese predictor no implicaría un cambio sustancial en la variable de respuesta. Si ese es el caso, entonces me gusta este criterio para incluir / descartar el predictor. Está más basado en la realidad práctica de lo que puede ser el AIC o BIC, y más explicable a su audiencia para esta investigación.
fuente