Comprender los criterios de AIC y Schwarz

Estoy ejecutando un modelo logístico. El conjunto de datos del modelo real tiene más de 100 variables, pero elijo un conjunto de datos de prueba en el que hay alrededor de 25 variables. Antes de eso también hice un conjunto de datos que tenía 8-9 variables. Me dicen que los valores AIC y SC se pueden usar para comparar el modelo. Observé que el modelo tenía valores SC más altos incluso cuando la variable tenía valores p bajos (por ejemplo, 0053). Para mi intuición, un modelo que tiene variables que tienen un buen nivel de significancia debería dar como resultado valores SC y AIC bajos. Pero eso no está sucediendo. ¿Alguien puede aclarar esto? En resumen, quiero hacer las siguientes preguntas:

¿El número de variable tiene algo que ver con SC AIC?
¿Debo concentrarme en los valores p o valores bajos de SC AIC?
¿Cuáles son las formas típicas de reducir los valores SC AIC?

model-selection logistic aic ayush biyani
fuente

Respuestas:

$-2\log(\ell)+2k$ $k$ $p$

Sugeriría mirar la regresión penalizada , que permite realizar una selección variable para evitar problemas de sobreajuste. Esto se discute en las Estrategias de modelado de regresión de Frank Harrell (p. 207 y ss.), O Moons et al., Estimación de máxima probabilidad penalizada para ajustar directamente los modelos de predicción diagnóstica y pronóstica para el sobreoptimismo: un ejemplo clínico , J Clin Epid (2004) 57 ( 12)

Ver también el diseño paquetes ( lrm) y stepPlr ( step.plr) R, o el paquete penalizado . Puede buscar preguntas relacionadas sobre la selección de variables en este SE.

chl
fuente

Hola chl, gracias por la respuesta ... Admito que recibí información de tu respuesta ... Déjame entender y luego puedes comentar por favor. (1) Me da una pista de que los valores de P pueden disminuir si el tamaño de su muestra es grande ... ¿Es así? A mi entender, los valores de p solo pueden mostrar si se rechaza o no su hipótesis nula. (2) Ahora entiendo que necesito ver la diferencia en los valores de AIC con intercepción solamente y con covariables. Supongo que cuando decimos que queremos un AIC más bajo, queremos decir para el mismo conjunto de datos. Me queda el carácter del personaje en mi comentario, así que volveré a comentar una vez que responda, por favor,

ayush biyani

@ayush (1) las estadísticas de la prueba (por ejemplo, Wald) dependen del tamaño de la muestra (el error estándar disminuye al aumentar el tamaño de la muestra y es probable que obtenga valores p más bajos con una muestra más grande). (2) sí, aunque se puede usar AIC para comparar modelos no anidados, aquí estaba pensando en ello como una forma de comparar diferentes modelos de complejidad creciente.

chl

gracias de nuevo ... ahora obtengo la esencia del valor p. Hace unos 5 minutos, ejecuté un modelo que me da valores de p por debajo de .05 para todas las variables pero AIC de 28238.407 con intercepción solamente y con covariables 21507.933. También tengo un caso en el que AIC es 16035.xy solo con intercepción y con covariables 4234.xy. ¿Cuál es su opinión al comparar dos casos? Tenga en cuenta que el segundo modelo tenía diferentes variables 25 var, mientras que el primero tenía 20. Así que el segundo, aunque tenía más variables (25 en comparación con 20) tenía un AIC más bajo. Aunque los valores de p no fueron 0,05 para todos. Por favor sugiera ... más para preguntar después de esto ... Gracias.

ayush biyani

@ayush Es difícil responder sobre la calidad del modelo sin saber cómo se seleccionaron las variables. La brecha en AIC entre un modelo que incluye solo una intersección y algunas covariables le da una indicación sobre el "poder explicativo" de esos predictores (la desviación residual parece disminuir en mayor medida en el segundo caso que mostró, y AIC penaliza por el # parámetros como dije en mi respuesta). De ninguna manera es una respuesta completa sobre la relevancia de estos predictores. Le sugiero que haga una pregunta más específica (IMO), por ejemplo, sobre la selección de variables en GLM para su estudio específico.

chl

Agrupar SC y AIC juntos ES INCORRECTO . Son cosas muy diferentes, a pesar de que la gente las usa mal. AIC es significativo cuando predice cosas, usar SC en este escenario puede conducir (no todas las veces) a resultados incorrectos. Del mismo modo, si está interesado en hacer una selección de modelo con el principio de parsimonia (Navaja de Occam), SC es mejor. No quiero entrar en los detalles teóricos, pero en pocas palabras: SC - bueno para modelos parsimoniosos cuando quieres algo equivalente al modelo más simple posible para explicar tus datos, AIC - Cuando quieres predecir. AIC no asume que su verdadero modelo se encuentra en el espacio del modelo donde lo hace SC.

En segundo lugar, el uso de valores p y criterios de información juntos también puede ser engañoso como se explica por chl .

suncoolsu
fuente