Estoy ejecutando un modelo logístico. El conjunto de datos del modelo real tiene más de 100 variables, pero elijo un conjunto de datos de prueba en el que hay alrededor de 25 variables. Antes de eso también hice un conjunto de datos que tenía 8-9 variables. Me dicen que los valores AIC y SC se pueden usar para comparar el modelo. Observé que el modelo tenía valores SC más altos incluso cuando la variable tenía valores p bajos (por ejemplo, 0053). Para mi intuición, un modelo que tiene variables que tienen un buen nivel de significancia debería dar como resultado valores SC y AIC bajos. Pero eso no está sucediendo. ¿Alguien puede aclarar esto? En resumen, quiero hacer las siguientes preguntas:
- ¿El número de variable tiene algo que ver con SC AIC?
- ¿Debo concentrarme en los valores p o valores bajos de SC AIC?
- ¿Cuáles son las formas típicas de reducir los valores SC AIC?
fuente
Agrupar SC y AIC juntos ES INCORRECTO . Son cosas muy diferentes, a pesar de que la gente las usa mal. AIC es significativo cuando predice cosas, usar SC en este escenario puede conducir (no todas las veces) a resultados incorrectos. Del mismo modo, si está interesado en hacer una selección de modelo con el principio de parsimonia (Navaja de Occam), SC es mejor. No quiero entrar en los detalles teóricos, pero en pocas palabras: SC - bueno para modelos parsimoniosos cuando quieres algo equivalente al modelo más simple posible para explicar tus datos, AIC - Cuando quieres predecir. AIC no asume que su verdadero modelo se encuentra en el espacio del modelo donde lo hace SC.
En segundo lugar, el uso de valores p y criterios de información juntos también puede ser engañoso como se explica por chl .
fuente