Estoy tratando de entender qué es un modelo saturado. AFAIK es cuando tienes tantas características como observaciones.
¿Podemos decir que un modelo saturado es un caso especial de un modelo extremadamente sobreajustado?
overfitting
Ricardo Cruz
fuente
fuente
Respuestas:
@ Tomka tiene razón. Un modelo saturado se ajusta a tantos parámetros como sea posible para un conjunto dado de predictores, pero si está sobreajustado o no depende del número de observaciones para cada patrón único de predictores. Suponga que tiene un modelo lineal con 100 observaciones de en y 100 en . Entonces, el modelo está saturado pero seguramente no está demasiado ajustado. Pero si tiene una observación de para cada una de el modelo está saturado y tiene un ajuste perfecto, sin duda demasiado ajustado † .x = 0 x = 1 E Y = β 0 + β 1 x y x = ( 0 , 1 , 2 , 3 , 4 ) T E Y = β 0 + β 1 x + β 2 x 2 + β 3 x 3 + β 4 x 4y x = 0 x = 1 miY= β0 0+ β1X y x = ( 0 , 1 , 2 , 3 , 4 )T miY= β0 0+ β1x + β2X2+ β3X3+ β4 4X4 4
Cuando las personas hablan de modelos saturados que tienen tantos parámetros como observaciones, como en la página web vinculada y la publicación de CV, están asumiendo un contexto de una observación para cada patrón de predicción. (O tal vez a veces use 'observación' de manera diferente: ¿hay 100 individuos en una tabla de contingencia 2 × 2 100 observaciones de individuos o 4 observaciones de frecuencias celulares?
† No tome "seguramente" y "sin duda" literalmente, por cierto. Es posible para el primer modelo que sea tan pequeño en comparación con que predeciría mejor sin tratar de estimarlo, y viceversa para el segundo. Var Yβ1 VarY
fuente