¿Por qué usar la regularización en la regresión polinómica en lugar de disminuir el grado?

32

Al hacer la regresión, por ejemplo, dos hiperparámetros para elegir son a menudo la capacidad de la función (por ejemplo, el mayor exponente de un polinomio) y la cantidad de regularización. Lo que me confunde es, ¿por qué no elegir una función de baja capacidad y luego ignorar cualquier regularización? De esa manera, no se sobreajustará. Si tengo una función de alta capacidad junto con la regularización, ¿no es eso lo mismo que tener una función de baja capacidad y no regularización?

regression machine-learning optimization regularization polynomial Karnivaurus
fuente

49

Recientemente hice una pequeña aplicación de navegador que puedes usar para jugar con estas ideas: Scatterplot Smoothers (*).

Aquí hay algunos datos que inventé, con un ajuste polinómico de bajo grado

$0.6$ $0.85$ $0.85$

Para deshacernos del sesgo, podemos aumentar el grado de la curva a tres, pero el problema persiste, la curva cúbica sigue siendo demasiado rígida.

Entonces continuamos aumentando el grado, pero ahora incurrimos en el problema opuesto

Esta curva rastrea los datos demasiado de cerca, y tiene una tendencia a volar en direcciones no tan bien confirmadas por patrones generales en los datos. Aquí es donde entra en juego la regularización. Con la misma curva de grado (diez) y alguna regularización bien elegida

¡Nos quedamos realmente bien!

Vale la pena centrarse un poco en un aspecto bien elegido anteriormente. Cuando ajusta polinomios a los datos, tiene un conjunto discreto de opciones de grado. Si una curva de grado tres no está ajustada y una curva de grado cuatro está sobreajustada, no tiene a dónde ir en el medio. La regularización resuelve este problema, ya que le brinda un rango continuo de parámetros de complejidad para jugar.

¿Cómo se dice "Tenemos un buen ajuste!". Para mí, todos se ven iguales, es decir, poco concluyentes. ¿Qué racional estás usando para decidir qué es un buen y un mal ajuste?

Punto justo.

La suposición que estoy haciendo aquí es que un modelo bien ajustado no debe tener un patrón discernible en los residuos. Ahora, no estoy trazando los residuos, por lo que debes hacer un poco de trabajo al mirar las imágenes, pero deberías poder usar tu imaginación.

En la primera imagen, con la curva cuadrática ajustada a los datos, puedo ver el siguiente patrón en los residuos

De 0.0 a 0.3 están colocados de manera uniforme por encima y por debajo de la curva.
De 0.3 a aproximadamente 0.55 todos los puntos de datos están por encima de la curva.
De 0.55 a aproximadamente 0.85 todos los puntos de datos están debajo de la curva.
A partir de 0.85, todos están por encima de la curva nuevamente.

Me referiría a estos comportamientos como sesgo local , hay regiones donde la curva no se aproxima bien a la media condicional de los datos.

Compare esto con el último ajuste, con la spline cúbica. No puedo seleccionar ninguna región a simple vista donde el ajuste no parezca que se ejecuta precisamente a través del centro de masa de los puntos de datos. Esto es generalmente (aunque de manera imprecisa) lo que quiero decir con un buen ajuste.

$2$

Su comportamiento en los límites de sus datos puede ser muy caótico, incluso con la regularización.
No son locales en ningún sentido. Cambiar sus datos en un lugar puede afectar significativamente el ajuste en un lugar muy diferente.

En cambio, en una situación como la que usted describe, recomiendo utilizar splines cúbicos naturales junto con la regularización, que ofrecen el mejor compromiso entre flexibilidad y estabilidad. Puede verlo usted mismo ajustando algunas splines en la aplicación.

(*) Creo que esto solo funciona en Chrome y Firefox debido al uso de algunas características modernas de JavaScript (y la holgazanería general para solucionarlo en safari y, por ejemplo). El código fuente está aquí , si está interesado.

Matthew Drury
fuente

3

Gracias, y su herramienta de navegador es increíble. ¡Me encantan las pequeñas demostraciones interactivas como esa!

Karnivaurus

@Karnivaurus Gracias, me alegra haber podido ayudar. La herramienta fue divertida de construir, me gusta escribir javascript:)

Matthew Drury

3

+6. ¡Buen trabajo escribiendo esta herramienta! Recibirás una recompensa de mí una vez que el hilo sea lo suficientemente viejo como para ponerle una recompensa.

ameba dice Reinstate Monica

44

+1 Esta es una muy buena respuesta. Una forma de mostrar la inestabilidad del ajuste polinómico de alto grado sería trazar la regresión de alto orden con un punto de datos eliminado para cada punto y contrastar eso con la solución RCS.

Sycorax dice Reinstate Monica

1

@MatthewDrury "splines cúbicas restringidas" - perdón por eso.

Sycorax dice Reinstate Monica el

4

No, no es lo mismo. Compare, por ejemplo, un polinomio de segundo orden sin regularización con un polinomio de cuarto orden con él. Este último puede presentar grandes coeficientes para las potencias tercera y cuarta siempre que esto parezca aumentar la precisión predictiva, de acuerdo con el procedimiento utilizado para elegir el tamaño de penalización para el procedimiento de regularización (probablemente validación cruzada). Esto muestra que uno de los beneficios de la regularización es que le permite ajustar automáticamente la complejidad del modelo para lograr un equilibrio entre el sobreajuste y la falta de ajuste.

Kodiologist
fuente

Pero si agrega regularización a un polinomio de cuarto orden, esto evita que use toda su expresividad. Entonces, con suficiente regularización, la expresividad se reducirá al punto en que sea tan expresiva como un polinomio de segundo orden. ¿No?

Karnivaurus

1

Tal vez si arregló el tamaño de su penalización por adelantado, pero ¿qué sentido tiene eso? El tamaño de la penalización debe elegirse en función de los datos.

Kodiólogo

4

Para los polinomios, incluso pequeños cambios en los coeficientes pueden marcar la diferencia para los exponentes más altos.

$L_2$

mathreadler
fuente

2

Todas las respuestas son geniales y tengo simulaciones similares con Matt para darle otro ejemplo para mostrar por qué el modelo complejo con regularización suele ser mejor que el modelo simple .

Hice una analogía para tener una explicación intuitiva.

Caso 1 solo tiene un estudiante de secundaria con conocimiento limitado (un modelo simple sin regularización)
En el caso 2, usted tiene un estudiante graduado pero lo restringe a usar solo el conocimiento de la escuela secundaria para resolver problemas. (modelo complejo con regularización)

Si dos personas están resolviendo el mismo problema, generalmente los estudiantes graduados trabajarían mejor solución, debido a la experiencia y las ideas sobre el conocimiento.

La Figura 1 muestra 4 accesorios para los mismos datos. 4 accesorios son línea, parábola, modelo de tercer orden y modelo de quinto orden. Puede observar que el modelo de quinto orden puede tener un problema de sobreajuste.

Por otro lado, en el segundo experimento, usaremos un modelo de quinto orden con diferentes niveles de regularización. Compare el último con el modelo de segundo orden. (se resaltan dos modelos), encontrará que el último es similar (aproximadamente tiene la misma complejidad del modelo) a la parábola, pero un poco más flexible para los datos.

Haitao Du
fuente

1

"aproximadamente tenemos la misma complejidad del modelo" ... esa es visualmente la comparación "obvia", ¿hay alguna forma matemática de medirlo?

Silverfish

¿Por qué usar la regularización en la regresión polinómica en lugar de disminuir el grado?

Respuestas: