Necesidad de centrar y estandarizar datos en regresión

16

Considere la regresión lineal con cierta regularización: Ej. Encuentre que minimice| El | A x - b | El | 2 + λ | El | x | El | 1x||Axb||2+λ||x||1

Por lo general, las columnas de A están estandarizadas para tener una media cero y una norma unitaria, mientras que se centra para tener una media cero. Quiero asegurarme de que mi comprensión de la razón para estandarizar y centrar sea correcta.b

Al hacer que las medias de las columnas de y cero, ya no necesitamos un término de intercepción. De lo contrario, el objetivo habría sido . Al hacer que las normas de las columnas de A sean iguales a 1, eliminamos la posibilidad de un caso donde solo porque una columna de A tiene una norma muy alta, obtiene un coeficiente bajo en , lo que podría llevarnos a concluir incorrectamente que esa columna de A no "explica" bien.Ab||Axx01b||2+λ||x||1xx

Este razonamiento no es exactamente riguroso sino intuitivamente, ¿es esa la forma correcta de pensar?

rk2
fuente

Respuestas:

14

Tienes razón acerca de poner a cero las medias de las columnas de y b .Ab

Sin embargo, en cuanto al ajuste de las normas de las columnas de , considere lo que sucedería si comenzara con una A normalizada , y todos los elementos de x fueran aproximadamente de la misma magnitud. Luego multipliquemos una columna por, digamos, 10 - 6 . El elemento correspondiente de x , en una regresión no regularizada, aumentaría en un factor de 10 6 . ¿Ves qué pasaría con el término de regularización? La regularización, a todos los efectos prácticos, se aplicaría solo a ese coeficiente. AAx106x106

Al normalizar las columnas de , nosotros, escribiendo intuitivamente, las colocamos todas en la misma escala. En consecuencia, las diferencias en las magnitudes de los elementos de x están directamente relacionadas con el "meneo" de la función explicativa ( A x ), que es, en términos generales, lo que la regularización intenta controlar. Sin él, un valor de coeficiente de, por ejemplo, 0.1 frente a otro de 10.0 le indicaría que, en ausencia de conocimiento sobre A , nada sobre qué coeficiente estaba contribuyendo más a la "ondulación" de A x . (Para una función lineal, como A x , "wiggliness" está relacionado con la desviación de 0.)AxAxAAxAx

Para volver a su explicación, si una columna de tiene una norma muy alta, y por alguna razón obtiene un coeficiente bajo en x , no concluiríamos que la columna de A no "explica" bien x . A no "explica" x en absoluto. AxAxAx

jbowman
fuente
¿Quieres decir $x$ does not ''explain'' $A$ welly decir x does not ''explain'' $A$ at all? son los datos, mientras que x es el modelo en este caso. Ax
user3813057
@ user3813057: esta fue una pregunta sobre la regularización y no tiene nada que ver con el poder explicativo. normalmente se etiquetaría como β , A normalmente se etiquetaría como X y b se etiquetaría como y . x no está ahí para explicar A en absoluto. xβAXbyxA
jbowman