Algunos de mis predictores están en escalas muy diferentes. ¿Necesito transformarlos antes de ajustar un modelo de regresión lineal?

Me gustaría ejecutar una regresión lineal sobre un conjunto de datos multidimensionales. Existen diferencias entre las diferentes dimensiones en términos de su magnitud de orden. Por ejemplo, la dimensión 1 generalmente tiene un rango de valores de [0, 1], y la dimensión 2 tiene un rango de valores de [0, 1000].

¿Necesito hacer alguna transformación para asegurar que los rangos de datos para diferentes dimensiones estén en la misma escala? Si es necesario, ¿hay alguna guía para este tipo de transformación?

regression multiple-regression linear-model pregunta de bit
fuente

Respuestas:

Las variables de desplazamiento / escala no afectarán su correlación con la respuesta

Para ver por qué esto es cierto, suponga que la correlación entre y es . Entonces la correlación entre y es $Y$ $X$ $\rho$ $Y$ $(X-a)/b$

\frac{c o v (Y, (X - a) / b)}{S D ((X - a) / b) \cdot S D (Y)} = \frac{c o v (Y, X / b)}{S D (X / b) \cdot S D (Y)} = \frac{\frac{1}{b} \cdot c o v (Y, X)}{\frac{1}{b} S D (X) \cdot S D (Y)} = ρ

$\frac{ {\rm cov}(Y,(X-a)/b) }{ {\rm SD}((X-a)/b) \cdot {\rm SD}(Y) } = \frac{ {\rm cov}(Y,X/b) }{ {\rm SD}(X/b) \cdot {\rm SD}(Y) } = \frac{ \frac{1}{b} \cdot {\rm cov}(Y,X) }{ \frac{1}{b}{\rm SD}(X) \cdot {\rm SD}(Y) } = \rho$

que se desprende de la definición de correlación y tres hechos:

${\rm cov}(Y, X+a) = {\rm cov}(Y,X) + \underbrace{{\rm cov}(Y,a)}_{=0} = {\rm cov}(Y,X)$
${\rm cov}(Y,aX) = a {\rm cov}(Y,X)$
${\rm SD}(aX) = a \cdot {\rm SD}(X)$

Por lo tanto, en términos de ajuste del modelo (por ejemplo, o los valores ajustados), cambiar o escalar sus variables (por ejemplo, ponerlas en la misma escala) no cambiará el modelo $R^2$ , ya que los coeficientes de regresión lineal están relacionados con las correlaciones entre las variables. Solo cambiará la escala de sus coeficientes de regresión , lo que debe tenerse en cuenta al interpretar el resultado si elige transformar sus predictores.

Editar: lo anterior ha asumido que estás hablando de una regresión ordinaria con la intercepción. Un par de puntos más relacionados con esto (gracias @cardinal):

La intersección puede cambiar cuando transforma sus variables y, como @cardinal señala en los comentarios, los coeficientes cambiarán cuando cambie sus variables si omite la intersección del modelo, aunque supongo que no lo hará a menos que tenga una buena razón (ver, por ejemplo, esta respuesta ).
Si está regularizando sus coeficientes de alguna manera (p. Ej., Lazo, regresión de cresta), entonces el centrado / escala afectará el ajuste. Por ejemplo, si está penalizando (la penalización por regresión de cresta) entonces no puede recuperar un ajuste equivalente después de la estandarización a menos que todas las variables estuvieran en la misma escala en primer lugar, es decir no hay múltiplo constante que recupere la misma penalización. $\sum \beta_{i}^{2}$

Con respecto a cuándo / por qué un investigador puede querer transformar predictores

Una circunstancia común (discutida en la respuesta posterior de @Paul) es que los investigadores estandarizarán sus predictores para que todos los coeficientes estén en la misma escala. En ese caso, el tamaño de las estimaciones puntuales puede dar una idea aproximada de qué predictores tienen el mayor efecto una vez que la magnitud numérica del predictor se ha estandarizado.

Otra razón por la que a un investigador le gustaría escalar variables muy grandes es para que los coeficientes de regresión no estén en una escala extremadamente pequeña. Por ejemplo, si desea ver la influencia del tamaño de la población de un país en la tasa de criminalidad (no podría pensar en un mejor ejemplo), es posible que desee medir el tamaño de la población en millones en lugar de en sus unidades originales, ya que el coeficiente puede ser algo como . $.00000001$

Macro
fuente

Dos comentarios rápidos: si bien el comienzo de la publicación es correcto, se pierde el hecho de que el centrado tendrá un efecto si no hay una intercepción. :) Segundo, centrar y reescalar tiene efectos importantes si se usa la regularización. Si bien el OP puede no estar considerando esto, todavía es probablemente un punto útil a tener en cuenta.

cardenal

La invariancia para reescalar también se ve fácilmente si uno se siente cómodo con la notación matricial. Con rango completo (por simplicidad), . Ahora si reemplazamos por donde es diagonal obtenemos

X

$X$

\hat{y} = X (X^{'} X)^{- 1} X^{'} y

$\hat y = X (X'X)^{-1} X'y$

X

$X$

X D

$X D$

D

$D$

\tilde{y} = (X D) ((X D)^{'} X D)^{- 1} (X D)^{'} y = X D (D X^{'} X D)^{- 1} D X^{'} y = X (X^{'} X)^{- 1} X^{'} y = \hat{y} .

$\tilde y = (X D) ((XD)'XD)^{-1} (XD)'y = X D(D X'X D)^{-1} D X'y = X (X'X)^{-1} X'y = \hat y\>.$

cardenal

@cardinal, he decidido mencionar el hecho de que, si sus estimaciones se regularizan, entonces el centrado / escalado puede tener un impacto. Al principio me resistí porque pensé que comenzaría una larga digresión que podría confundir a aquellos que no están familiarizados con la regularización, pero descubrí que podía abordarla con relativamente poco espacio. Thanks--

Macro

No todos mis comentarios están destinados necesariamente a sugerir que la respuesta debe actualizarse. Muchas veces me gusta incluir comentarios complementarios bajo buenas respuestas para dar un par de ideas sobre ideas relacionadas que podrían ser de interés para un transeúnte. (+1)

cardenal

Algo raro está sucediendo con el recuento de votos. Una vez más, voté por esto cuando hice mi comentario anterior y no "tomó". Hmm

cardenal

La llamada "normalización" es una rutina común para la mayoría de los métodos de regresión. Hay dos maneras:

Asigne cada variable en los límites [-1, 1] (mapminmax en MatLab.
Elimine la media de cada variable y divida en su devaluación estándar (mapstd en MatLab), es decir, en realidad "normalizar". Si la media real es una desviación desconocida, solo tome características de muestra: o donde , , y ${\tilde{X}}_{i j} = \frac{X_{i j} - μ_{i}}{σ_{i}}$ $\tilde{X}_{ij}=\frac{X_{ij}-\mu_i}{\sigma_i}$ ${\tilde{X}}_{i j} = \frac{X_{i j} - \bar{X_{i}}}{s t d (X_{i})}$ $\tilde{X}_{ij}=\frac{X_{ij} - \overline{X_i}}{std({X_i})}$ $E[X_i] = \mu$ $E[X_i^2-E[X_i]^2]=\sigma^2$ $\overline{X_i}=\frac{1}{N}\sum_{j=1}^{N}X_{ij}$ $std({X_i}) = \sqrt{\frac{1}{N}\sum_{j=1}^{N}(X_{ij}^2 -\overline{X_{i}}^2)}$

Como la regresión lineal es muy sensible a los rangos de variables, generalmente sugeriría normalizar todas las variables si no tiene ningún conocimiento previo sobre la dependencia y espera que todas las variables sean relativamente importantes.

Lo mismo ocurre con las variables de respuesta, aunque no es muy importante para ellas.

¿Por qué hacer normalización o estandarización? Principalmente para determinar el impacto relativo de diferentes variables en el modelo. Eso se puede lograr si todas las variables están en las mismas unidades.

¡Espero que esto ayude!

Paul
fuente

¿Qué quiere decir cuando dice que la regresión lineal es muy sensible a los rangos de variables ? Para cualquiera de x1,x2,yestos dos comandos: summary(lm(y~x1+x2))$r.sqy summary(lm(y~scale(x1)+scale(x2)))$r.sq- los valores cuando no estandariza los coeficientes y cuando lo hace - da el mismo valor, lo que indica un ajuste equivalente.

R^{2}

$R^2$

Macro

No estaba completamente correcto en la formulación. Me refería al engaño. La regresión sería siempre la misma (en el sentido de ) si realiza solo transformaciones lineales de los datos. Pero si desea determinar qué variables son crusiales y cuáles son casi ruidosas, la escala es importante. Es conveniente convencer a las variables estándar y olvidarse de sus escalas originales. Entonces la regresión es "sensible" en términos de entender los impactos relativos.

R^{2}

$\mathbf{R^2}$

Paul

Gracias por aclarar, pero qué variables son crusiales y cuáles son casi ruidosas, la escala a menudo se decide por el valor , que tampoco cambiará cuando se estandariza (excepto la intercepción, por supuesto). Estoy de acuerdo con su punto de que proporciona una mejor interpretación de las estimaciones del coeficiente bruto.

p

$p$

Macro