Las variables de desplazamiento / escala no afectarán su correlación con la respuesta
Para ver por qué esto es cierto, suponga que la correlación entre y es . Entonces la correlación entre y esX ρ Y ( X - a ) / bYXρY( X- a ) / b
c o v (Y, ( X- a ) / b )S D ((X- a ) / b ) ⋅ S D ( Y)= c o v ( Y, X/ b)S D (X/ b)⋅ S D (Y)= 1si⋅ c o v ( Y, X)1siS D (X) ⋅ S D ( Y)= ρ
que se desprende de la definición de correlación y tres hechos:
c o v (Y, X+ a ) = c o v ( Y, X) + c o v ( Y, Un )= 0= c o v ( Y, X)
c o v (Y, una X) = a c o v ( Y, X)
S D (aX) = a ⋅ S D ( X)
Por lo tanto, en términos de ajuste del modelo (por ejemplo, o los valores ajustados), cambiar o escalar sus variables (por ejemplo, ponerlas en la misma escala) no cambiará el modeloR2 , ya que los coeficientes de regresión lineal están relacionados con las correlaciones entre las variables. Solo cambiará la escala de sus coeficientes de regresión , lo que debe tenerse en cuenta al interpretar el resultado si elige transformar sus predictores.
Editar: lo anterior ha asumido que estás hablando de una regresión ordinaria con la intercepción. Un par de puntos más relacionados con esto (gracias @cardinal):
La intersección puede cambiar cuando transforma sus variables y, como @cardinal señala en los comentarios, los coeficientes cambiarán cuando cambie sus variables si omite la intersección del modelo, aunque supongo que no lo hará a menos que tenga una buena razón (ver, por ejemplo, esta respuesta ).
Si está regularizando sus coeficientes de alguna manera (p. Ej., Lazo, regresión de cresta), entonces el centrado / escala afectará el ajuste. Por ejemplo, si está penalizando (la penalización por regresión de cresta) entonces no puede recuperar un ajuste equivalente después de la estandarización a menos que todas las variables estuvieran en la misma escala en primer lugar, es decir no hay múltiplo constante que recupere la misma penalización.∑ β2yo
Con respecto a cuándo / por qué un investigador puede querer transformar predictores
Una circunstancia común (discutida en la respuesta posterior de @Paul) es que los investigadores estandarizarán sus predictores para que todos los coeficientes estén en la misma escala. En ese caso, el tamaño de las estimaciones puntuales puede dar una idea aproximada de qué predictores tienen el mayor efecto una vez que la magnitud numérica del predictor se ha estandarizado.
Otra razón por la que a un investigador le gustaría escalar variables muy grandes es para que los coeficientes de regresión no estén en una escala extremadamente pequeña. Por ejemplo, si desea ver la influencia del tamaño de la población de un país en la tasa de criminalidad (no podría pensar en un mejor ejemplo), es posible que desee medir el tamaño de la población en millones en lugar de en sus unidades originales, ya que el coeficiente puede ser algo como ..00000001
La llamada "normalización" es una rutina común para la mayoría de los métodos de regresión. Hay dos maneras:
Como la regresión lineal es muy sensible a los rangos de variables, generalmente sugeriría normalizar todas las variables si no tiene ningún conocimiento previo sobre la dependencia y espera que todas las variables sean relativamente importantes.
Lo mismo ocurre con las variables de respuesta, aunque no es muy importante para ellas.
¿Por qué hacer normalización o estandarización? Principalmente para determinar el impacto relativo de diferentes variables en el modelo. Eso se puede lograr si todas las variables están en las mismas unidades.
¡Espero que esto ayude!
fuente
x1,x2,y
estos dos comandos:summary(lm(y~x1+x2))$r.sq
ysummary(lm(y~scale(x1)+scale(x2)))$r.sq
- los valores cuando no estandariza los coeficientes y cuando lo hace - da el mismo valor, lo que indica un ajuste equivalente.