Pregunta sobre cómo normalizar el coeficiente de regresión

Aunque no puedo hacer justicia a la pregunta aquí, eso requeriría una pequeña monografía, puede ser útil recapitular algunas ideas clave.

La pregunta

Comencemos volviendo a plantear la pregunta y utilizando una terminología inequívoca. Los datos consisten en una lista de pares ordenados . Las constantes conocidas y determinan los valores y . Nosotros proponemos un modelo en el cual $(t_i, y_i)$ $\alpha_1$ $\alpha_2$ $x_{1,i} = \exp(\alpha_1 t_i)$ $x_{2,i} = \exp(\alpha_2 t_i)$

y i = β 1 x 1, i + β 2 x 2, i + ε i

$y_i = \beta_1 x_{1,i} + \beta_2 x_{2,i} + \varepsilon_i$

para que las constantes y se estimen, son aleatorias y, de todos modos, para una buena aproximación, independientes y tienen una varianza común (cuya estimación también es de interés). $\beta_1$ $\beta_2$ $\varepsilon_i$

Antecedentes: "coincidencia" lineal

Mosteller y Tukey se refieren a las variables = y como "matchers". Se utilizarán para "hacer coincidir" los valores de de una manera específica, lo que ilustraré. En términos más generales, supongamos que y sean dos vectores en el mismo espacio vectorial euclidiano, con desempeñando el papel de "objetivo" el de "emparejador". Contemplamos variar sistemáticamente un coeficiente para aproximar por el múltiplo . $x_1$ $(x_{1,1}, x_{1,2}, \ldots)$ $x_2$ $y = (y_1, y_2, \ldots)$ $y$ $x$ $y$ $x$ $\lambda$ $y$ $\lambda x$ $\lambda x$ $y$ como sea posible. De manera equivalente, la longitud al cuadrado de se minimiza. $y - \lambda x$

Una forma de visualizar este proceso de correspondencia es hacer un diagrama de dispersión de e sobre el cual se dibuja la gráfica de . Las distancias verticales entre los puntos del diagrama de dispersión y este gráfico son los componentes del vector residual ; la suma de sus cuadrados debe hacerse lo más pequeña posible. Hasta una constante de proporcionalidad, estos cuadrados son las áreas de círculos centrados en los puntos con radios iguales a los residuales: deseamos minimizar la suma de áreas de todos estos círculos. $x$ $y$ $x \to \lambda x$ $y - \lambda x$ $(x_i, y_i)$

Aquí hay un ejemplo que muestra el valor óptimo de en el panel central: $\lambda$

Panel

Los puntos en el diagrama de dispersión son azules; la gráfica de es una línea roja. Esta ilustración enfatiza que la línea roja está obligada a pasar a través del origen : es un caso muy especial de ajuste de línea. $x \to \lambda x$ $(0,0)$

Se puede obtener regresión múltiple por coincidencia secuencial

Volviendo a la configuración de la pregunta, tenemos un objetivo y dos indicadores y . Buscamos los números y para los cuales se aproxima lo más posible por , nuevamente en el sentido de la menor distancia. Comenzando arbitrariamente con , Mosteller y Tukey coinciden con las variables restantes e con . Escriba los residuos para estas coincidencias como e , respectivamente: el indica que $y$ $x_1$ $x_2$ $b_1$ $b_2$ $y$ $b_1 x_1 + b_2 x_2$ $x_1$ $x_2$ $y$ $x_1$ $x_{2\cdot 1}$ $y_{\cdot 1}$ $_{\cdot 1}$ $x_1$ ha sido "sacado de" la variable.

Podemos escribir

y = λ 1 x 1 + y \cdot 1 and x 2 = λ 2 x 1 + x 2 \cdot 1 .

$y = \lambda_1 x_1 + y_{\cdot 1}\text{ and }x_2 = \lambda_2 x_1 + x_{2\cdot 1}.$

Habiendo tomado de e , procedemos a hacer coincidir los residuos objetivo con los residuos de coincidencia . Los residuos finales son . Algebraicamente, hemos escrito $x_1$ $x_2$ $y$ $y_{\cdot 1}$ $x_{2\cdot 1}$ $y_{\cdot 12}$

y \cdot 1 y = λ 3 x 2 \cdot 1 + y \cdot 12; whence = λ 1 x 1 + y \cdot 1 = λ 1 x 1 + λ 3 x 2 \cdot 1 + y \cdot 12 = λ 1 x 1 + λ 3 (x 2 - λ 2 x 1) + y \cdot 12 = (λ 1 - λ 3 λ 2) x 1 + λ 3 x 2 + y \cdot 12 .

$\eqalign{ y_{\cdot 1} &= \lambda_3 x_{2\cdot 1} + y_{\cdot 12}; \text{ whence} \\ y &= \lambda_1 x_1 + y_{\cdot 1} = \lambda_1 x_1 + \lambda_3 x_{2\cdot 1} + y_{\cdot 12} =\lambda_1 x_1 + \lambda_3 \left(x_2 - \lambda_2 x_1\right) + y_{\cdot 12} \\ &=\left(\lambda_1 - \lambda_3 \lambda_2\right)x_1 + \lambda_3 x_2 + y_{\cdot 12}. }$

Esto muestra que el en el último paso es el coeficiente de en una coincidencia de y a . $\lambda_3$ $x_2$ $x_1$ $x_2$ $y$

También podríamos haber procedido primero tomando de e , produciendo e , y luego tomando de , produciendo un conjunto diferente de residuos . Esta vez, el coeficiente de encontrado en el último paso, llamémoslo es el coeficiente de en una coincidencia de y $x_2$ $x_1$ $y$ $x_{1\cdot 2}$ $y_{\cdot 2}$ $x_{1\cdot 2}$ $y_{\cdot 2}$ $y_{\cdot 21}$ $x_1$ $\mu_3$ $x_1$ $x_1$ a . $x_2$ $y$

Finalmente, para comparación, podríamos ejecutar un múltiplo (regresión de mínimos cuadrados ordinarios) de contra y . Deje que esos residuos sean . Resulta que los coeficientes en esta regresión múltiple son precisamente los coeficientes y encontrados previamente y que los tres conjuntos de residuos, , e , son idénticos. $y$ $x_1$ $x_2$ $y_{\cdot lm}$ $\mu_3$ $\lambda_3$ $y_{\cdot 12}$ $y_{\cdot 21}$ $y_{\cdot lm}$

Representando el proceso

Nada de esto es nuevo: todo está en el texto. Me gustaría ofrecer un análisis pictórico, utilizando una matriz de diagrama de dispersión de todo lo que hemos obtenido hasta ahora.

Gráfico de dispersión

Debido a que estos datos son simulados, tenemos el lujo de mostrar los valores "verdaderos" subyacentes de en la última fila y columna: estos son los valores sin el error agregado. $y$ $\beta_1 x_1 + \beta_2 x_2$

Los diagramas de dispersión debajo de la diagonal se han decorado con los gráficos de los comparadores, exactamente como en la primera figura. Los gráficos con pendientes cero se dibujan en rojo: indican situaciones en las que el comparador no nos da nada nuevo; los residuos son los mismos que el objetivo. Además, como referencia, el origen (donde sea que aparezca dentro de un diagrama) se muestra como un círculo rojo abierto: recuerde que todas las líneas coincidentes posibles deben pasar por este punto.

Se puede aprender mucho sobre la regresión mediante el estudio de esta trama. Algunos de los aspectos más destacados son:

La coincidencia de a (fila 2, columna 1) es pobre. Esta es una buena cosa: esto indica que y están proporcionando información muy diferente; usar ambos juntos probablemente será mucho más adecuado para que usar uno solo. $x_2$ $x_1$ $x_1$ $x_2$ $y$
Una vez que se ha sacado una variable de un objetivo, no sirve de nada tratar de sacar esa variable nuevamente: la mejor línea coincidente será cero. Vea los diagramas de dispersión para versus o versus , por ejemplo. $x_{2\cdot 1}$ $x_1$ $y_{\cdot 1}$ $x_1$
Los valores , , y se han tomado de . $x_1$ $x_2$ $x_{1\cdot 2}$ $x_{2\cdot 1}$ $y_{\cdot lm}$
La regresión múltiple de contra y se puede lograr primero calculando y . Estos diagramas de dispersión aparecen en (fila, columna) = y , respectivamente. Con estos residuos en la mano, observamos su diagrama de dispersión en . Estas tres variables $y$ $x_1$ $x_2$ $y_{\cdot 1}$ $x_{2\cdot 1}$ $(8,1)$ $(2,1)$ $(4,3)$ las regresiones hacen el truco. Como explican Mosteller y Tukey, los errores estándar de los coeficientes también se pueden obtener casi tan fácilmente de estas regresiones, pero ese no es el tema de esta pregunta, así que me detendré aquí.

Código

Estos datos fueron (reproducibles) creados Rcon una simulación. Los análisis, los controles y las parcelas también se produjeron con R. Este es el código.

#
# Simulate the data.
#
set.seed(17)
t.var <- 1:50                                    # The "times" t[i]
x <- exp(t.var %o% c(x1=-0.1, x2=0.025) )        # The two "matchers" x[1,] and x[2,]
beta <- c(5, -1)                                 # The (unknown) coefficients
sigma <- 1/2                                     # Standard deviation of the errors
error <- sigma * rnorm(length(t.var))            # Simulated errors
y <- (y.true <- as.vector(x %*% beta)) + error   # True and simulated y values
data <- data.frame(t.var, x, y, y.true)

par(col="Black", bty="o", lty=0, pch=1)
pairs(data)                                      # Get a close look at the data
#
# Take out the various matchers.
#
take.out <- function(y, x) {fit <- lm(y ~ x - 1); resid(fit)}
data <- transform(transform(data, 
  x2.1 = take.out(x2, x1),
  y.1 = take.out(y, x1),
  x1.2 = take.out(x1, x2),
  y.2 = take.out(y, x2)
), 
  y.21 = take.out(y.2, x1.2),
  y.12 = take.out(y.1, x2.1)
)
data$y.lm <- resid(lm(y ~ x - 1))               # Multiple regression for comparison
#
# Analysis.
#
# Reorder the dataframe (for presentation):
data <- data[c(1:3, 5:12, 4)]

# Confirm that the three ways to obtain the fit are the same:
pairs(subset(data, select=c(y.12, y.21, y.lm)))

# Explore what happened:
panel.lm <- function (x, y, col=par("col"), bg=NA, pch=par("pch"),
   cex=1, col.smooth="red",  ...) {
  box(col="Gray", bty="o")
  ok <- is.finite(x) & is.finite(y)
  if (any(ok))  {
    b <- coef(lm(y[ok] ~ x[ok] - 1))
    col0 <- ifelse(abs(b) < 10^-8, "Red", "Blue")
    lwd0 <- ifelse(abs(b) < 10^-8, 3, 2)
    abline(c(0, b), col=col0, lwd=lwd0)
  }
  points(x, y, pch = pch, col="Black", bg = bg, cex = cex)    
  points(matrix(c(0,0), nrow=1), col="Red", pch=1)
}
panel.hist <- function(x, ...) {
  usr <- par("usr"); on.exit(par(usr))
  par(usr = c(usr[1:2], 0, 1.5) )
  h <- hist(x, plot = FALSE)
  breaks <- h$breaks; nB <- length(breaks)
  y <- h$counts; y <- y/max(y)
  rect(breaks[-nB], 0, breaks[-1], y,  ...)
}
par(lty=1, pch=19, col="Gray")
pairs(subset(data, select=c(-t.var, -y.12, -y.21)), col="Gray", cex=0.8, 
   lower.panel=panel.lm, diag.panel=panel.hist)

# Additional interesting plots:
par(col="Black", pch=1)
#pairs(subset(data, select=c(-t.var, -x1.2, -y.2, -y.21)))
#pairs(subset(data, select=c(-t.var, -x1, -x2)))
#pairs(subset(data, select=c(x2.1, y.1, y.12)))

# Details of the variances, showing how to obtain multiple regression
# standard errors from the OLS matches.
norm <- function(x) sqrt(sum(x * x))
lapply(data, norm)
s <- summary(lm(y ~ x1 + x2 - 1, data=data))
c(s$sigma, s$coefficients["x1", "Std. Error"] * norm(data$x1.2)) # Equal
c(s$sigma, s$coefficients["x2", "Std. Error"] * norm(data$x2.1)) # Equal
c(s$sigma, norm(data$y.12) / sqrt(length(data$y.12) - 2))        # Equal

whuber
fuente

¿Podría lograrse la regresión múltiple de

contra

calculando primero

estuvieran correlacionadas? ¿No sería entonces hacer una gran diferencia si regresiónde secuencialmente

o en

? ¿Cómo se relaciona esto con una ecuación de regresión con múltiples variables explicativas? y $y$

x1 $x_1$

x2 $x_2$

y.1 $y_{.1}$

x2.1 $x_{2.1}$

x1 $x_1$

x2 $x_2$

y $y$

x1 $x_1$

x2.1 $x_{2.1}$

x2 $x_2$

x1.2 $x_{1.2}$

miura

@miura, uno de los leitmotif de ese capítulo en Mosteller & Tukey es que cuando el

está correlacionado, los parciales

tienen variaciones bajas; Debido a que sus variaciones aparecen en el denominador de una fórmula para la variación de la estimación de sus coeficientes, esto implica que los coeficientes correspondientes tendrán estimaciones relativamente inciertas. Eso es un hecho de los datos, dice M&T, y debes reconocerlo. No importa si comienza la regresión con

: compárelo con mi código. xi $x_i$

xi⋅j $x_{i\cdot j}$

x1 $x_1$

$x_2$ y.21y.12

whuber

Me encontré con esto hoy, esto es lo que pienso sobre la pregunta de @miura, piense en un espacio bidimensional donde Y se proyecte como una combinación de dos vectores. y = ax1 + bx2 + res (= 0). Ahora piense en y como una combinación de 3 variables, y = ax1 + bx2 + cx3. y x3 = mx1 + nx2. así que ciertamente, el orden en el que elijas tus variables va a afectar los coeficientes. La razón de esto es: el error mínimo aquí se puede obtener mediante varias combinaciones. Sin embargo, en algunos ejemplos, el error mínimo puede obtenerse con una sola combinación y ahí es donde el orden no importará.

Gaurav Singhal

@whuber ¿Puede explicar cómo podría usarse esta ecuación para una regresión multivariada que también tiene un término constante? es decir, y = B1 * x1 + B2 * x2 + c? No me queda claro cómo se puede derivar el término constante. También entiendo en general lo que se hizo para las 2 variables, al menos suficiente para replicarlo en Excel. ¿Cómo se puede expandir a 3 variables? x1, x2, x3. Parece claro que primero deberíamos eliminar x3 de y, x1 y x2. luego elimine x2 de x1 e y. Pero no tengo claro cómo obtener el término B3.

Bastante Nerdy

He respondido algunas de mis preguntas que tengo en el comentario anterior. Para una regresión de 3 variables, tendríamos 6 pasos. Elimina x1 de x2, de x3 y de y. Luego elimina x2,1 de x3,1 y de y1. Luego elimina x3,21 de y21. Eso da como resultado 6 ecuaciones, cada una de las cuales tiene la forma variable = lamda * variable diferente + residual. Una de esas ecuaciones tiene ay como primera variable, y si sigues sustituyendo las otras variables, obtienes la ecuación que necesitas

Fairly Nerdy el

Pregunta sobre cómo normalizar el coeficiente de regresión

Respuestas:

La pregunta

Antecedentes: "coincidencia" lineal

Se puede obtener regresión múltiple por coincidencia secuencial

Representando el proceso

Código