¿Cómo puede un vector de variables representar un hiperplano?

Estoy leyendo Elementos de aprendizaje estadístico y en la página 12 (sección 2.3) un modelo lineal se anota como:

\hat{Y} = X^{T} \hat{β}

$\widehat{Y} = X^{T} \widehat{\beta}$

... donde es la transposición de un vector de columna de los predictores / variables independientes / entradas. (Establece anteriormente que "se supone que todos los vectores son vectores de columna", ¿no sería esto un vector de fila y un vector de columna?) $X^{T}$ $X^{T}$ $\widehat{\beta}$

En se incluye un " " que se multiplicará con el coeficiente correspondiente dando la intersección (constante). $X$ $1$

Continúa diciendo:

En el espacio de entrada-salida -dimensional, representa un hiperplano. Si la constante se incluye en , entonces el hiperplano incluye el origen y es un subespacio; si no, es un conjunto afín que corta el eje en el punto . $(p + 1)$ $(X,\ \widehat{Y})$ $X$ $Y$ $(0,\ \widehat{\beta_0})$

¿" " describe un vector formado por la concatenación de los predictores, la intersección " " y ? ¿Y por qué incluir un " " en obliga al hiperplano a pasar por el origen, seguramente ese " " debe multiplicarse por ? $(X,\ \widehat{Y})$ $1$ $\widehat{Y}$ $1$ $X$ $1$ $\widehat{\beta_0}$

No entiendo el libro; Cualquier ayuda / consejo / enlaces a recursos sería muy apreciada.

regression references statistical-learning Scott
fuente

Puede ser útil considerar primero. En ese caso, , con la intercepción. Esta es la ecuación de una línea que pasa a través de . Las extensiones a dimensiones superiores son inmediatas.

p = 1

$p = 1$

\hat{y} = {\hat{β}}_{0} + x \hat{β}

$\hat{y} = \hat{\beta}_0 + x \hat{\beta}$

β_{0}

$\beta_0$

(0, {\hat{β}}_{0})

$(0, \hat{\beta}_0)$

ocram

Si la ayuda de @ocram no es suficiente, intente escribir los vectores y multiplique.

Peter Flom - Restablece a Monica

Aquí hay una bonita presentación gráfica: blog.stata.com/2011/03/03/… . La notación es diferente, A está tu X y x es .

\hat{β}

$\hat \beta$

Dimitriy V. Masterov

El libro está equivocado, o al menos es inconsistente. Evidentemente, hay variables que no incluyen la constante. Por lo tanto, el conjunto es de hecho un hiperplano, pero es incorrecto decir que la constante está "incluida en ". En vez Creo que el libro querido decir la constante se incluye en la regresión , pero todavía no debe considerarse como parte de . Por lo tanto, el modelo realmente debería escribirse where . Establecer da inmediatamente la afirmación sobre la intercepción.

p

$p$

{(X, \hat{Y}) | X \in R^{p}}

$\{(X,\hat{Y})|X\in\mathbb{R}^p\}$

X

$X$

X

$X$

\hat{Y} = {\hat{β}}_{0} + X^{'} \hat{β}

$\hat{Y}=\hat\beta_0 + X'\hat\beta$

β = (β_{1}, β_{2}, \dots, β_{p})^{'}

$\beta=(\beta_1,\beta_2,\ldots,\beta_p)'$

X = 0

$X=0$

whuber

(Si, en cambio, incluimos la constante en , entonces no podemos permitir que varíe libremente sobre todo : está obligado a estar dentro de un subespacio dimensional . El gráfico luego tiene codimensión de al menos y, por lo tanto, no es realmente un "hiperplano")

X

$X$

X

$X$

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

{(X, \hat{Y})}

$\{(X,\hat Y)\}$

2

$2$

whuber

Respuestas:

Sea el número de observaciones y el número de variables explicativas. $N$ $K$

$X$ es en realidad una matrizSolo cuando observamos una sola observación, denotamos cada observación generalmente como : un vector de fila de variables explicativas de un escalar de observación particular multiplicado por el vector de columna . Además, es un vector de columna , que contiene todas las observaciones . $N\!\times\!K$ $x_i^T$ $K\!\times\!1$ $\beta$ $Y$ $N\!\times\!1$ $Y_n$

Ahora, un hiperplano dos dimensiones se extendería entre el vector y una (!) Vector columna de . Recuerde que es un de la matriz, por lo que cada variable explicativa está representado por exactamente un vector columna de la matriz . Si sólo tenemos una variable explicativa, no interceptar y , todos los puntos de datos están situados a lo largo del plano dimensional 2 abarcado por y . $Y$ $X$ $X$ $N\!\times\!K$ $X$ $Y$ $Y$ $X$

Para una regresión múltiple, ¿cuántas dimensiones en total tiene el hiperplano entre y la matriz ? Respuesta: Dado que tenemos vectores de columna de variables explicativas en , debemos tener un hiperplano dimensional . $Y$ $X$ $K$ $X$ $K\!+\!1$

Por lo general, en una configuración matricial, la regresión requiere una intercepción constante para ser imparcial para un análisis razonable del coeficiente de pendiente. Para acomodarnos a este truco, forzamos una columna de la matriz a consistir solo en " s". En este caso, el estimador encuentra solo multiplicado por una constante para cada observación en lugar de una variable explicativa aleatoria. El coeficiente representa el valor esperado de dado que se mantiene fijo con el valor 1 y todas las demás variables son cero. Por lo tanto, el hiperplano dimensional se reduce en una dimensión a un subespacio dimensional, y $X$ $1$ $\beta_1$ $\beta_1$ $Y$ $x_{1i}$ $K\!+\!1$ $K$ $\beta_1$ corresponde a la "intercepción" de este plano dimensional. $K$

En configuraciones matriciales siempre es aconsejable echar un vistazo al caso simple de dos dimensiones, para ver si podemos encontrar una intuición para nuestros resultados. Aquí, la forma más fácil es pensar en la regresión simple con dos variables explicativas: o expresada alternativamente en Matrix algebra: donde es un matriz.

y_{i} = β_{1} x_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_1x_{1i} + \beta_2x_{2i} +u_i$

Y = X β + u

$Y=X\beta +u$

X

$X$

N \times 2

$N\!\times\!2$

$<Y,X>$ abarca un hiperplano tridimensional.

Ahora, si a todos a ser todos , obtenemos: que es nuestra regresión simple habitual que se puede representar en una gráfica bidimensional . Tenga en cuenta que ahora se reduce a una línea bidimensional, un subconjunto del hiperplano tridimensional original. El coeficiente corresponde a la intersección del corte de línea en . $x_1$ $1$

y_{i} = β_{1 i} + β_{2} x_{2 i} + u_{i}

$y_i=\beta_{1i} + \beta_2x_{2i} + u_i$

X, Y

$X,\ Y$

< Y, X >

$<Y,X>$

β_{1}

$\beta_1$

x_{2 i} = 0

$x_{2i}=0$

Se puede demostrar además que también pasa por para cuando se incluye la constante . Si omitimos la constante, el hiperplano de regresión siempre pasa trivialmente a través de , sin duda. Esto se generaliza en múltiples dimensiones, como se verá más adelante cuando se derive : Como tiene rango completo por definición, , entonces la regresión pasa por el origen si dejamos de lado la intersección. $<0,\beta_1>$ $<0,0>$ $\beta$

(X^{'} X) β = X^{'} y ⟹ (X^{'} X) β - X^{'} y = 0 ⟹ X^{'} (y - X β) = 0.

$(X'X)\beta=X'y \implies (X'X)\beta-X'y=0 \implies X'(y-X\beta)=0.$

X

$X$

y - X β = 0

$y-X\beta=0$

( Editar: Acabo de darme cuenta de que para su segunda pregunta, esto es exactamente lo contrario de lo que ha escrito, incluyendo la inclusión o exclusión de la constante. Sin embargo, ya he ideado la solución aquí y me corrijo si me equivoco en eso ) .

Sé que la representación matricial de una regresión puede ser bastante confusa al principio, pero eventualmente se simplifica mucho al derivar álgebra más compleja. Espero que esto ayude un poco.

Majte
fuente

Creo que la forma de pensarlo es reorganizar esa ecuación:

\hat{Y} - X^{T} \hat{β} = 0

$\widehat{Y} - X^{T} \widehat{\beta} = 0$

La única forma en que obtendrá esa ecuación lineal para incluir el origen es hacer que el predicho igual a la intersección. Y la forma de estimar ese valor es incluir un término de intercepción en el modelo de regresión.

\hat{Y}

$\widehat{Y}$

DWin
fuente