En el libro "Los elementos del aprendizaje estadístico" en el capítulo 2 ("Modelos lineales y mínimos cuadrados; página no: 12"), se escribe que
En el espacio de entrada-salida dimensional (p + 1), (X, Y) representa un hiperplano. Si la constante se incluye en X, entonces el hiperplano incluye el origen y es un subespacio; si no, es un conjunto afín que corta el eje Y en el punto (0,)
No obtengo la oración "si constante es ... (0, )". ¿Por favor ayuda? Creo que el hiperplano cortaría el eje Y en (0, ) en ambos casos, ¿es correcto?
La respuesta a continuación ha ayudado un poco, pero estoy buscando una respuesta más específica. Entiendo que cuando se incluye en la , no contendrá el origen, pero ¿cómo contendría el origen ? ¿No debería depender del valor de ? Si la intercepción no es , no debería contener origen, en mi opinión.
fuente
Respuestas:
Incluir la constanteβX en vez de β0+βX En todas partes.
1
en el vector de entrada es un truco común para incluir un sesgo (piense en la intersección en Y) pero manteniendo simétricos todos los términos de la expresión: puede escribirSi haces esto, entonces es correcto que el hiperplanoY=βX incluye el origen, ya que el origen es un vector de 0 valores y multiplicándolo por β da el valor 0 .
Sin embargo, sus vectores de entrada siempre tendrán el primer elemento igual a1 ; por lo tanto, nunca contendrán el origen y se colocarán en un hiperplano más pequeño, que tiene una dimensión menos.
Puedes visualizar esto pensando en una líneaY=mx+q en su hoja de papel (2 dimensiones). El hiperplano correspondiente si incluye el sesgoq tu vector se convierte X=[x,x0=1] y tus coeficientes β=[m,q] . En 3 dimensiones, este es un plano que pasa desde el origen, que intercepta el plano.X0 0= 1 produciendo la línea donde se pueden colocar sus entradas.
fuente
Para ayudarlo a comprender esto, visualicé un caso muy simple.
Digamos que tenemos un problema unidimensional (p = 1), por lo que una sola característica (variable de entrada)X1 predecir una sola variable de salida Y . Imaginemos que ya encontramos una intersecciónβ0 0= 5 y un coeficiente β1= 2 para nuestra variable de entrada X1 .
Nuestro modelo lineal se vería así:Y^=β0 0+β1×X1 .
Por lo tanto, la representación obvia sería un hiperplano (una línea) en el espacio (p + 1) -dimensional en este caso (2d):
Otra representación sería agregar otra variableX0 0 lo que conducirá a la siguiente ecuación: Y^=β0 0×X0 0+β1×X1 .
En la práctica sabemos queX0 0 será una constante e igual a 1, pero supongamos que aún no está arreglado. En ese caso, ahora podemos trazar un gráfico 3D con un hiperplano de la siguiente manera:
Finalmente ya que solo sabemosX0 0= 1 Es posible que resalte con una línea punteada roja la única proyección de trabajo de este hiperplano que corresponde exactamente a la trama que teníamos antes.
fuente