¿Cuál es el significado de barras dobles y 2 en la parte inferior en mínimos cuadrados ordinarios?

10

Vi esta notación para los mínimos cuadrados ordinarios aquí .

minwXwy22

Nunca he visto las barras dobles y los 2 en la parte inferior. ¿Que significan esos símbolos? ¿Tienen terminología específica para ellos?

Aseem Bansal
fuente
55
El uso de las barras dobles solo indica que estamos usando la norma L2.
Michael R. Chernick
@MichaelChernick y los 2? ¿Es eso parte de la "norma L2"?
Aseem Bansal
1
Sí, como L2, también hay L1.
Jon
Creo que Xw debería ser Xw ya que w es un vector
ilanman
@ilanman Sí, eso es lo que estaba en la notación antes de la edición. Lo cambié de nuevo
Aseem Bansal

Respuestas:

29

Estás hablando de la -norm (norma euclidiana) del vector ( ). Si esto le extraño , brevemente, el -norm de un vector , es:2XwypuRn

up=(i=1n|ui|p)1p

Entonces, en su caso que es consistente con la suma de los residuos al cuadrado para una regresión lineal. En el contexto de los problemas de regresión, también verá esto mucho en los cálculos de error cuadrático medio (MSE) y en la regresión de cresta .u22=((i=1n|ui|2)12)2=i=1nui2

Esta es una norma común (entre otras razones, es matemáticamente conveniente), por lo que cuando es obvio por el contexto, verá que se omiten los inferiores , y solo .2u2

Como se menciona en los comentarios, también puede ver la -norm:1

u1=i=1n|ui|

Que corresponde al valor absoluto. Nuevamente, verá esto en un error absoluto medio (MAE) o problemas de lazo .

Otras normas populares:

  • 0 -norm: distancia de Hamming o # de ceros en un vector, es decir, al calcular la escasez de un vector. Técnicamente, esto no es una norma (es una función de cardinalidad), porque tiene un término en la definición, pero tiene la forma de una norma, por lo que lo llamamos uno. 10
    • Esta norma es la norma ideal utilizada para inducir la escasez de problemas de regresión, ya que realmente queremos poner a cero los coeficientes, sin embargo, calcular la regularización es NP-hard, por lo que en su lugar lo aproximamos con que se puede resolver mediante programación lineal. También es popular en la detección comprimida .01
  • -norm: = paramaxi {|xi|}i=1,...,n
  • AF : Frobenius (Euclidiana), aplicada a una matrizARn×m=i=1nj=1m|aij|2
ilanman
fuente
2
El enlace a Wolfram Alpha fue realmente útil.
Aseem Bansal
Usted escribe que la (pseudo) cuenta el número de ceros en un vector. ¿Quizás quiso decir el número de entradas que no son cero? (Esto sería más consistente con lo que he visto, y también significaría que sería la distancia de Hamming entre y , en lugar de ser menos que distancia.)0u0u0Rnn
wchargin
1
Error de ortografía: "Frobenius".
hobbs
1
En lugar de "esta es una norma común", hubiera dicho "L2 es la norma";)
user541686