Función de costo en regresión lineal de MCO

32

Estoy un poco confundido con una conferencia sobre regresión lineal dada por Andrew Ng en Coursera sobre el aprendizaje automático. Allí, le dio una función de costo que minimiza la suma de cuadrados como:

12mi=1m(hθ(X(i))Y(i))2

Entiendo de dónde viene el . Creo que lo hizo para que cuando realizara la derivada en el término cuadrado, el 2 en el término cuadrado se cancelara con la mitad. Pero no entiendo de dónde provienen los .121m

¿Por qué necesitamos hacer ? En la regresión lineal estándar, no la tenemos, simplemente minimizamos los residuos. ¿Por qué lo necesitamos aquí?1m

SmallChess
fuente
1 / 2m ayuda a encontrar el error promedio por punto de datos ym representa el total de observaciones o el número de observaciones.
Krishnan Achary

Respuestas:

33

Como parece darse cuenta, ciertamente no necesitamos el factor para obtener una regresión lineal. Los minimizadores serán, por supuesto, exactamente iguales, con o sin él. Una razón típica para normalizar por m es para que podamos ver la función de costo como una aproximación al "error de generalización", que es la pérdida cuadrada esperada en un nuevo ejemplo elegido al azar (no en el conjunto de entrenamiento):1/mm

Suponga que se muestrean en alguna distribución. Entonces para m grande esperamos que 1(X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

Más precisamente, por la Ley Fuerte de Números Grandes, tenemos con probabilidad 1.

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

Nota: Cada uno de los estados anteriores son para cualquier particular, , escogidos sin mirar el conjunto de entrenamiento. Para el aprendizaje de máquina, queremos que estas declaraciones de mantener por algún θ elegidos en base a su buen rendimiento en el conjunto de entrenamiento. Estas afirmaciones aún pueden mantenerse en este caso, aunque necesitamos hacer algunas suposiciones sobre el conjunto de funciones { h θθθ^ , y necesitaremos algo más fuerte que la Ley de Números Grandes. {hθ|θΘ}

DavidR
fuente
1
@StudentT Esta es probablemente la mejor razón para usar el error promedio sobre el total. Mi explicación es realmente solo una consecuencia a nivel superficial de la razón más profunda de DavidR.
Matthew Drury
29

Usted no tiene a. La función de pérdida tiene el mismo mínimo si incluye el suprimirlo Sin embargo, si lo incluye, obtendrá la buena interpretación de minimizar (la mitad) elerrorpromediopor punto de datos. Dicho de otra manera, está minimizando latasa deerrorenlugar del error total.1m

Considere comparar el rendimiento en dos conjuntos de datos de diferentes tamaños. La suma bruta de los errores al cuadrado no son directamente comparables, ya que los conjuntos de datos más grandes tienden a tener más errores totales debido a su tamaño. Por otro lado, el error promedio por punto de datos es .

¿Puedes elaborar un poco?

Seguro. Su conjunto de datos es una colección de puntos de datos . Una vez que tenga un modelo h , el error de mínimos cuadrados de h en un único punto de datos es{xi,yi}hh

(h(xi)yi)2

esto es, por supuesto, diferente para cada punto de datos. Ahora, si simplemente sumamos los errores (y multiplicamos por la mitad por la razón que usted describe) obtenemos el error total

12i(h(xi)yi)2

pero si dividimos por el número de sumandos obtenemos el error promedio por punto de datos

12mi(h(xi)yi)2

El beneficio del error promedio es que si tenemos dos conjuntos de datos y { x i , y i } de diferentes tamaños , entonces podemos comparar los errores promedio pero no los errores totales. Porque si el segundo conjunto de datos es, digamos, diez veces el tamaño del primero, entonces esperaríamos que el error total sea aproximadamente diez veces mayor para el mismo modelo. Por otro lado, el error promedio divide el efecto del tamaño del conjunto de datos, por lo que esperaríamos que los modelos de rendimiento similar tengan los mismos errores promedio en diferentes conjuntos de datos.{xi,yi}{xi,yi}

Matthew Drury
fuente
1
Puedo seguirte, ¿puedes elaborar un poco? Lo siento, soy nuevo en el aprendizaje automático.
SmallChess
@StudentT Intenté una aclaración en mi respuesta.
Matthew Drury
1
Lo mismo también se aplica si experimentas con el tamaño del mini lote cuando haces un descenso de gradiente estocástico, que es el tipo más común de descenso de gradiente lineal cuando trabajas con grandes conjuntos de datos: puedes comparar más fácilmente el error.
jasonszhao