Estoy un poco confundido con una conferencia sobre regresión lineal dada por Andrew Ng en Coursera sobre el aprendizaje automático. Allí, le dio una función de costo que minimiza la suma de cuadrados como:
Entiendo de dónde viene el . Creo que lo hizo para que cuando realizara la derivada en el término cuadrado, el 2 en el término cuadrado se cancelara con la mitad. Pero no entiendo de dónde provienen los .
¿Por qué necesitamos hacer ? En la regresión lineal estándar, no la tenemos, simplemente minimizamos los residuos. ¿Por qué lo necesitamos aquí?
regression
machine-learning
loss-functions
SmallChess
fuente
fuente
Respuestas:
Como parece darse cuenta, ciertamente no necesitamos el factor para obtener una regresión lineal. Los minimizadores serán, por supuesto, exactamente iguales, con o sin él. Una razón típica para normalizar por m es para que podamos ver la función de costo como una aproximación al "error de generalización", que es la pérdida cuadrada esperada en un nuevo ejemplo elegido al azar (no en el conjunto de entrenamiento):1/m m
Suponga que se muestrean en alguna distribución. Entonces para m grande esperamos que 1(X,Y),(X(1),Y(1)),…,(X(m),Y(m)) m
Más precisamente, por la Ley Fuerte de Números Grandes, tenemos con probabilidad 1.
Nota: Cada uno de los estados anteriores son para cualquier particular, , escogidos sin mirar el conjunto de entrenamiento. Para el aprendizaje de máquina, queremos que estas declaraciones de mantener por algún θ elegidos en base a su buen rendimiento en el conjunto de entrenamiento. Estas afirmaciones aún pueden mantenerse en este caso, aunque necesitamos hacer algunas suposiciones sobre el conjunto de funciones { h θθ θ^ , y necesitaremos algo más fuerte que la Ley de Números Grandes. {hθ|θ∈Θ}
fuente
Usted no tiene a. La función de pérdida tiene el mismo mínimo si incluye el suprimirlo Sin embargo, si lo incluye, obtendrá la buena interpretación de minimizar (la mitad) elerrorpromediopor punto de datos. Dicho de otra manera, está minimizando latasa deerrorenlugar del error total.1m
Considere comparar el rendimiento en dos conjuntos de datos de diferentes tamaños. La suma bruta de los errores al cuadrado no son directamente comparables, ya que los conjuntos de datos más grandes tienden a tener más errores totales debido a su tamaño. Por otro lado, el error promedio por punto de datos es .
Seguro. Su conjunto de datos es una colección de puntos de datos . Una vez que tenga un modelo h , el error de mínimos cuadrados de h en un único punto de datos es{xi,yi} h h
esto es, por supuesto, diferente para cada punto de datos. Ahora, si simplemente sumamos los errores (y multiplicamos por la mitad por la razón que usted describe) obtenemos el error total
pero si dividimos por el número de sumandos obtenemos el error promedio por punto de datos
El beneficio del error promedio es que si tenemos dos conjuntos de datos y { x ′ i , y ′ i } de diferentes tamaños , entonces podemos comparar los errores promedio pero no los errores totales. Porque si el segundo conjunto de datos es, digamos, diez veces el tamaño del primero, entonces esperaríamos que el error total sea aproximadamente diez veces mayor para el mismo modelo. Por otro lado, el error promedio divide el efecto del tamaño del conjunto de datos, por lo que esperaríamos que los modelos de rendimiento similar tengan los mismos errores promedio en diferentes conjuntos de datos.{xi,yi} {x′i,y′i}
fuente