He tomado un curso de aprendizaje automático en mi universidad. En uno de los premios, se hizo esta pregunta.
Modelo 1: Modelo 2:
¿Cuál de los modelos anteriores se ajustaría mejor a los datos? (suponga que los datos se pueden modelar mediante regresión lineal)
La respuesta correcta (según el profesor) es que ambos modelos funcionarían igual de bien. Sin embargo, creo que el primer modelo sería mejor.
Esta es la razón detrás de mi respuesta. El segundo modelo, que puede reescribirse como , no sería el mismo que el primer modelo. es de hecho una parábola, y por lo tanto tiene un valor mínimo ( en este caso). Ahora debido a esto, el rango de en el primer modelo es mayor que el rango de en el segundo modelo. Por lo tanto, si los datos fueran tales que el mejor ajuste tuviera una pendiente inferior a , el segundo modelo funcionaría muy mal en comparación con el primero. Sin embargo, en caso de que la pendiente del mejor ajuste fuera mayor a , ambos modelos funcionarían igualmente bien.
Entonces, ¿el primero es mejor o ambos son exactamente iguales?
Respuestas:
El modelo 2 se puede escribir como: Esto parece similar al modelo 1, solo que con notación diferente para los hiperparámetros ( θ , β ). Sin embargo, para el modelo 1 se puede escribir θ = ( X
Pero dado que en el modelo 2 tenemos que a continuación, como usted ha mencionado hecho la gama de β debe pertenecer a [ - 0,25 , + ∞ ] para θ ∈ R . Lo que conducirá a la diferencia en estos 2 modelos.
Así, en el modelo 2 que están limitando su estimación del coeficiente a diferencia de modelo 1. Para hacer esto más claro, hay que señalar que en el modelo se obtiene a través de minimizar la función de pérdida cuadrado θ = arg min θ ∈ R ( y - X θ )θ^
Sin embargo, en el modelo se obtiene 2 la estimación a través de
β =arg min β ≥ - 0,25 (Y-Xβ)
fuente
No estoy seguro de entender tu razonamiento. Si lo tomas:
e y = θ x + ϵ
y estima y θ usando una regresión lineal simple, obtendrá α = θ . Además, dado que la metodología es exactamente la misma, no hay diferencia en el valor de R 2 que obtendría en cualquiera de las ecuaciones. El valor subyacente de θ en la primera ecuación será, por supuesto, diferente, ya que α = θ + θ 2 , pero esto no tiene nada que ver con el ajuste.α θ α θ R2 θ α=θ+θ2
fuente