Dados dos modelos de regresión lineal, ¿qué modelo funcionaría mejor?

14

He tomado un curso de aprendizaje automático en mi universidad. En uno de los premios, se hizo esta pregunta.

Modelo 1: Modelo 2:

y=θx+ϵ
y=θx+θ2x+ϵ

¿Cuál de los modelos anteriores se ajustaría mejor a los datos? (suponga que los datos se pueden modelar mediante regresión lineal)

La respuesta correcta (según el profesor) es que ambos modelos funcionarían igual de bien. Sin embargo, creo que el primer modelo sería mejor.

Esta es la razón detrás de mi respuesta. El segundo modelo, que puede reescribirse como , no sería el mismo que el primer modelo. es de hecho una parábola, y por lo tanto tiene un valor mínimo ( en este caso). Ahora debido a esto, el rango de en el primer modelo es mayor que el rango de en el segundo modelo. Por lo tanto, si los datos fueran tales que el mejor ajuste tuviera una pendiente inferior a , el segundo modelo funcionaría muy mal en comparación con el primero. Sin embargo, en caso de que la pendiente del mejor ajuste fuera mayor a , ambos modelos funcionarían igualmente bien.αx+ϵα=θ+θ2α0.25θα0.250.25

Entonces, ¿el primero es mejor o ambos son exactamente iguales?

kush
fuente
3
Creo que es correcto. Exigir que un parámetro sea ​​expresable como (para algunos ) sí impone una restricción sobre lo que 's son posibles. Esto significa que el segundo modelo puede expresar menos relaciones que el primero, ya que esencialmente es ahora un problema de optimización restringido. Tu razonamiento me parece sólido. αθ+θ2θα
Matthew Drury
@MatthewDrury Me acabo de descubrir que hice mal, echar un vistazo a la respuesta de abajo (y el comentario)
Kush
3
Veo tu comentario, pero esa es una gimnasia bastante seria para suponer que θ tomaría valores complejos. Definitivamente asistiría a algunas horas de oficina para hablar sobre esto con su profesor. Obtendrá una buena discusión de cualquier manera.
Matthew Drury
1
No me queda claro de dónde viene el -0.25. ¿Puedes aclarar?
Mad Jack
1
Me interesaría cómo su profesor ajustaría cada modelo al conjunto de datos de dos puntos {(1,1),(2,2)} . Con el Modelo 1 y θ=1 el ajuste es perfecto, pero ¿cómo estimaría θ en el Modelo 2 para obtener un ajuste perfecto?
whuber

Respuestas:

9

El modelo 2 se puede escribir como: Esto parece similar al modelo 1, solo que con notación diferente para los hiperparámetros ( θ , β ). Sin embargo, para el modelo 1 se puede escribir θ = ( X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

Pero dado que en el modelo 2 tenemos que a continuación, como usted ha mencionado hecho la gama de β debe pertenecer a [ - 0,25 , + ] para θ R . Lo que conducirá a la diferencia en estos 2 modelos.

β=θ+θ2,
β^[0.25,+]θR

Así, en el modelo 2 que están limitando su estimación del coeficiente a diferencia de modelo 1. Para hacer esto más claro, hay que señalar que en el modelo se obtiene a través de minimizar la función de pérdida cuadrado θ = arg min θ R ( y - X θ )θ^ Sin embargo, en el modelo se obtiene 2 la estimación a través de β =arg min β - 0,25 (Y-Xβ)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
que podría conducir a un resultado diferente.
β^=argminβ0.25  (yXβ)(yXβ)
Wis
fuente
1
Eso tiene sentido, sólo se me ocurrió que no hay ninguna restricción sobre en el segundo modelo! En caso de que θ + θ 2 sea ​​negativo, θ podría tener valores complejos. Sin embargo, eso realmente no afecta el modelo, ¿verdad? No tengo representante para votar, ¡pero muchas gracias! θθ+θ2θ
Kush
@kush Por favor revise mi respuesta editada que también aborda su preocupación
Sab
1

No estoy seguro de entender tu razonamiento. Si lo tomas:

e y = θ x + ϵ

y=αx+ϵ
y=θx+ϵ

y estima y θ usando una regresión lineal simple, obtendrá α = θ . Además, dado que la metodología es exactamente la misma, no hay diferencia en el valor de R 2 que obtendría en cualquiera de las ecuaciones. El valor subyacente de θ en la primera ecuación será, por supuesto, diferente, ya que α = θ + θ 2 , pero esto no tiene nada que ver con el ajuste.αθαθR2θα=θ+θ2

akeenlogician
fuente
55
θ(,)α(0.25,)x