Dados dos modelos de regresión lineal, ¿qué modelo funcionaría mejor?

He tomado un curso de aprendizaje automático en mi universidad. En uno de los premios, se hizo esta pregunta.

Modelo 1: Modelo 2:
$y = θ x + ϵ$ $y = \theta x + \epsilon$ $y = θ x + θ^{2} x + ϵ$ $y = \theta x + \theta^2 x + \epsilon$
¿Cuál de los modelos anteriores se ajustaría mejor a los datos? (suponga que los datos se pueden modelar mediante regresión lineal)

La respuesta correcta (según el profesor) es que ambos modelos funcionarían igual de bien. Sin embargo, creo que el primer modelo sería mejor.

Esta es la razón detrás de mi respuesta. El segundo modelo, que puede reescribirse como , no sería el mismo que el primer modelo. es de hecho una parábola, y por lo tanto tiene un valor mínimo ( en este caso). Ahora debido a esto, el rango de en el primer modelo es mayor que el rango de en el segundo modelo. Por lo tanto, si los datos fueran tales que el mejor ajuste tuviera una pendiente inferior a , el segundo modelo funcionaría muy mal en comparación con el primero. Sin embargo, en caso de que la pendiente del mejor ajuste fuera mayor a , ambos modelos funcionarían igualmente bien. $\alpha x + \epsilon$ $\alpha = \theta + \theta^2$ $\alpha$ $-0.25$ $\theta$ $\alpha$ $-0.25$ $-0.25$

Entonces, ¿el primero es mejor o ambos son exactamente iguales?

regression machine-learning self-study modeling model kush
fuente

Creo que es correcto. Exigir que un parámetro sea expresable como (para algunos ) sí impone una restricción sobre lo que 's son posibles. Esto significa que el segundo modelo puede expresar menos relaciones que el primero, ya que esencialmente es ahora un problema de optimización restringido. Tu razonamiento me parece sólido.

α

$\alpha$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

α

$\alpha$

Matthew Drury

@MatthewDrury Me acabo de descubrir que hice mal, echar un vistazo a la respuesta de abajo (y el comentario)

Kush

Veo tu comentario, pero esa es una gimnasia bastante seria para suponer que

θ

$\theta$ tomaría valores complejos. Definitivamente asistiría a algunas horas de oficina para hablar sobre esto con su profesor. Obtendrá una buena discusión de cualquier manera.

Matthew Drury

No me queda claro de dónde viene el -0.25. ¿Puedes aclarar?

Mad Jack

Me interesaría cómo su profesor ajustaría cada modelo al conjunto de datos de dos puntos

{(1, - 1), (2, - 2)}

$\{(1,-1),(2,-2)\}$ . Con el Modelo 1 y

θ = - 1

$\theta=-1$ el ajuste es perfecto, pero ¿cómo estimaría

θ

$\theta$ en el Modelo 2 para obtener un ajuste perfecto?

whuber

Respuestas:

El modelo 2 se puede escribir como: Esto parece similar al modelo 1, solo que con notación diferente para los hiperparámetros ( ). Sin embargo, para el modelo 1 se puede escribir

y = (θ + θ^{2}) x + ϵ = β x + ϵ .

$y=(\theta + \theta^{2}) x+\epsilon=\beta x+\epsilon.$

θ, β

$\theta, \beta$

\hat{θ} = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=(X^{'}X)^{-1}X^{'}y.$

Pero dado que en el modelo 2 tenemos que a continuación, como usted ha mencionado hecho la gama de debe pertenecer a para . Lo que conducirá a la diferencia en estos 2 modelos.

β = θ + θ^{2},

$\beta=\theta + \theta^{2},$

\hat{β}

$\hat{\beta}$

[- 0.25, + \infty]

$[-0.25,+\infty]$

θ \in R

$\theta \in R$

Así, en el modelo 2 que están limitando su estimación del coeficiente a diferencia de modelo 1. Para hacer esto más claro, hay que señalar que en el modelo se obtiene a través de minimizar la función de pérdida cuadrado $\hat{\theta}$ Sin embargo, en el modelo se obtiene 2 la estimación a través de

\hat{θ} = \arg min_{θ \in R} (y - X θ)^{^{'}} (y - X θ) = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=\arg\min_{\theta\in{R}} \ \ (y-X\theta)^{'}(y-X\theta)=(X^{'}X)^{-1}X^{'}y.$

que podría conducir a un resultado diferente.

\hat{β} = \arg min_{β \geq - 0.25} (y - X β)^{^{'}} (y - X β)

$\hat{\beta}=\arg\min_{\beta\geq-0.25} \ \ (y-X\beta)^{'}(y-X\beta)$

Wis
fuente

Eso tiene sentido, sólo se me ocurrió que no hay ninguna restricción sobre

en el segundo modelo! En caso de que

sea negativo,

podría tener valores complejos. Sin embargo, eso realmente no afecta el modelo, ¿verdad? No tengo representante para votar, ¡pero muchas gracias!

θ

$\theta$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

Kush

@kush Por favor revise mi respuesta editada que también aborda su preocupación

Sab

No estoy seguro de entender tu razonamiento. Si lo tomas:

y = α x + ϵ

$y = \alpha x+\epsilon$

y = θ x + ϵ

$y = \theta x + \epsilon$

y estima y usando una regresión lineal simple, obtendrá = . Además, dado que la metodología es exactamente la misma, no hay diferencia en el valor de que obtendría en cualquiera de las ecuaciones. El valor subyacente de en la primera ecuación será, por supuesto, diferente, ya que , pero esto no tiene nada que ver con el ajuste. $\alpha$ $\theta$ $\alpha$ $\theta$ $R^2$ $\theta$ $\alpha = \theta + \theta^2$

akeenlogician
fuente

θ

$\theta$

(- \infty, \infty)

$(- \infty, \infty)$

α

$\alpha$

(- 0.25, \infty)

$(- 0.25, \infty)$

x

$x$