Al realizar una regresión polinómica para sobre , las personas a veces usan polinomios en bruto, a veces polinomios ortogonales. Pero cuando usan lo que parece completamente arbitrario.X
Aquí y aquí se utilizan polinomios en bruto. Pero aquí y aquí , los polinomios ortogonales parecen dar los resultados correctos. ¿Qué, cómo, por qué?
En contraste con eso, cuando se aprende sobre la regresión polinómica de un libro de texto (por ejemplo, ISLR ), eso ni siquiera menciona polinomios en bruto u ortogonales: solo se proporciona el modelo que se ajustará.
Entonces, ¿cuándo tenemos que usar qué?
¿Y por qué los valores p individuales para , etc. difieren mucho entre estos dos valores?X 2
regression
polynomial
l7ll7
fuente
fuente
Respuestas:
Las variables y no son linealmente independientes. Así que incluso si no hay un efecto cuadrático, añadiendo al modelo modificará el efecto estimado de .X 2 X 2 XX X2 X2 X
Echemos un vistazo con una simulación muy simple.
Ahora con un término cuadrático en el modelo para ajustar.
Por supuesto, la prueba general todavía es significativa, pero creo que el resultado que estamos buscando no es este. La solución es usar polinomios ortogonales.
Tenga en cuenta que los coeficientes de
x
en el primer modelo y depoly(x,2)1
en el segundo modelo no son iguales, e incluso las intersecciones son diferentes. Esto se debe a quepoly
entrega vectores ortonormales, que también son ortogonales al vectorrep(1, length(x))
. Entoncespoly(x,2)1
no esx
sino más bien(x -mean(x))/sqrt(sum((x-mean(x))**2))
...Un punto importante es que las pruebas de Wald, en este último modelo, son independientes. Puede usar polinomios ortogonales para decidir hasta qué grado desea ir, simplemente mirando la prueba de Wald: aquí decide mantener pero no . Por supuesto, encontrará el mismo modelo comparando los dos primeros modelos ajustados, pero es más simple de esta manera: si considera subir a grados más altos, es mucho más simple.X 2X X2
Una vez que haya decidido qué términos mantener, es posible que desee volver a los polinomios en bruto y para interpretarlos o predecirlos.X 2X X2
fuente
Para dar una evaluación ingenua de la situación:
en general: suponga que tiene dos funciones diferentes del sistema de base , así como para alguna función (hilbert-) espacio, L_2 habitual , es decir, el espacio de todas las funciones integrables al cuadrado.{pn}∞n=1 {p~}∞n=1 L2([a,b])
Esto significa que cada una de las dos bases puede usarse para explicar cada elemento de , es decir, para que tiene para algunos coeficientes y , (en el -sense):L2([a,b]) y∈L2([a,b]) θn θ~n∈R n=1,2,… L2
Sin embargo, por otro lado, si trunca ambos conjuntos de funciones básicas en algún número , es decir, toma así como estos conjuntos truncados de funciones básicas son muy probablemente dos describen "partes diferentes" de .{ p n } k n = 1 { ˜ p } k n = 1 , L 2 ( [ a , b ] )k<∞
Sin embargo, aquí en el caso especial donde una base, , es solo una ortogonalización de la otra base, , la predicción general de será la misma para cada modelo truncado ( y su contraparte ortogonalizada describirá el mismo subespacio dimensional de ). { p n } ∞ n = 1 y { p } k n = 1 k L 2 ( [ a , b ] ){p~}∞n=1 {pn}∞n=1 y {p}kn=1 k L2([a,b])
Pero cada función de base individual de las dos bases "diferentes" producirá una contribución diferente a esta predisposición (obviamente, ¡ya que las funciones / predictores son diferentes!) Dando como resultado diferentes valores y coeficientes .p
Por lo tanto, en términos de predicción no hay (en este caso) ninguna diferencia.
Desde el punto de vista computacional, una matriz modelo que consiste en funciones de base ortogonal tiene buenas propiedades numéricas / computacionales para el estimador de mínimos cuadrados. Si bien al mismo tiempo desde el punto de vista estadístico, la ortogonalización da como resultado estimaciones no correlacionadas, ya que bajo los supuestos estándar.var(θ~^)=Iσ²
La pregunta natural surge si existe un mejor sistema de base truncada. Sin embargo, la respuesta a la pregunta no es simple ni única y depende, por ejemplo, de la definición de la palabra "mejor", es decir, lo que está tratando de archivar.
fuente