Si no puede hacerlo ortogonalmente, hágalo sin procesar (regresión polinómica)

11

Al realizar una regresión polinómica para sobre , las personas a veces usan polinomios en bruto, a veces polinomios ortogonales. Pero cuando usan lo que parece completamente arbitrario.XYX

Aquí y aquí se utilizan polinomios en bruto. Pero aquí y aquí , los polinomios ortogonales parecen dar los resultados correctos. ¿Qué, cómo, por qué?

En contraste con eso, cuando se aprende sobre la regresión polinómica de un libro de texto (por ejemplo, ISLR ), eso ni siquiera menciona polinomios en bruto u ortogonales: solo se proporciona el modelo que se ajustará.

Entonces, ¿cuándo tenemos que usar qué?
¿Y por qué los valores p individuales para , etc. difieren mucho entre estos dos valores?X 2XX2

l7ll7
fuente
1
Debería reflexionar sobre qué valores p son diferentes cuando ajusta el mismo modelo a los mismos datos utilizando polinomios brutos y ortogonales, y su interpretación. ¿Qué pasa con las predicciones del modelo?
Scortchi - Restablece a Monica
@Scortchi Agregué la información relevante a mi pregunta.
l7ll7
44
Otra buena razón para usar polinomios ortogonales es la estabilidad numérica; la matriz de diseño asociada para el ajuste en la base monomial puede estar bastante mal acondicionada para un ajuste de alto grado ya que los monomios de orden superior son "muy linealmente dependientes" (un concepto que podría hacerse matemáticamente más preciso), mientras que la matriz de diseño para polinomios ortogonales se comportan un poco mejor. Discutí el caso de abscisas equispaciadas (Gram) aquí , pero el trato es similar en el caso no equiespaciado.
JM no es un estadístico
(Sin embargo, uno no debería ajustarse a polinomios de alto grado sin una buena razón para hacerlo.)
JM no es un estadístico el

Respuestas:

7

Las variables y no son linealmente independientes. Así que incluso si no hay un efecto cuadrático, añadiendo al modelo modificará el efecto estimado de .X 2 X 2 XXX2X2X

Echemos un vistazo con una simulación muy simple.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Ahora con un término cuadrático en el modelo para ajustar.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

Por supuesto, la prueba general todavía es significativa, pero creo que el resultado que estamos buscando no es este. La solución es usar polinomios ortogonales.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

Tenga en cuenta que los coeficientes de xen el primer modelo y de poly(x,2)1en el segundo modelo no son iguales, e incluso las intersecciones son diferentes. Esto se debe a que polyentrega vectores ortonormales, que también son ortogonales al vector rep(1, length(x)). Entonces poly(x,2)1no es xsino más bien (x -mean(x))/sqrt(sum((x-mean(x))**2))...

Un punto importante es que las pruebas de Wald, en este último modelo, son independientes. Puede usar polinomios ortogonales para decidir hasta qué grado desea ir, simplemente mirando la prueba de Wald: aquí decide mantener pero no . Por supuesto, encontrará el mismo modelo comparando los dos primeros modelos ajustados, pero es más simple de esta manera: si considera subir a grados más altos, es mucho más simple.X 2XX2

Una vez que haya decidido qué términos mantener, es posible que desee volver a los polinomios en bruto y para interpretarlos o predecirlos.X 2XX2

Elvis
fuente
+1 ¡Finalmente una respuesta clara! ¡Gracias! Antes de aceptar, ¿puede decirme si hay alguna otra estadística, como R ^ 2 o la estadística F, que debería leer mejor del resumen de la trama ortogonal que la sin procesar? Además de trazar las variables, ¿el ajuste usando polinomios en bruto es bueno para cualquier otra cosa en este escenario?
l7ll7
Y cuando tengo múltiples predictores, ¿es cierto lo mismo?
l7ll7
¿Cómo "usaría polinomios ortogonales para decidir si desea incluir un término cuadrático o no"?
Scortchi - Restablece a Monica
1
El punto es que la prueba del efecto de orden más alto, la cuadrática en este caso, es la misma ya sea que use polinomios en bruto u ortogonales. Entonces, ¿por qué molestarse con polinomios ortogonales?
Scortchi - Restablece a Monica
44
Bueno, por supuesto, simplemente no deberías hacer esas pruebas marginales en ese modelo; debes volver a colocarlo después de descartar el efecto de orden superior. Los polinomios ortogonales le ahorran la molestia, lo que permite un procedimiento de reducción fácil, tal vez podría ilustrarlo con un término cúbico.
Scortchi - Restablece a Monica
3

Para dar una evaluación ingenua de la situación:

en general: suponga que tiene dos funciones diferentes del sistema de base , así como para alguna función (hilbert-) espacio, L_2 habitual , es decir, el espacio de todas las funciones integrables al cuadrado.{pn}n=1{p~}n=1L2([a,b])

Esto significa que cada una de las dos bases puede usarse para explicar cada elemento de , es decir, para que tiene para algunos coeficientes y , (en el -sense): L2([a,b])yL2([a,b])θnθ~nRn=1,2,L2

n=1θ~np~n=y=n=1θnpn.

Sin embargo, por otro lado, si trunca ambos conjuntos de funciones básicas en algún número , es decir, toma así como estos conjuntos truncados de funciones básicas son muy probablemente dos describen "partes diferentes" de .{ p n } k n = 1 { ˜ p } k n = 1 , L 2 ( [ a , b ] )k<

{pn}n=1k
{p~}n=1k,
L2([a,b])

Sin embargo, aquí en el caso especial donde una base, , es solo una ortogonalización de la otra base, , la predicción general de será la misma para cada modelo truncado ( y su contraparte ortogonalizada describirá el mismo subespacio dimensional de ). { p n } n = 1 y { p } k n = 1 k L 2 ( [ a , b ] ){p~}n=1{pn}n=1y{p}n=1kkL2([a,b])

Pero cada función de base individual de las dos bases "diferentes" producirá una contribución diferente a esta predisposición (obviamente, ¡ya que las funciones / predictores son diferentes!) Dando como resultado diferentes valores y coeficientes .p

Por lo tanto, en términos de predicción no hay (en este caso) ninguna diferencia.

Desde el punto de vista computacional, una matriz modelo que consiste en funciones de base ortogonal tiene buenas propiedades numéricas / computacionales para el estimador de mínimos cuadrados. Si bien al mismo tiempo desde el punto de vista estadístico, la ortogonalización da como resultado estimaciones no correlacionadas, ya que bajo los supuestos estándar.var(θ~^)=Iσ²


La pregunta natural surge si existe un mejor sistema de base truncada. Sin embargo, la respuesta a la pregunta no es simple ni única y depende, por ejemplo, de la definición de la palabra "mejor", es decir, lo que está tratando de archivar.

chRrr
fuente
1
(+1) No hay diferencia en términos de predicción; Y podría decirse que no hay diferencia en términos de cualquier inferencia significativa.
Scortchi - Restablece a Monica