¿Cuáles son los supuestos de la regresión de crestas y cómo probarlos?

21

Considere el modelo estándar para regresión múltiple donde , por lo que la normalidad, la homocedasticidad y la falta de correlación de errores se mantienen.ε N ( 0 , σ 2 I n )

Y=Xβ+ε
εN(0,σ2In)

Supongamos que realizamos una regresión de cresta, agregando la misma pequeña cantidad a todos los elementos de la diagonal de :X

βridge=[XX+kI]1XY

Hay algunos valores de para los cuales el coeficiente de cresta tiene menos error cuadrático medio que los obtenidos por OLS, aunque es un estimador sesgado de . En la práctica, se obtiene por validación cruzada.β r i d g e β kkβridgeβk

Aquí está mi pregunta: ¿cuáles son los supuestos subyacentes al modelo de cresta? Para ser más concreto,

  1. ¿Son válidos todos los supuestos del mínimo cuadrado ordinario (MCO) con la regresión de cresta?

  2. En caso afirmativo a la pregunta 1, ¿cómo evaluamos la homocedasticidad y la falta de autocorrelación con un estimador sesgado de ?β

  3. ¿Hay algún trabajo para probar otras suposiciones de OLS (homocedasticidad y falta de autocorrelación) bajo regresión de cresta?

akyves
fuente
66
Tenga en cuenta que OLS no asume que los predictores son independientes. Son solo ciertos métodos o fórmulas de solución particulares los que hacen tales suposiciones. Lo importante es cómo se selecciona el multiplicador de regresión de crestas, no es que la estimación de pueda estar sesgada. Si ese multiplicador se selecciona observando un rastro de cresta, entonces realmente no tiene una manera de cuantificar las incertidumbres, lo que pone en duda la mayoría de las pruebas de diagnóstico formales en la teoría de regresión lineal. Esto me lleva a preguntar qué quiere decir realmente con "regresión de cresta": ¿cómo exactamente estima su parámetro? β
whuber
Quizás estoy equivocado, pero considerando el modelo estándar de regresión múltiple . Y si no es rango completo, esto conduce a una matriz no invertible , especialmente en el caso de una alta dimensión de X. He editado mi pregunta. Gracias. X X XβOLS=(XX)1XYXXX
akyves
1
La regresión lineal puede tratar perfectamente con la colinealidad, siempre que no sea "demasiado grande".
jona
3
Ese no es el modelo para la regresión múltiple: es solo una forma de expresar la estimación de mínimos cuadrados. Cuando no es invertible, las ecuaciones normales aún tienen soluciones y (generalmente) el modelo todavía tiene un ajuste único , lo que significa que hace predicciones únicas. XX
whuber

Respuestas:

21

¿Qué es una suposición de un procedimiento estadístico?

No soy estadístico, por lo que esto podría estar mal, pero creo que la palabra "suposición" a menudo se usa de manera informal y puede referirse a varias cosas. Para mí, una "suposición" es, estrictamente hablando, algo que solo un resultado teórico (teorema) puede tener.

Cuando las personas hablan de supuestos de regresión lineal ( ver aquí para una discusión en profundidad), generalmente se refieren al teorema de Gauss-Markov que dice que bajo supuestos de errores no correlacionados, de igual varianza, de media cero, la estimación de OLS es AZUL , es decir, es imparcial y tiene una varianza mínima. Fuera del contexto del teorema de Gauss-Markov, no me queda claro qué significaría siquiera un "supuesto de regresión".

Del mismo modo, los supuestos de una, por ejemplo, una prueba t de una muestra se refieren a los supuestos bajo los cuales -statistic se distribuye y, por lo tanto, la inferencia es válida. No se llama "teorema", pero es un resultado matemático claro: si muestras se distribuyen normalmente, entonces -statistic seguirá la distribución Student con grados de libertad.t n t t n - 1ttnttn1

Suposiciones de técnicas de regresión penalizadas

Considere ahora cualquier técnica de regresión regularizada: regresión de cresta, lazo, red elástica, regresión de componentes principales, regresión de mínimos cuadrados parciales, etc. etc. El objetivo de estos métodos es hacer una estimación sesgada de los parámetros de regresión, y esperar reducir el esperado pérdida al explotar el equilibrio de sesgo-varianza.

Todos estos métodos incluyen uno o varios parámetros de regularización y ninguno de ellos tiene una regla definida para seleccionar los valores de estos parámetros. El valor óptimo generalmente se encuentra a través de algún tipo de procedimiento de validación cruzada, pero existen varios métodos de validación cruzada y pueden arrojar resultados algo diferentes. Además, no es raro invocar algunas reglas generales adicionales además de la validación cruzada. Como resultado, el resultado real de cualquiera de estos métodos de regresión penalizados no está completamente definido por el método, pero puede depender de las elecciones del analista.β^

Por lo tanto, no está claro para mí cómo puede haber una declaración de optimización teórica sobre , por lo que no estoy seguro de que hablar de "supuestos" (presencia o ausencia de los mismos) de métodos penalizados como la regresión de cresta tenga sentido. .β^

Pero, ¿qué pasa con el resultado matemático que la regresión de cresta siempre supera a OLS?

Hoerl & Kennard (1970) en Regresión de cresta: estimación sesgada para problemas no ortogonales demostró que siempre existe un valor del parámetro de regularización modo que la estimación de regresión de cresta de tiene una pérdida esperada estrictamente menor que la estimación de OLS. Es un resultado sorprendente: vea aquí para una discusión, pero solo prueba la existencia de tal , que dependerá del conjunto de datos.β λλβλ

Este resultado en realidad no requiere ninguna suposición y siempre es cierto, pero sería extraño afirmar que la regresión de cresta no tiene ninguna suposición.

De acuerdo, pero ¿cómo sé si puedo aplicar la regresión de cresta o no?

Diría que incluso si no podemos hablar de suposiciones, podemos hablar de reglas generales . Es bien sabido que la regresión de cresta tiende a ser más útil en caso de regresión múltiple con predictores correlacionados. Es bien sabido que tiende a superar a OLS, a menudo por un amplio margen. Tiende a superarlo incluso en el caso de heterocedasticidad, errores correlacionados o cualquier otra cosa. Entonces, la regla general simple dice que si tiene datos multicolineales, la regresión de crestas y la validación cruzada es una buena idea.

Probablemente hay otras reglas prácticas y trucos comerciales útiles (como, por ejemplo, qué hacer con los valores atípicos). Pero no son suposiciones.

Tenga en cuenta que para la regresión OLS se necesitan algunas suposiciones para que los valores mantengan. Por el contrario, es complicado obtener valores en la regresión de crestas. Si esto se hace en absoluto, se hace mediante bootstrapping o algún enfoque similar y nuevamente sería difícil señalar suposiciones específicas aquí porque no hay garantías matemáticas.ppp

ameba dice Reinstate Monica
fuente
En la situación en la que se derivan propiedades de inferencia en relación con algún procedimiento, ya sea propiedades de una prueba de hipótesis de una pendiente de regresión o propiedades de un intervalo de confianza o un intervalo de predicción, por ejemplo, las pruebas mismas se derivarán bajo algunas conjunto de supuestos Dado que en muchas áreas temáticas el propósito más común de usar la regresión es realizar algún tipo de inferencia (de hecho, en algunas áreas de aplicación rara vez se hace por cualquier otra razón), las suposiciones que se harían para el procedimiento de inferencia están naturalmente asociadas with ...
ctd
ctd ... en lo que se usan. Entonces, si necesita algunos supuestos para derivar una prueba t para probar un coeficiente de regresión o para una prueba F parcial o para un IC para la media o un intervalo de predicción ... y todas las formas habituales de inferencia hacen lo mismo o casi misma colección de supuestos, entonces esos serían razonablemente considerados como supuestos asociados con la realización de inferencia usando esa cosa. Si se va a realizar ninguna inferencia con cresta de regresión (por ejemplo un intervalo de predicción) y realiza hipótesis con el fin de hacerlo, los que igualmente podría decirse que los supuestos ... CTD
Glen_b -Reinstate Monica
necesitaba poder derivar (y presumiblemente, entonces, usar) ese tipo particular de inferencia en la regresión de cresta.
Glen_b: reinstala a Mónica el
R2
1
No es demasiado tarde, espero agradecer a @amoeba. ¡Gran respuesta!
akyves
1

Me gustaría proporcionar algunos aportes desde la perspectiva de las estadísticas. Si Y ~ N (Xb, sigma2 * In), entonces el error cuadrático medio de b ^ es

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Si XT X es aproximadamente cero, entonces inv (XT X) será muy grande. Por lo tanto, la estimación del parámetro de b no es estable y puede tener el siguiente problema.

  1. algún valor absoluto de la estimación del parámetro es muy grande
  2. b tiene signo positivo o negativo opuesto al esperado.
  3. Agregar o eliminar variables u observaciones hará que los parámetros estimen cambios dramáticamente.

Con el fin de hacer estable la estimación ordinal de mínimos cuadrados de b, introducimos la regresión de crestas estimando el valor b^(k)=inv(X.T*X+kI)*X.T*Y.Y podemos demostrar que siempre hay ak que hace que el error cuadrático medio de

MSE(b^(k)) < MSE(b^).

En el aprendizaje automático, la regresión de la cresta se denomina regularización L2 y es para combatir los problemas de sobreajuste causados ​​por muchas características.

Emma
fuente