Considere el modelo estándar para regresión múltiple donde , por lo que la normalidad, la homocedasticidad y la falta de correlación de errores se mantienen.ε ∼ N ( 0 , σ 2 I n )
Supongamos que realizamos una regresión de cresta, agregando la misma pequeña cantidad a todos los elementos de la diagonal de :
Hay algunos valores de para los cuales el coeficiente de cresta tiene menos error cuadrático medio que los obtenidos por OLS, aunque es un estimador sesgado de . En la práctica, se obtiene por validación cruzada.β r i d g e β k
Aquí está mi pregunta: ¿cuáles son los supuestos subyacentes al modelo de cresta? Para ser más concreto,
¿Son válidos todos los supuestos del mínimo cuadrado ordinario (MCO) con la regresión de cresta?
En caso afirmativo a la pregunta 1, ¿cómo evaluamos la homocedasticidad y la falta de autocorrelación con un estimador sesgado de ?
¿Hay algún trabajo para probar otras suposiciones de OLS (homocedasticidad y falta de autocorrelación) bajo regresión de cresta?
Respuestas:
¿Qué es una suposición de un procedimiento estadístico?
No soy estadístico, por lo que esto podría estar mal, pero creo que la palabra "suposición" a menudo se usa de manera informal y puede referirse a varias cosas. Para mí, una "suposición" es, estrictamente hablando, algo que solo un resultado teórico (teorema) puede tener.
Cuando las personas hablan de supuestos de regresión lineal ( ver aquí para una discusión en profundidad), generalmente se refieren al teorema de Gauss-Markov que dice que bajo supuestos de errores no correlacionados, de igual varianza, de media cero, la estimación de OLS es AZUL , es decir, es imparcial y tiene una varianza mínima. Fuera del contexto del teorema de Gauss-Markov, no me queda claro qué significaría siquiera un "supuesto de regresión".
Del mismo modo, los supuestos de una, por ejemplo, una prueba t de una muestra se refieren a los supuestos bajo los cuales -statistic se distribuye y, por lo tanto, la inferencia es válida. No se llama "teorema", pero es un resultado matemático claro: si muestras se distribuyen normalmente, entonces -statistic seguirá la distribución Student con grados de libertad.t n t t n - 1t t n t t n−1
Suposiciones de técnicas de regresión penalizadas
Considere ahora cualquier técnica de regresión regularizada: regresión de cresta, lazo, red elástica, regresión de componentes principales, regresión de mínimos cuadrados parciales, etc. etc. El objetivo de estos métodos es hacer una estimación sesgada de los parámetros de regresión, y esperar reducir el esperado pérdida al explotar el equilibrio de sesgo-varianza.
Todos estos métodos incluyen uno o varios parámetros de regularización y ninguno de ellos tiene una regla definida para seleccionar los valores de estos parámetros. El valor óptimo generalmente se encuentra a través de algún tipo de procedimiento de validación cruzada, pero existen varios métodos de validación cruzada y pueden arrojar resultados algo diferentes. Además, no es raro invocar algunas reglas generales adicionales además de la validación cruzada. Como resultado, el resultado real de cualquiera de estos métodos de regresión penalizados no está completamente definido por el método, pero puede depender de las elecciones del analista.β^
Por lo tanto, no está claro para mí cómo puede haber una declaración de optimización teórica sobre , por lo que no estoy seguro de que hablar de "supuestos" (presencia o ausencia de los mismos) de métodos penalizados como la regresión de cresta tenga sentido. .β^
Pero, ¿qué pasa con el resultado matemático que la regresión de cresta siempre supera a OLS?
Hoerl & Kennard (1970) en Regresión de cresta: estimación sesgada para problemas no ortogonales demostró que siempre existe un valor del parámetro de regularización modo que la estimación de regresión de cresta de tiene una pérdida esperada estrictamente menor que la estimación de OLS. Es un resultado sorprendente: vea aquí para una discusión, pero solo prueba la existencia de tal , que dependerá del conjunto de datos.β λλ β λ
Este resultado en realidad no requiere ninguna suposición y siempre es cierto, pero sería extraño afirmar que la regresión de cresta no tiene ninguna suposición.
De acuerdo, pero ¿cómo sé si puedo aplicar la regresión de cresta o no?
Diría que incluso si no podemos hablar de suposiciones, podemos hablar de reglas generales . Es bien sabido que la regresión de cresta tiende a ser más útil en caso de regresión múltiple con predictores correlacionados. Es bien sabido que tiende a superar a OLS, a menudo por un amplio margen. Tiende a superarlo incluso en el caso de heterocedasticidad, errores correlacionados o cualquier otra cosa. Entonces, la regla general simple dice que si tiene datos multicolineales, la regresión de crestas y la validación cruzada es una buena idea.
Probablemente hay otras reglas prácticas y trucos comerciales útiles (como, por ejemplo, qué hacer con los valores atípicos). Pero no son suposiciones.
Tenga en cuenta que para la regresión OLS se necesitan algunas suposiciones para que los valores mantengan. Por el contrario, es complicado obtener valores en la regresión de crestas. Si esto se hace en absoluto, se hace mediante bootstrapping o algún enfoque similar y nuevamente sería difícil señalar suposiciones específicas aquí porque no hay garantías matemáticas.pp p
fuente
Me gustaría proporcionar algunos aportes desde la perspectiva de las estadísticas. Si Y ~ N (Xb, sigma2 * In), entonces el error cuadrático medio de b ^ es
Si XT X es aproximadamente cero, entonces inv (XT X) será muy grande. Por lo tanto, la estimación del parámetro de b no es estable y puede tener el siguiente problema.
Con el fin de hacer estable la estimación ordinal de mínimos cuadrados de b, introducimos la regresión de crestas estimando el valor
b^(k)=inv(X.T*X+kI)*X.T*Y.
Y podemos demostrar que siempre hay ak que hace que el error cuadrático medio deEn el aprendizaje automático, la regresión de la cresta se denomina regularización L2 y es para combatir los problemas de sobreajuste causados por muchas características.
fuente