Tengo varias preguntas sobre la penalización de cresta en el contexto de mínimos cuadrados:
1) La expresión sugiere que la matriz de covarianza de X se reduce hacia una matriz diagonal, lo que significa que (suponiendo que las variables estén estandarizadas antes del procedimiento) se reducirá la correlación entre las variables de entrada. ¿Es correcta esta interpretación?
2) Si se trata de una aplicación de contracción, ¿por qué no se formula en las líneas de , suponiendo que de alguna manera podamos restringir lambda al rango [0,1] con una normalización .
3) ¿Qué puede ser una normalización para para que pueda restringirse a un rango estándar como [0,1].
4) Agregar una constante a la diagonal afectará a todos los valores propios. ¿Sería mejor atacar solo los valores singulares o casi singulares? ¿Es esto equivalente a aplicar PCA a X y retener los componentes principales N principales antes de la regresión o tiene un nombre diferente (ya que no modifica el cálculo de covarianza cruzada)?
5) ¿Podemos regularizar la covarianza cruzada, o tiene algún uso, lo que significa
donde una pequeña reducirá la covarianza cruzada. Obviamente, esto reduce todos s por igual, pero tal vez haya una forma más inteligente como el umbral duro / blando dependiendo del valor de covarianza.
fuente
Respuestas:
¡Buena pregunta!
Sí, esto es exactamente correcto. Puede ver la penalización de cresta como una forma posible de lidiar con el problema de multicolinealidad que surge cuando muchos predictores están altamente correlacionados. La introducción de la penalización por cresta reduce efectivamente estas correlaciones.
Creo que esto es en parte tradición, en parte el hecho de que la fórmula de regresión de crestas como se indica en su primera ecuación se deriva de la siguiente función de costo:Si , el segundo término puede descartarse, y minimizar el primer término ("error de reconstrucción") conduce a la fórmula estándar de OLS para . Mantener el segundo término lleva a la fórmula para . Esta función de costo es matemáticamente muy conveniente de manejar, y esta podría ser una de las razones para preferir la lambda "no normalizada".λ = 0 β β r i d g e
Una posible forma de normalizar es escalarlo por la varianza total , es decir, usar lugar de . Esto no limitaría necesariamente a , pero lo haría "adimensional" y probablemente resultaría en óptimo en menos de en todos los casos prácticos (NB: ¡esto es solo una suposición!).t r ( X ⊤ X ) λ t r ( X ⊤ X ) λ λ [ 0 , 1 ] λ 1λ tr(X⊤X) λtr(X⊤X) λ λ [0,1] λ 1
"Atacar solo valores propios pequeños" tiene un nombre diferente y se llama regresión de componentes principales. La conexión entre la PCR y la regresión de cresta es que en la PCR usted efectivamente tiene una "penalización escalonada" que corta todos los valores propios después de un cierto número, mientras que la regresión de cresta aplica una "penalización blanda", penalizando todos los valores propios, y los más pequeños son penalizados más. Esto se explica muy bien en Los elementos del aprendizaje estadístico de Hastie et al. (disponible gratuitamente en línea), sección 3.4.1. Vea también mi respuesta en Relación entre la regresión de cresta y la regresión de PCA .
Nunca he visto esto hecho, pero tenga en cuenta que podría considerar una función de costo en la formaEsto reduce su no a cero, sino a algún otro valor predefinido . Si uno resuelve las matemáticas, llegará a la óptima dada por que tal vez se pueda ver como "regularización de covarianza cruzada"?β β 0 β β = ( X ⊤ X + λ I ) - 1 ( X ⊤ y + λ β 0 ) ,
fuente
Un comentario adicional sobre la pregunta 4. En realidad, la regresión de cresta trata de manera bastante efectiva con los valores propios pequeños de dejando en su mayoría solo los valores propios grandes.XTX
Para ver esto, exprese el estimador de regresión de cresta en términos de la descomposición del valor singular de ,X
donde los son mutuamente ortogonales y los vectores también son mutuamente ortogonales. Aquí los valores propios de son , . v i X T X σ 2 i i = 1 , 2 , … , nui vi XTX σ2i i=1,2,…,n
Entonces puedes demostrar que
Ahora, considere los "factores de filtro" . Si , entonces los factores de filtro son 1, y obtenemos la solución convencional de mínimos cuadrados. Si y , entonces el factor de filtro es esencialmente 1. Si , entonces este factor es esencialmente 0. Por lo tanto, los términos correspondientes a los valores propios pequeños se eliminan efectivamente, mientras que los correspondientes a los valores propios más grandes se retienen. λ = 0 λ > 0 σ 2 i ≫ λ σ 2 i ≪ λσ2i/(σ2i+λ) λ=0 λ>0 σ2i≫λ σ2i≪λ
En comparación, la regresión de componentes principales simplemente usa factores de 1 (para los valores propios más grandes) o 0 (para los valores propios más pequeños que se descartan) en esta fórmula.
fuente
Las preguntas 1, 2 y 3 están vinculadas. Me gusta pensar que sí, la introducción de una pena de Ridge en un modelo de regresión lineal puede ser interpretado como una contracción en los valores eigen de . Para hacer esta interpretación, primero hay que suponer que está centrado. Esta interpretación se basa en la siguiente equivalencia: con y . Si , inmediatamente se deduce que .X λ x + y = κ ( α x + ( 1 - α ) y ) , α = λX X
La técnica que usted describe como "atacar solo los valores singulares o casi singulares" también se conoce como Análisis de Espectro Singular (para el propósito de la regresión lineal) (ver Ec. 19), si por "atacar", quiere decir "eliminar ". La covarianza cruzada no cambia.
La eliminación de valores singulares bajos también se realiza mediante Regresión de componentes principales . En la PCR, se realiza un PCA en y se aplica una regresión lineal en una selección de los componentes obtenidos. La diferencia con SSA es que tiene un impacto en la covarianza cruzada.X
fuente