Regresión lineal cuando solo conoces

13

Supongamos .Xβ=Y

No sabemos exactamente, sólo su correlación con cada predictor, .X t YYXtY

La solución de mínimos cuadrados ordinarios (OLS) es y no hay ningún problema.β=(XtX)1XtY

Pero supongamos que es casi singular (multicolinealidad), y necesita estimar el parámetro óptimo de cresta. Todos los métodos parece necesitar los valores exactos de .XtXY

¿Existe algún método alternativo cuando solo se conoce ?XtY

Punta
fuente
interesante pregunta. Quizás algún tipo de algoritmo EM funcionaría ...
probabilidadislogic
No entiendo, ¿no puedes usar la validación cruzada para estimar el parámetro de cresta óptimo?
Pardis
@Pardis: en la pregunta no se incluye la función de pérdida, por lo que no sabemos qué significa óptimo . ¿Puedes ver el problema con el que nos encontramos si la función de pérdida es el MSE?
cardenal
1
@ JohnSmith: Estás aludiendo al punto en el que conducía. No hay indicios de cómo medir la "óptima". Lo que está haciendo efectivamente es introducir una métrica diferente (función de distancia) para medir la "calidad" de predicción o ajuste. Sospecho que necesitamos más detalles del OP para llegar muy lejos.
cardenal
1
@Pardis: Encontrar los estimados no es el problema, como notas. :) Sin embargo, si decide hacer una validación cruzada, ¿cómo va a estimar el MSE fuera de la muestra, es decir, en el pliegue izquierdo para cada iteración? :)
cardenal

Respuestas:

8

Esta es una pregunta interesante. Sorprendentemente, es posible hacer algo bajo ciertos supuestos, pero existe una posible pérdida de información sobre la varianza residual. Depende de X cuánto se pierde.

Consideremos la siguiente descomposición de valores singulares X=UDVt de X con U una matriz n×p con columnas ortonormales, D una matriz diagonal con valores singulares positivos d1d2...dp>0 en la diagonal y V a p×p matriz ortogonal. Luego, las columnas de U forman una base ortonormal para el espacio de columnas de Xy

Z=UtY=D1VtVDUtY=D1VtXtY
es el vector de coeficientes para la proyección de Y en este espacio de columna cuando se expande en la base de la columna UDe la fórmula vemos que Z es computable a partir del conocimiento de X y XtY solamente.

Dado que el predictor cresta de regresión para un determinado puede calcularse como Y = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z vemos que los coeficientes para el predictor de regresión de cresta en elλ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
base -column son Z = D ( D 2 + λ I ) - 1 D Z . Ahora hacemos la suposición distributiva de que Y tiene unamedia n- dimensional ξ y una matriz de covarianza σ 2 I n . Entonces Z tiene p -dimensional media U t ξ y matriz de covarianza σ 2 I p . Si imaginamos una Y nueva independienteU
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNewcon la misma distribución que (todo condicionalmente en X a partir de aquí) el Z New correspondiente = U t Y New tiene la misma distribución que Z y es independiente y E | El | Y Nueva - Y | El | 2YXZNew=UtYNewZ Aquí la tercera igualdad sigue por la ortogonalidad deYNueva-UZNuevayTZNueva-U Z y el cuarto por el hecho de queTtiene columnas ortonormales. La cantidadErr0es un error sobre el que no podemos obtener información, pero no depende deλ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^UErr0λya sea. Para minimizar el error de predicción en el lado izquierdo, tenemos que minimizar el segundo término en el lado derecho.

Por un cálculo estándar Aquídf(λ)se conoce como los grados efectivos de libertad para la regresión de crestas con el parámetroλ. Un estimador imparcial deE| El | Z-Z| El | 2es err(λ)=| El | Z-Z| El | 2=pi=1(1

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
Thus if it is possible to choose λ so small that the squared bias can be ignored we can try to estimate σ2 as
σ^2=1pd(λ)||ZZ^||2.
If this will work depends a lot on X.

For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.

NRH
fuente
0

Define β as in the question and β(λ,K)=[(XTX)KK+λI]1(XTY)K for various parameters λ and sets K of sample labels. Then e(λ,K):=Xβ(λ,K)Y2XβY2 is computable since the unknown Y2 drops out when expanding both norms.

This leads to the following algorithm:

  • Compute the e(λ,K) for some choices of the training set K.
  • Plot the results as a function of λ.
  • Accept a value of λ where the plot is flattest.
  • Use β=[XTX+λI]1XTY as the final estimate.
Arnold Neumaier
fuente
1
I'm guessing "where the plot is flattest" will be at λ very small, like roughly 0 :)
jbowman
@jbowman: This will happen only if the problem is well-conditioned and needs no regularization, then λ=0 is indeed adequate. In the ill-conditioned case, the prediction of the items outside K will be poor because of overfitting, and e(λ,K) will therefore be large.
Arnold Neumaier
3
@ArnoldNeumaier: (XTY)K isn't computable. We only know the correlation with each predictor. (XTY) is in the "predictor domain", not in the "Y domain" (If N is the sample size and p the number of predictors, we only have p values, one for each predictor).
Jag
@Jag: Then there is not enough information for selecting λ. But XTY must have been collected somehow. If during its collection you partition the sample into k batches and assemble the XTY separately for each batch then one can reserve one batch each for cross validation.
Arnold Neumaier
@ArnoldNeumaier: XTY are externally given, don't collected.
Jag