En Métodos estadísticos en las ciencias atmosféricas , Daniel Wilks señala que la regresión lineal múltiple puede conducir a problemas si hay intercorrelaciones muy fuertes entre los predictores (3a edición, página 559-560):
Una patología que puede ocurrir en la regresión lineal múltiple es que un conjunto de variables predictoras que tienen fuertes correlaciones mutuas pueden resultar en el cálculo de una relación de regresión inestable.
(...)
Luego introduce la regresión del componente principal:
Un enfoque para remediar este problema es transformar primero los predictores en sus componentes principales, cuyas correlaciones son cero.
Hasta aquí todo bien. Pero a continuación, hace algunas declaraciones que no explica (o al menos no con suficiente detalle para que yo entienda):
Si todos los componentes principales se retienen en una regresión de componentes principales, entonces no se gana nada sobre el ajuste de mínimos cuadrados convencionales al conjunto completo de predictores.
(..) y:
Es posible volver a expresar la regresión del componente principal en términos de los predictores originales, pero el resultado en general involucrará todas las variables predictoras originales, incluso si solo se han utilizado uno o algunos predictores de componentes principales. Esta regresión reconstituida estará sesgada, aunque a menudo la varianza es mucho menor, lo que resulta en un MSE más pequeño en general.
No entiendo estos dos puntos.
Por supuesto, si se retienen todos los componentes principales, usamos la misma información que cuando utilizamos los predictores en su espacio original. Sin embargo, el problema de las correlaciones mutuas se elimina trabajando en el espacio del componente principal. Es posible que aún tengamos sobreajuste, pero ¿es ese el único problema? ¿Por qué no se gana nada?
En segundo lugar, incluso si truncamos los componentes principales (tal vez para la reducción de ruido y / o para evitar el sobreajuste), ¿por qué y cómo esto conduce a una regresión reconstituida sesgada? Sesgado de qué manera?
Fuente del libro: Daniel S. Wilks, Métodos estadísticos en las ciencias atmosféricas, tercera edición, 2011. Serie internacional de geofísica, volumen 100, Academic Press.
fuente
Respuestas:
¿Qué sucede cuando se usan todas las PC?
Si se utilizan todas las PC, los coeficientes de regresión resultantes serán idénticos a los obtenidos con la regresión OLS, por lo que este procedimiento no debería llamarse "regresión de componentes principales". Es una regresión estándar, solo realizada de forma indirecta.
Entonces no se gana nada.
¿Qué sucede cuando solo se usan pocas PC?
Este es un ejemplo de la compensación de sesgo-varianza . Ver ¿Por qué funciona la contracción? para alguna discusión general adicional.
¿Por qué usar PC de alta variación es una buena idea?
Esto no era parte de la pregunta, pero podría estar interesado en el siguiente hilo para la lectura adicional: ¿cómo pueden los principales componentes principales retener el poder predictivo en una variable dependiente (o incluso conducir a mejores predicciones)?
fuente