¿Cómo el centrado de los datos elimina la intercepción en regresión y PCA?

40

Sigo leyendo sobre instancias en las que centramos los datos (por ejemplo, con regularización o PCA) para eliminar la intercepción (como se menciona en esta pregunta ). Sé que es simple, pero me está costando entender esto intuitivamente. ¿Podría alguien proporcionarme la intuición o una referencia que pueda leer?

Alec
fuente
2
Este es un caso muy especial de "controlar otras variables" como se explica (de varias maneras) en stats.stackexchange.com/questions/17336/… . La "variable" que se controla es el término constante (intercepción).
whuber

Respuestas:

66

¿Pueden ayudarme estas imágenes?

Las 2 primeras imágenes son sobre regresión. Centrar los datos no altera la pendiente de la línea de regresión, pero hace que la intersección sea igual a 0.

ingrese la descripción de la imagen aquí

Las siguientes imágenes son sobre PCA. PCA es un modelo regresivo sin intercepción . Por lo tanto, los componentes principales inevitablemente provienen del origen. Si olvida centrar sus datos, el primer componente principal puede perforar la nube no a lo largo de la dirección principal de la nube y será (para fines estadísticos) engañoso.1

ingrese la descripción de la imagen aquí


1 PCA no es un análisis de regresión , por supuesto. Sin embargo, comparte formalmente la misma ecuación lineal (combinación lineal) con la regresión lineal. La ecuación PCA es como una ecuación de regresión lineal sin intercepción, porque PCA es una operación de rotación.

ttnphns
fuente
1
y¯-X¯β
16
PCA is maximizing varianceEsto no es generalmente cierto. PCA maximiza (por la primera PC) la suma de desviaciones al cuadrado del origen. Solo si los datos se centraron preliminarmente (centrarse en sí mismo no es parte de PCA), se convierte en una variación máxima.
ttnphns
3
PD Tenga en cuenta que el cálculo de covarianzas o correlaciones implica centrado
ttnphns
1
> PD Tenga en cuenta que el cálculo de covarianzas o correlaciones implica centrado - ttnphns 27 de agosto de 12 a 11:47 Si bien estoy de acuerdo con sus otros comentarios, tanto la covarianza como la correlación NO implican centrado. Ni cor ni covar cambian de valor cuando se aplica una constante aditiva a los datos.
TPM
1
Esto es al revés. Las constantes aditivas de hecho no afectan las correlaciones, pero eso se debe a que se restan en los cálculos, como señaló @ttphns. Aparte de eso, esta no es una respuesta nueva, sino un comentario. Entendemos que aún no tiene suficiente reputación para comentar, por lo que, confío, esto será movido por un usuario con suficiente reputación después de que lo marque.
Nick Cox