¿Cómo utilizar el análisis de componentes principales para seleccionar variables para la regresión?

12

Actualmente estoy usando el análisis de componentes principales para seleccionar variables para usar en el modelado. Por el momento, hago mediciones A, B y C en mis experimentos. Lo que realmente quiero saber es: ¿puedo hacer menos mediciones y dejar de registrar C y / o B para ahorrar tiempo y esfuerzo?

Encuentro que las 3 variables se cargan fuertemente en mi primer componente principal, que representa el 60% de la variación en mis datos. Los puntajes de los componentes me dicen que si agrego estas variables juntas en una cierta proporción (aA + bB + cC). Puedo obtener una puntuación en PC1 para cada caso en mi conjunto de datos y podría usar esta puntuación como una variable en el modelado, pero eso no me permite dejar de medir B y C.

Si cuadro las cargas de A y B y C en PC1, encuentro que la variable A representa el 65% de la varianza en PC1 y la variable B representa el 50% de la varianza en PC1 y la variable C también 50%, es decir, algunos de la varianza en PC1 explicada por cada variable A, B y C se comparte con otra variable, pero A aparece en la parte superior y representa un poco más.

¿Es incorrecto pensar que podría elegir la variable A o posiblemente (aA + bB, si es necesario) para usar en el modelado porque esta variable describe una gran proporción de la varianza en PC1 y esto a su vez describe una gran proporción de la varianza en ¿los datos?

¿Qué enfoque has seguido en el pasado?

  • ¿Variable única que carga más pesado en PC1 incluso si hay otros cargadores pesados?
  • ¿Puntaje de componente en PC1 usando todas las variables, incluso si son todos cargadores pesados?
N26
fuente

Respuestas:

14

No ha especificado qué "modelado" planea, pero parece que está preguntando cómo seleccionar variables independientes entre , y con el propósito de (por ejemplo) hacer retroceder una cuarta variable dependiente sobre ellas.ABCW

Para ver que este enfoque puede salir mal, considere tres variables independientes normalmente distribuidas , y con varianza unitaria. Para el verdadero modelo subyacente , elija una pequeña constante , una constante muy pequeña , y deje que la (variable dependiente) (más un poco de error independiente de , , y ).XYZβ1ϵβW=ZXYZ

Supongamos que las variables independientes que tienen son , y . Entonces y se correlacionan fuertemente (dependiendo de la varianza del error), porque cada uno es cercano a un múltiplo de . Sin embargo, no está correlacionado con cualquiera de o . Como es pequeño, el primer componente principal para es paralelo a con un valor propio . y cargan mucho en este componente yA=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCno se carga en absoluto porque es independiente de (e ). Sin embargo, si elimina de las variables independientes, dejando solo y , estará desechando toda la información sobre la variable dependiente porque , y son independientes.XYCABWAB

Este ejemplo muestra que para la regresión, debe prestar atención a cómo las variables independientes se correlacionan con la dependiente; no puede escapar simplemente analizando las relaciones entre las variables independientes.

whuber
fuente
1
¿debería ser no ? A=X+ϵYZ+ϵY
shabbychef
@ Shabby Sí, gracias. (Tuve que cambiar todos los nombres de las variables en un proyecto para que coincida con los nombres de los OP y la pata éste para arriba.)
whuber
4

Si solo tiene 3 IV, ¿por qué desea reducirlos?

Es decir, ¿su muestra es muy pequeña (de modo que 3 IVs corren el riesgo de sobreajuste)? En este caso, considere mínimos cuadrados parciales

¿O las mediciones son muy caras (entonces, en el futuro, le gustaría medir solo un IV)? En este caso, consideraría mirar las diferentes regresiones con cada IV por separado y en conjunto.

¿O alguien en su pasado enfatizó demasiado el valor de la parsimonia? En este caso, ¿por qué no incluir los 3 IV?

Peter Flom - Restablece a Monica
fuente