Me pregunto cuál es la relación exacta entre parcial y los coeficientes en un modelo lineal y si debería usar solo uno o ambos para ilustrar la importancia y la influencia de los factores.
Hasta donde sé, con las summary
estimaciones de los coeficientes y con anova
la suma de los cuadrados para cada factor, la proporción de la suma de los cuadrados de un factor dividido por la suma de la suma de los cuadrados más los residuos es parcial (el siguiente código está en ).R
library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe)
Residuals:
Min 1Q Median 3Q Max
-60.240 -15.738 -1.156 15.883 51.380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 ***
income 8.065e-02 9.299e-03 8.674 2.56e-11 ***
young 8.173e-01 1.598e-01 5.115 5.69e-06 ***
urban -1.058e-01 3.428e-02 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 48087 48087 67.4869 1.219e-10 ***
young 1 19537 19537 27.4192 3.767e-06 ***
urban 1 6787 6787 9.5255 0.003393 **
Residuals 47 33489 713
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
El tamaño de los coeficientes para 'joven' (0.8) y 'urbano' (-0.1, aproximadamente 1/8 del primero, ignorando '-') no coincide con la varianza explicada ('joven' ~ 19500 y 'urbano' ~ 6790, es decir, alrededor de 1/3).
Así que pensé que necesitaría escalar mis datos porque supuse que si el rango de un factor es mucho más amplio que el rango de otro factor, sus coeficientes serían difíciles de comparar:
Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)
Residuals:
Min 1Q Median 3Q Max
-1.29675 -0.33879 -0.02489 0.34191 1.10602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.084e-16 8.046e-02 0.000 1.00000
income 9.723e-01 1.121e-01 8.674 2.56e-11 ***
young 4.216e-01 8.242e-02 5.115 5.69e-06 ***
urban -3.447e-01 1.117e-01 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 22.2830 22.2830 67.4869 1.219e-10 ***
young 1 9.0533 9.0533 27.4192 3.767e-06 ***
urban 1 3.1451 3.1451 9.5255 0.003393 **
Residuals 47 15.5186 0.3302
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Pero eso realmente no hace una diferencia, parcial y el tamaño de los coeficientes (estos ahora son coeficientes estandarizados ) todavía no coinciden:
22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young: partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban: partial R2 0.062, Coeff -0.34
Entonces, ¿es justo decir que 'joven' explica tres veces más la varianza que 'urbano' porque parcial para 'joven' es tres veces mayor que 'urbano'? ¿Por qué el coeficiente de 'joven' no es tres veces mayor que el de 'urbano' (ignorando el signo)?
Supongo que la respuesta a esta pregunta también me indicará la respuesta a mi consulta inicial: ¿Debería usar parcial o coeficientes para ilustrar la importancia relativa de los factores? (Ignorando la dirección de influencia - signo - por el momento).
Editar:
El eta-cuadrado parcial parece ser otro nombre para lo que llamé parcial . etasq {heplots} es una función útil que produce resultados similares:
etasq(mod)
Partial eta^2
income 0.6154918
young 0.3576083
urban 0.1685162
Residuals NA
Respuestas:
En resumen , no usaría tanto el parcial como los coeficientes estandarizados en el mismo análisis, ya que no son independientes. Yo diría que, por lo general, es probablemente más intuitivo comparar relaciones utilizando los coeficientes estandarizados porque se relacionan fácilmente con la definición del modelo (es decir, Y = β X ). El parcial R 2 , a su vez, es esencialmente la proporción de varianza compartida única entre el predictor y la variable dependiente (dv) (por lo que para la primera predictor es el cuadrado de la correlación parcial r x 1 y . X 2 . . . X norteR2 Y=βX R2 rx1y.x2...xn ) Además, para un ajuste con un error muy pequeño, todos los coeficientes parciales tienden a 1, por lo que no son útiles para identificar la importancia relativa de los predictores.R2
Las definiciones del tamaño del efecto
parcial : la proporción de variación residual explicada al agregar el predictor al modelo restringido (el modelo completo sin el predictor). Igual que:R2
: la diferencia en R 2 entre el modelo restringido y el modelo completo. Igual a:ΔR2 R2
Todos estos están estrechamente relacionados, pero difieren en cómo manejan la estructura de correlación entre las variables. Para comprender un poco mejor esta diferencia, supongamos que tenemos 3 variables estandarizadas (media = 0, sd = 1) cuyas correlaciones son r x y , r x z , r y z . Tomaremos x como la variable dependiente e y y zx,y,z rxy,rxz,ryz x y z como los predictores Expresaremos todos los coeficientes de tamaño del efecto en términos de las correlaciones para que podamos ver explícitamente cómo cada estructura maneja la estructura de correlación. Primero, enumeraremos los coeficientes en el modelo de regresión estimados usando OLS. La fórmula para los coeficientes:
β y = r x y - r y z r z xx=βyY+βzZ
la raíz cuadrada delR2parcialpara los predictores será igual a:
anova
lm
Anova
car
anova(mod)
Anova(mod, type = 2)
options(contrasts = c("contr.sum","contr.poly"))
Anova(mod,type=3)
etasq()
Crédito
La fórmula para la correlación parcial se da en ttnphns respuesta aquí: ¿ Regresión múltiple o coeficiente de correlación parcial? Y las relaciones entre los dos
fuente
Como ya se explicó en varias otras respuestas y comentarios, esta pregunta se basó en al menos tres confusiones:
anova()
Anova()
car
Después de aclarar estas confusiones, queda la pregunta de cuáles son las medidas más apropiadas del tamaño o importancia del efecto predictor.
En R, hay un paquete
relaimpo
que proporciona varias medidas de importancia relativa.Usando el mismo
Anscombe
conjunto de datos que en su pregunta, esto produce las siguientes métricas:Algunas de estas métricas ya se han discutido:
betasq
son coeficientes estandarizados al cuadrado, los mismos valores que obtuvo conlm()
.first
anova()
last
anova()
Hay cuatro métricas adicionales
relaimpo
, y una más (la quinta) está disponible si el paqueterelaimpo
se instala manualmente: la versión CRAN excluye esta métrica debido a un posible conflicto con su autor, quien, por extraño que parezca, tiene una patente estadounidense en su método . Estoy ejecutando R en línea y no tengo acceso a él, así que si alguien puede instalarlo manualmenterelaimpo
, agregue esta métrica adicional a mi salida anterior para completarla.Hay dos métricas
pratt
que pueden ser negativas (malas) ygenizi
que son bastante oscuras.Dos enfoques interesantes son
lmg
ycar
.El segundo se introduce en (Zuber & Strimmer, 2011) y tiene muchas propiedades teóricas atractivas; es coeficientes estandarizados al cuadrado después de que los predictores se estandarizaron primero y luego se blanquearon con la transformación ZCA / Mahalanobis (es decir, se blanquearon mientras se minimiza el error de reconstrucción).
lmg
car
Bibliografía:
Referencias sobre importancia relativa en el sitio web de Ulrike Grömping : es la autora de
relaimpo
.Grömping, U. (2006). Importancia relativa para la regresión lineal en R: El paquete relaimpo . Revista de software estadístico 17, número 1.
Grömping, U. (2007). Estimadores de importancia relativa en regresión lineal basados en la descomposición de la varianza . El estadístico estadounidense 61, 139-147.
Zuber, V. y Strimmer, K. (2010). Regresión de alta dimensión y selección de variables utilizando puntajes CAR . Aplicaciones estadísticas en genética y biología molecular 10.1 (2011): 1-27.
Grömping, U. (2015). Importancia variable en modelos de regresión . Revisiones interdisciplinarias de Wiley: Estadísticas computacionales, 7 (2), 137-152. (detrás del muro de pago)
fuente
Tu escribiste:
Es importante no confundir dos cosas aquí. Primero, está la cuestión de la especificación del modelo. El algoritmo lm supone que se cumplen los supuestos OLS. Entre otras cosas, esto significa que, para estimaciones no sesgadas, NO puede faltar ninguna variable significativa en el modelo (excepto cuando no está correlacionado con todos los demás regresores, raro).
Entonces, al encontrar un modelo, la influencia adicional en R² o R² ajustado es, por supuesto, de interés. Uno podría pensar que es apropiado agregar regresores hasta que el R² ajustado deje de mejorar, por ejemplo. Existen problemas interesantes con los procedimientos de regresión gradual como este, pero este no es el tema. En cualquier caso, supongo que hubo una razón por la que eligió su modelo.
SIN EMBARGO: esta influencia adicional en el R² no es idéntica a la influencia real o total del regresor en la variable independiente, precisamente debido a la multicollineridad: si quita el regresor, parte de su influencia ahora se atribuirá a los otros regresores que están correlacionados con eso. Entonces ahora la verdadera influencia no se muestra correctamente.
Y hay otro problema: las estimaciones solo son válidas para el modelo completo con todos los demás regresores presentes. O este modelo aún no es correcto y, por lo tanto, la discusión sobre la influencia no tiene sentido, o es correcto y luego no puede eliminar un regresor y aún utilizar los métodos OLS con éxito.
Entonces: ¿es apropiado su modelo y el uso de OLS? Si es así, las estimaciones responden a su pregunta: son su mejor conjetura literal de la influencia de las variables en las variables regresivas y dependientes.
Si no, entonces su primer trabajo es encontrar un modelo correcto. Para esto, el uso de R² parcial puede ser una forma. Una búsqueda en la especificación del modelo o la regresión gradual producirá muchos enfoques interesantes en este foro. Lo que funcione dependerá de sus datos.
fuente
relaimpo
es proporcionar alternativas a R ^ 2 parcial, ¡exactamente por la razón que da IMA!relaimpo
paquete, me di cuenta de que hay un mundo entero de enfoques diferentes para cuantificar la importancia relativa de los predictores en la regresión lineal. Actualmente estoy revisando algunos documentos vinculados allí ( este preprint 2010 se ve bastante bien hasta ahora), ¡y esto es un desastre! No me di cuenta de que este problema es tan complicado cuando ofrecí mi recompensa. No parece haber sido discutido adecuadamente en CV. ¿Es este un tema oscuro? Si es así, ¿por qué?Con respecto a la diferencia entre el coeficiente de regresión lineal y la correlación parcial, puede leer esto , por ejemplo.
Sin embargo, la confusión expresada en la pregunta parece ser de otra naturaleza. Parece ser sobre el tipo predeterminado de sumas de cuadrados utilizado por este o aquel paquete estadístico (tema, discutido repetidamente en nuestro sitio). La regresión lineal utiliza lo que se llama en el cálculo de ANOVA Tipo III SS. En muchos programas ANOVA, esa también es la opción predeterminada. En
R
funciónanova
, me parece (no soy usuario de R, así que supongo que) el cálculo predeterminado es SS Tipo I (un "SS secuencial" que depende del orden en que se especifican los predictores en el modelo). Entonces, la discrepancia que observó y que no desapareció cuando estandarizó ("escaló") sus variables es porque especificó el ANOVA con la opción predeterminada de Tipo I.A continuación se muestran los resultados obtenidos en SPSS con sus datos:
Puede seleccionar en estas impresiones que los parámetros (coeficientes regresivos) son los mismos independientemente del tipo de cálculo de SS. También puede observar que el ETA cuadrado parcial [que es SSeffect / (SSeffect + SSerror) y = parcial R-cuadrado en nuestro caso porque los predictores son covariables numéricas] es completamente el mismo en la tabla de efectos y coeficientes solo cuando el tipo SS es III. Cuando el tipo SS es I, solo el último de los 3 predictores, "urbano", conserva el mismo valor (.169); Esto se debe a que en la secuencia de entrada de los predictores es el último. En el caso de SS tipo III, el orden de entrada no importa, como en la regresión. Por cierto, la discrepancia también se observa en los valores p. Aunque no lo ve en mis tablas porque solo hay 3 dígitos decimales en la columna "Sig",
Es posible que desee leer más sobre los diferentes "tipos de SS" en ANOVA / modelo lineal. Conceptualmente, el tipo III o "regresión" de SS es fundamental y primordial. Otros tipos de SS (I, II, IV, existen aún más) son dispositivos especiales para estimar los efectos de manera más integral, menos derrochadora de lo que permiten los parámetros de regresión en la situación de predictores correlacionados.
En general, los tamaños de los efectos y sus valores p son más importantes para informar que los parámetros y sus valores p, a menos que el objetivo del estudio sea crear un modelo para el futuro. Los parámetros son los que le permiten predecir, pero "influencia" o "efecto" pueden ser un concepto más amplio que "fuerza de predicción lineal". Para informar influencia o importancia, son posibles otros coeficientes además del Eta cuadrado parcial. Un ser es el coeficiente de dejar uno afuera: la importancia de un predictor es la suma residual de cuadrados con el predictor eliminado del modelo, normalizado de modo que los valores de importancia para todos los predictores sumen 1.
fuente