Cuando uso GAM, me da un DF residual de (última línea en el código). Qué significa eso? Yendo más allá del ejemplo de GAM, en general, ¿puede el número de grados de libertad ser un número no entero?
> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))
Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.1470 -1.6217 -0.8971 1.2445 6.0516
(Dispersion Parameter for gaussian family taken to be 6.6717)
Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294
Number of Local Scoring Iterations: 2
Anova for Parametric Effects
Df Sum Sq Mean Sq F value Pr(>F)
lo(wt) 1.0 847.73 847.73 127.06 1.239e-11 ***
Residuals 26.6 177.47 6.67
r
degrees-of-freedom
gam
machine-learning
pca
lasso
probability
self-study
bootstrap
expected-value
regression
machine-learning
linear-model
probability
simulation
random-generation
machine-learning
distributions
svm
libsvm
classification
pca
multivariate-analysis
feature-selection
archaeology
r
regression
dataset
simulation
r
regression
time-series
forecasting
predictive-models
r
mean
sem
lavaan
machine-learning
regularization
regression
conv-neural-network
convolution
classification
deep-learning
conv-neural-network
regression
categorical-data
econometrics
r
confirmatory-factor
scale-invariance
self-study
unbiased-estimator
mse
regression
residuals
sampling
random-variable
sample
probability
random-variable
convergence
r
survival
weibull
references
autocorrelation
hypothesis-testing
distributions
correlation
regression
statistical-significance
regression-coefficients
univariate
categorical-data
chi-squared
regression
machine-learning
multiple-regression
categorical-data
linear-model
pca
factor-analysis
factor-rotation
classification
scikit-learn
logistic
p-value
regression
panel-data
multilevel-analysis
variance
bootstrap
bias
probability
r
distributions
interquartile
time-series
hypothesis-testing
normal-distribution
normality-assumption
kurtosis
arima
panel-data
stata
clustered-standard-errors
machine-learning
optimization
lasso
multivariate-analysis
ancova
machine-learning
cross-validation
Haitao Du
fuente
fuente
Respuestas:
Los grados de libertad no son enteros en varios contextos. De hecho, en algunas circunstancias, puede establecer que los grados de libertad para ajustar los datos para algunos modelos particulares deben estar entre algún valork y k + 1 .
Generalmente pensamos en los grados de libertad como el número de parámetros libres, pero hay situaciones en las que los parámetros no son completamente libres y pueden ser difíciles de contar. Esto puede suceder al suavizar / regularizar, por ejemplo.
Los casos de regresión ponderada localmente / métodos de kernel y splines suavizados son ejemplos de tal situación: un número total de parámetros libres no es algo que pueda contar fácilmente sumando predictores, por lo que se necesita una idea más general de los grados de libertad.
gam
Para modelos como los instalados
gam
, esas diversas medidas generalmente no son enteras.(Recomiendo encarecidamente leer la discusión de estas referencias sobre este tema, aunque la historia puede volverse bastante más complicada en algunas situaciones. Ver, por ejemplo, [4])
[1] Hastie, T. y Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman and Hall.
[2] Hastie, T., Tibshirani, R. y Friedman, J. (2009),
The Elements of Statistical Learning: Data Mining, Inference, and Prediction , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye, J. (1998),
"Sobre la medición y corrección de los efectos de la minería de datos y la selección de modelos",
Journal of the American Statistical Association , vol. 93, núm. 441, págs. 120-131
[4] Janson, L., Fithian, W. y Hastie, T. (2013),
"Grados efectivos de libertad: una metáfora defectuosa"
https://arxiv.org/abs/1312.7851
fuente