Cómo obtener el intervalo de confianza en el cambio de r-cuadrado poblacional

10

Por un simple ejemplo, suponga que hay dos modelos de regresión lineal

  • Modelo 1 tiene tres predictores, x1a, x2b, yx2c
  • El modelo 2 tiene tres predictores del modelo 1 y dos predictores adicionales x2ayx2b

Hay una ecuación de regresión poblacional donde la varianza poblacional explicada es para el Modelo 1 y para el Modelo 2. La varianza incremental explicada por el Modelo 2 en la población es \ Delta \ rho ^ 2 = \ rho ^ 2 _ {(2)} - \ rho ^ 2 _ {(1)}ρ(1)2ρ(2)2Δρ2=ρ(2)2ρ(1)2

Estoy interesado en obtener errores estándar e intervalos de confianza para un estimador de Δρ2 . Si bien el ejemplo involucra 3 y 2 predictores respectivamente, mi interés en la investigación se refiere a una amplia gama de diferentes números de predictores (por ejemplo, 5 y 30). Mi primer pensamiento fue usar Δradj2=radj(2)2radj(1)2 como un estimador y arrancarlo, pero no estaba seguro de si esto ser apropiado

Preguntas

  • ¿Es Δradj2 un estimador razonable de Δρ2 ?
  • ¿Cómo se puede obtener un intervalo de confianza para el cambio de r-cuadrado de la población (es decir, Δρ2 )?
  • ¿Bootstrapping Δρ2 sería apropiado para el cálculo del intervalo de confianza?

Cualquier referencia a simulaciones o la literatura publicada también sería bienvenida.

Código de ejemplo

Si ayuda, creé un pequeño conjunto de datos de simulación en R que podría usarse para demostrar una respuesta:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

Motivo de preocupación con bootstrap

Ejecuté un arranque en algunos datos con alrededor de 300 casos, y 5 predictores en el modelo simple y 30 predictores en el modelo completo. Si bien la estimación de la muestra utilizando la diferencia de r-cuadrado ajustada fue 0.116, el intervalo de confianza boostrap fue mayoritariamente un IC95% (0.095 a 0.214) y la media de los bootstraps no estuvo cerca de la estimación de la muestra. Más bien, la media de las muestras boostrapizadas parecía estar centrada en la estimación muestral de la diferencia entre los cuadrados r en la muestra. Esto a pesar del hecho de que estaba usando los cuadrados ajustados de muestra para estimar la diferencia.

Curiosamente, probé una forma alternativa de calcular comoΔρ2

  1. calcular el cambio de muestra r-cuadrado
  2. ajustar el cambio de r-cuadrado de muestra usando la fórmula estándar ajustada de r-cuadrado

Cuando se aplicó a los datos de la muestra, esto redujo la estimación de a pero los intervalos de confianza parecían apropiados para el método que mencioné primero, IC95% (.062, .179) con una media de .118.Δρ2.082

En términos generales, me preocupa que el bootstrapping suponga que la muestra es la población y, por lo tanto, estima que la reducción para el sobreajuste puede no funcionar adecuadamente.

Jeromy Anglim
fuente
"Sin embargo, me preocupa que el arranque de un valor ajustado por la población pueda ser problemático". -- ¿por qué?
Enero
@Enero He editado la pregunta y traté de articular mi preocupación sobre bootstrapping con r-cuadrado ajustado.
Jeromy Anglim
¿Cuál es la población R al cuadrado ? He echado un vistazo a la definición dada aquí, pero para mí la varianza no tiene sentido porque los no están distribuidos de manera idéntica. y iσy2yi
Stéphane Laurent
@ StéphaneLaurent es el porcentaje de varianza explicado en la población por la ecuación de regresión poblacional. O podría definirlo asintóticamente como la proporción de varianza explicada en su muestra a medida que su tamaño de muestra se aproxima al infinito. Vea también esta respuesta con respecto a las estimaciones imparciales de la población r-cuadrado . Es particularmente relevante en psicología donde a menudo estamos más interesados ​​en la relación verdadera en lugar de aplicar nuestra ecuación de predicción estimada.
Jeromy Anglim
3
Una prueba F puede considerarse como una prueba de la hipótesis . ¿Se puede usar para derivar el error estándar y el intervalo de confianza que está buscando? Δρ2=0
Maarten Buis

Respuestas:

3

PoblaciónR2

En primer lugar, estoy tratando de entender la definición de la población R-cuadrado .

Citando tu comentario:

O podría definirlo asintóticamente como la proporción de varianza explicada en su muestra a medida que su tamaño de muestra se aproxima al infinito.

Creo que quiere decir que este es el límite de la muestra cuando uno replica el modelo infinitamente muchas veces (con los mismos predictores en cada réplica). R2

Entonces, ¿cuál es la fórmula para el valor asintótico de la muestra ? Escriba su modelo lineal como en https://stats.stackexchange.com/a/58133/8402 , y use las mismas anotaciones que este enlace. Luego se puede verificar que la muestra va a cuando uno replica el modelo infinitamente muchas veces.Y = μ + σ G R 2 p o p R 2 : = λR²Y=μ+σG
R2 Y=μ+σGpopR2:=λn+λY=μ+σG

Como ejemplo:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

Población de un submodeloR2

Ahora suponga que el modelo está con y considere el submodelo . H1:μW1H0:μW0Y=μ+σGH1:μW1H0:μW0

Luego dije anteriormente que la población del modelo está donde y y luego uno simplemente tiene .H 1 p o p R 2 1 : = λ 1R2H1popR12:=λ1n+λ1 Z1=[1]W1PZ1μ2=(μi-ˉμ)2λ1=PZ1μ2σ2Z1=[1]W1PZ1μ2=(μiμ¯)2

Ahora, ¿define la población del submodelo como el valor asintótico del calculado con respecto al modelo pero bajo el supuesto de distribución del modelo ? El valor asintótico (si hay uno) parece más difícil de encontrar.H 0 R 2 H 0 H 1R2 H0R2H0H1

Stéphane Laurent
fuente
Gracias Stéphane Voy a tener que pensar en lo que estás diciendo. Con respecto a su pregunta. Supongo que el verdadero proceso de generación de datos no se conoce, pero que es el mismo para ambos modelos, pero que existe una verdadera proporción de varianza explicada por la regresión lineal en el modelo 1 y el modelo 2.
Jeromy Anglim
@JeromyAnglim Formula (A3) de este documento es un caso particular de mi fórmula para el modelo ANOVA unidireccional. Entonces, mi fórmula debería ser la definición general de la población , pero esto no es lo que está utilizando en su OP. R2
Stéphane Laurent
1
@JeromyAnglim El estudio de este artículo parece estar cerca de lo que está buscando (con predictores aleatorios).
Stéphane Laurent
Gracias. El artículo de Algina, Keselman y Penfield parece muy útil. Agregué algunos comentarios a mi respuesta al respecto.
Jeromy Anglim
@JeromyAnglim Entonces, ¿cuál es la suposición acerca de los predictores? ¿Se generan según una distribución gaussiana multivariante?
Stéphane Laurent
1

En lugar de responder la pregunta que hizo, le preguntaré por qué hace esa pregunta. Supongo que quieres saber si

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

es al menos tan bueno como

mod.large <- lm(y ~ ., data=x)

Al explicar y. Dado que estos modelos están anidados, la forma obvia de responder a esta pregunta parece ser realizar un análisis de varianza comparándolos, de la misma manera que podría ejecutar un análisis de desviación para dos GLM, como

anova(mod.small, mod.large)

Luego, podría usar la mejora de R-cuadrado de muestra entre los modelos como su mejor estimación de cuál sería la mejora de ajuste en la población, siempre suponiendo que puede tener sentido de la R-cuadrado de la población. Personalmente, no estoy seguro de poder hacerlo, pero con esto no importa de ninguna manera.

En términos más generales, si está interesado en las cantidades de población, presumiblemente está interesado en la generalización, por lo que una medida de ajuste de muestra no es exactamente lo que desea, sin embargo, 'corregida'. Por ejemplo, la validación cruzada de alguna cantidad que estima el tipo y la cantidad de errores reales que podría esperar de una muestra, como MSE, parecería obtener lo que desea.

Pero es muy posible que me falte algo aquí ...

conjugadoprior
fuente
Agradezco su respuesta, y puede ser un buen consejo para los demás. Pero mi contexto de investigación significa que estoy legítimamente interesado en la plaza delta-rho. Si bien la mayoría de los estadísticos a menudo están más preocupados por la utilidad predictiva de un modelo (p. Ej., Delta r-cuadrado con validación cruzada), soy un psicólogo científico y estoy específicamente interesado en la propiedad de la población. Además, no estoy interesado en la significación estadística de la mejora. Estoy interesado en el tamaño de la mejora. Y encuentro que delta-r-square es una métrica útil para indexar ese tamaño de mejora.
Jeromy Anglim
Con respecto a MSE, diferentes estudios en psicología utilizan medidas en métricas muy diferentes. Por lo tanto, existe un atractivo, correcto o incorrecto, para medidas estandarizadas como r-cuadrado.
Jeromy Anglim
Bastante justo, particularmente en MSE. Sigo un poco confundido por el interés en el bootstrapping y la inferencia de la población, pero la falta de interés en las pruebas ya que, quizás ingenuamente, estas parecen ser preocupaciones equivalentes abordadas de manera diferente. También estoy teniendo dificultades para distinguir estrechamente la predicción de la muestra de la inferencia a una población, pero eso es probablemente un bayesianismo instintivo previo al café (donde la predicción es solo otro problema de inferencia de la población) que se interpone en el camino.
conjugateprior
Quizás hablé un poco rápido. En mi contexto de investigación, a menudo hay muchas pruebas de que el delta-rho-cuadrado es mayor que cero. La pregunta de interés es cuál es el grado de aumento. Es decir, es un aumento trivial o un aumento teóricamente significativo. Por lo tanto, la confianza o los intervalos creíbles me dan una estimación de la incertidumbre en torno a ese aumento. Todavía no he conciliado lo que estoy haciendo aquí con mi comprensión de las estadísticas bayesianas, pero me gustaría.
Jeromy Anglim
1

Las siguientes representan algunas posibilidades para calcular intervalos de confianza en .ρ2

Bootstrap cuadrado doble r ajustado

Mi mejor suposición actual sobre una respuesta es hacer un bootstrap de r-cuadrado doblemente ajustado. He implementado la técnica. Implica lo siguiente:

  • Genere un conjunto de muestras de bootstrap a partir de los datos actuales.
  • Para cada muestra de bootstrapped:
    • calcular el primer r-cuadrado ajustado para los dos modelos
    • calcular el segundo r-cuadrado ajustado sobre los valores de r-cuadrado ajustado del paso anterior
    • Reste model2 del segundo valor ajustado de r-cuadrado del model1 para obtener una estimación de .Δρ2

La razón es que el primer r-cuadrado ajustado elimina el sesgo introducido por bootstraping (es decir, bootstrapping supone que la muestra r-square es la población r-square). El segundo r-cuadrado ajustado realiza la corrección estándar que se aplica a una muestra normal para estimar el r-cuadrado de la población.

En este punto, todo lo que puedo ver es que la aplicación de este algoritmo genera estimaciones que parecen correctas (es decir, la media theta_hat en el bootstrap está muy cerca de la muestra theta_hat). El error estándar se alinea con mi intuición. Todavía no he probado si proporciona una cobertura frecuente de frecuentas donde se conoce el proceso de generación de datos, y tampoco estoy completamente seguro en este momento de cómo el argumento podría justificarse desde los primeros principios

Si alguien ve alguna razón por la cual este enfoque sería problemático, agradecería saberlo.

Simulación de Algina et al.

Stéphane mencionó el artículo de Algina, Keselman y Penfield. Realizaron un estudio de simulación para examinar la cobertura del intervalo de confianza del 95% de bootstrapping y métodos asintóticos para estimar . Sus métodos de arranque implicaron solo una aplicación única de r-cuadrado ajustado, en lugar del doble ajuste de r-cuadrado que mencioné anteriormente. Descubrieron que las estimaciones de arranque solo proporcionaban una buena cobertura cuando el número de predictores adicionales en el modelo completo era uno o quizás dos. Es mi hipótesis que esto se debe a que a medida que aumenta el número de predictores, también lo haría la diferencia entre la rutina de arranque r-cuadrado simple y doble ajustada.Δρ2

Smithson (2001) sobre el uso del parámetro de no centralidad

Smithson (2001) analiza el cálculo de intervalos de confianza para el parcial basado en el parámetro de no centralidad. Consulte las páginas 615 y 616 en particular. Sugiere que "es sencillo construir un IC para y parcial pero no para la correlación semipartial al cuadrado". (p.615)f 2 R 2R2f2R2

Referencias

  • Algina, J., Keselman, HJ y Penfield, RD Intervalos de confianza para el coeficiente de correlación semipartito múltiple cuadrado. PDF
  • Smithson, M. (2001). Intervalos de confianza correctos para varios tamaños y parámetros de efectos de regresión: La importancia de las distribuciones no centrales en los intervalos de cálculo. Medida educativa y psicológica, 61 (4), 605-632.
Jeromy Anglim
fuente
1
Parece que nadie aquí (incluido usted) conoce la definición de su población R-cuadrado. Por lo tanto, en mi humilde opinión, este es un enfoque muy problemático.
Stéphane Laurent
@ StéphaneLaurent Gracias por eso. Confieso que hasta este punto no he visto a la población r-cuadrado como una propiedad de contención. Por ejemplo, podría proponer un proceso de generación de datos y habría un r-cuadrado que se abordaría a medida que el tamaño de mi muestra de simulación se acerca al infinito. Del mismo modo, supongo que hay un proceso de generación de datos para mis datos y, por lo tanto, si fuera posible obtener una muestra infinita, podría calcular el verdadero cuadrado de la población.
Jeromy Anglim
Sí, pero tengo la impresión de que también asumes un proceso generador para los predictores. No puedo entender cómo esto podría tener sentido para un modelo lineal general.
Stéphane Laurent