¿Es defendible estratificar un conjunto de datos por el tamaño del residuo y hacer una comparación de dos muestras?

Esto es algo que veo hecho como una especie de método ad-hoc y me parece muy sospechoso, pero tal vez me estoy perdiendo algo. He visto esto en regresión múltiple, pero seamos simples:

y_{yo} = β_{0 0} + β_{1} X_{yo} + ε_{yo}

$y_{i} = \beta_{0} + \beta_{1} x_{i} + \varepsilon_{i}$

Ahora tome los residuos del modelo ajustado

{mi}_{yo} = y_{yo} - ({\hat{β}}_{0 0} + {\hat{β}}_{1} X_{yo})

$e_{i} = y_{i} - \left( \hat{\beta}_{0} + \hat{\beta}_{1} x_{i} \right)$

y estratificar la muestra en función del tamaño de los residuos. Por ejemplo, digamos que la primera muestra es el 90% inferior de los residuos y la segunda muestra es el 10% superior, luego proceda a hacer dos comparaciones de muestra: he visto que esto se hace tanto en el predictor en el modelo, , y en variables que no están en el modelo. La lógica informal utilizada es que quizás los puntos que tienen valores muy superiores a los que esperaría en el modelo (es decir, un gran residuo) son diferentes de alguna manera, y esa diferencia se investiga de esta manera. $x$

Mis pensamientos sobre el tema son:

Si ve una diferencia de 2 muestras en un predictor en el modelo, entonces hay efectos del predictor que el modelo no tiene en cuenta en su estado actual (es decir, efectos no lineales).
Si ve una diferencia de 2 muestras en una variable que no está en el modelo, entonces tal vez debería haber estado en el modelo en primer lugar.

Una cosa que he encontrado empíricamente (a través de simulaciones) es que, si está comparando la media de un predictor en el modelo y estratificando de esta manera para producir las dos medias de muestra, y , están positivamente correlacionados entre sí. Esto tiene sentido ya que ambas muestras dependen de y . Esa correlación aumenta a medida que mueve el límite hacia abajo (es decir, el% que utiliza para dividir la muestra). Por lo menos, si va a hacer una comparación de dos muestras, el error estándar en el denominador de la $x$ $\overline{x}_{1}$ $\overline{x}_{2}$ $\overline{y}, \overline{x}, \hat{\sigma}_{x}, \hat{\sigma}_{y}$ $\hat{\rho}_{xy}$ $t$ La estadística necesita ser ajustada para tener en cuenta la correlación (aunque no he derivado una fórmula explícita para la covarianza).

De todos modos, mi pregunta básica es: ¿Hay alguna razón para hacer esto? Si es así, ¿en qué situaciones podría ser útil hacer esto? Claramente, no creo que exista, pero puede haber algo en lo que no estoy pensando de la manera correcta.

regression residuals Macro
fuente

¿Las dos comparaciones de muestra usan la misma IVs? Si es así, no puedo ver el punto de esto porque la división residual ya está usando esa información. ¿Puedes dar un ejemplo de dónde has visto esto, es nuevo para mí?

Michelle

Bueno, uno posiblemente es que podría usarse como diagnóstico para ver si tiene una especificación errónea del modelo, ¿qué piensa al respecto?

Macro

No veo ningún punto en hacer esto que no sea como una herramienta de diagnóstico para identificar puntos problemáticos o efectos no lineales faltantes, como lo sugieren los comentarios anteriores. Creo que los dos puntos en el OP ("pensamientos sobre el tema ...") son bastante sólidos.

Peter Ellis

Loh y sus coautores utilizan esta técnica para determinar variables divididas en sus algoritmos de árbol SUPPORT y, creo, GUIDE. Dado que el conjunto de datos se divide de esa manera, se puede considerar que busca una influencia no lineal (representada por una función escalonada) y que determina si una variable ha sido olvidada. Recuerdo haberme preguntado si eso también es inteligente, tal vez encuentres más explicaciones en sus documentos (no recuerdo).

Momo

Claro, no hay problema. Aquí está Chaudhuri et al. www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htm referencias para la página de APOYO y Loh et al. para la estadística

Momo

Respuestas:

Comparar las medias es demasiado débil: en cambio, compare las distribuciones.

También hay una pregunta sobre si es más deseable comparar los tamaños de los residuos (como se indicó) o comparar los residuos en sí mismos. Por lo tanto, evalúo ambos.

Para ser específico acerca de lo que se entiende, aquí hay un Rcódigo para comparar datos (dados en matrices paralelas y ) regresando en , dividiendo los residuos en tres grupos cortándolos por debajo del cuantil y por encima del cuantil y (mediante un gráfico qq) comparar las distribuciones de los valores de asociados con esos dos grupos. $(x,y)$ xy $y$ $x$ $q_0$ $q_1\gt q_0$ $x$

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

El quinto argumento de esta función, abs0por defecto usa los tamaños (valores absolutos) de los residuos para formar los grupos. Más tarde, podemos reemplazar eso por una función que usa los propios residuos.

$x$ $y$

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

$y \sim \beta_0 + \beta_1 x + \beta_2 x^2$ sd $q_0$ $q_1$ abs0n.trialsn $(x,y)$ datos, de sus residuos y gráficos qq de múltiples ensayos, para ayudarnos a comprender cómo funcionan las pruebas propuestas para un modelo determinado (según lo determinado por n, beta, sy sd). Ejemplos de estas parcelas aparecen a continuación.

Ahora usemos estas herramientas para explorar algunas combinaciones realistas de no linealidad y heterocedasticidad, usando los valores absolutos de los residuos:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

$x$ $x$ $x$

Valores absolutos

$x$ $x$ $x$

Hagamos lo mismo, usando exactamente los mismos datos , pero analizando los residuos mismos. Para hacer esto, el bloque de código anterior se volvió a ejecutar después de hacer esta modificación:

size <- function(x) x

Derechos residuales de autor

$x$

Quizás combinar ambas técnicas funcionaría. Estas simulaciones (y variaciones de ellas, que el lector interesado puede ejecutar en su tiempo libre) demuestran que estas técnicas no carecen de mérito.

$x$ $(x, \hat{y}-x)$ podemos esperar que las pruebas propuestas sean menos potentes que las pruebas basadas en regresión como el Breusch-Pagan .

whuber
fuente

$e_{i}$ $x_i$

Otros han comentado que esta puede ser solo una herramienta exploratoria para ver si los dos conjuntos de datos deben modelarse por separado. Si ese es el caso, este y posiblemente otros enfoques exploratorios podrían estar bien. Pero la pregunta se convierte en ¿qué haces a continuación? Si va a hacer dos regresiones separadas y hacer inferencia sobre las muestras, creo que debe tener en cuenta de alguna manera la forma en que divide la muestra.

Michael R. Chernick
fuente

Supongo que puede haber varias motivaciones para hacer esto, por ejemplo, suponiendo que los residuos son consistentes, entonces el método que menciona puede ayudar a identificar las observaciones periféricas, por lo tanto, el segundo paso proporciona estimadores "corregidos". Pero, existen técnicas más rigurosas que realizan la detección de personas ajenas o que proporcionan estimadores que son robustos a la presencia de tales observaciones, como regresiones cuantiles, LMS (menor mediana de cuadrados) o estimadores M, etc., donde todos estos métodos se han definido bien y propiedades estadísticas conocidas. (Esto ha sido abordado por @Michael Chernik)

Otra motivación podría ser la identificación de conglomerados, pero esto es primitivo en comparación con las técnicas disponibles para la detección de conglomerados, que también están bien definidas y ampliamente implementadas.

En ambos casos, el uso de los residuos parece informal y primitivo, pero aún puede tolerarse como una herramienta exploratoria. También depende del dominio de los lectores. Creo que esto es aceptable para algunas ciencias sociales donde las herramientas cuantitativas pueden ser menos populares.

JDav
fuente