¿Conoces una referencia o nombre para la siguiente forma de investigar si una técnica de modelado compleja es parcial?
- Aplicar al conjunto de datos original. Mida su rendimiento (por ejemplo, R cuadrado en la configuración de regresión).
- Permuta aleatoriamente la variable de respuesta para obtener un nuevo conjunto de datos. Aplicar y medir su rendimiento . [Si las observaciones son dependientes, este paso es más complicado.]
Si es sustancialmente diferente del rendimiento cero, concluimos es parcial
El paso 2 puede repetirse si los recursos lo permiten, lo que llevaría a la distribución nula de permutación de la medida de rendimiento. Pero en mi aplicación, no puedo hacer esto debido a problemas de recursos.
Recuerdo sombríamente que este truco de "reorganización" fue utilizado por alguien para investigar el sesgo de la validación cruzada de dejar uno fuera (en algún contexto). Sin embargo, no sé si estaba en mi situación en la que podría repetir todo el proceso solo una vez.
Un ejemplo en R que muestra el "poder" de la ingenua selección hacia atrás:
# Generate random data set. Only random performance is expected.
n <- 100
p <- 30
set.seed(7567)
y <- rnorm(n)
X <- rnorm(n*p)
dim(X) <- c(n, p)
data <- data.frame(y, X)
# Modelling technique: backward selection with OLS
T <- function(data) {
step(lm(y ~ ., data = data), trace = 0)
}
# Performance: R-squared
P <- function(fit) {
summary(fit)$r.squared
}
# Step 1: Compute performance on original data. Happily publish high R-squared...
P(T(data)) # 0.240405
# Step 2: Your mean colleague reshuffles response and gets also R-squared far away from 0
data$y <- data$y[sample(n)]
P(T(data)) # 0.1925726
Conclusión sobre el ejemplo: la técnica de modelado elegida es extremadamente propensa al sobreajuste, al menos en este entorno específico.
Algunos antecedentes
Una vez he usado este truco de reorganización para verificar si la validación cruzada de algún tedioso proceso de modelado fue implementada adecuadamente por mí. Bajo una permutación aleatoria, CV dio un R cuadrado de esencialmente 0 (como se esperaba / deseó).
fuente
Respuestas:
Para responder la pregunta en el título, AFAIK esto se llama prueba de permutación . Sin embargo, si esto es lo que está buscando, no funciona como se describe en la pregunta.
Para ser (algo) conciso: la prueba de permutación de hecho funciona barajando una de las 'columnas' y realizando la prueba o el cálculo de interés. Sin embargo, el truco es hacerlo muchas veces , barajando los datos cada vez. En conjuntos de datos pequeños, incluso podría ser posible realizar todas las permutaciones posibles. En grandes conjuntos de datos, generalmente realiza una cantidad de permutación que su computadora puede manejar, pero que es lo suficientemente grande como para obtener una distribución de la estadística de interés .
Finalmente, utiliza esta distribución para verificar si, por ejemplo, la diferencia media entre dos grupos es> 0 en el 95% de la distribución. En pocas palabras, este último paso de verificar qué parte de la distribución está por encima / debajo de un cierto valor crítico es el 'valor p' para su prueba de hipótesis.
Si esto es muy diferente del valor p en la muestra original, no diría que hay algo mal con la prueba / estadística de interés, sino que su muestra contiene ciertos puntos de datos que influyen específicamente en el resultado de la prueba. Esto podría ser sesgo (sesgo de selección debido a la inclusión de algunos casos extraños; error de medición en casos específicos, etc.), o podría ser un uso incorrecto de la prueba (por ejemplo, supuestos violados).
Ver https://en.wikipedia.org/wiki/Resampling_(statistics) para más detalles
Además, vea la respuesta de @amoeba a esta pregunta si desea saber más sobre cómo combinar las pruebas de permutación con la selección de variables.
fuente
Finalmente encontré la respuesta en el libro de Frank Harrell "Estrategias de modelado de regresión" [1] en la Sección 5.2.4 (Mejoras en la división de datos: remuestreo).
El "método de aleatorización" se presenta como un método interesante para estimar el optimismo a través de permutaciones aleatorias de la respuesta, especialmente en combinación con la selección de variables (como en el ejemplo en el OP).
Se refiere, entre otros, a [2] para ideas relacionadas.
El método es muy simple: supongamos que su complicada estrategia de modelado implica la selección hacia adelante / atrás (y lateralmente) y su conjunto de datos es demasiado pequeño para tener un tren limpio / validación / división de prueba. Además, es posible que no confíe plenamente en la validación cruzada, ya que siempre significa descartar una cierta proporción de los datos dentro del pliegue. ¿Cómo puede juzgar si su R-cuadrado de 0.7 es válido o si se debe principalmente a un sobreajuste? El método de aleatorización funciona de la siguiente manera (aquí hablamos de R cuadrado pero puede ser cualquier medida de rendimiento de interés). Si su estrategia es imparcial, esperaría que el R cuadrado sea cercano a 0 si se repite en un conjunto de datos con una variable de respuesta permutada al azar. Digamos que obtienes un R-cuadrado promedio de 0.6 en lugar de 0 después de 20 permutaciones. Entonces sabes que el R cuadrado original de 0. 7 probablemente no sea mucho más que el resultado del sobreajuste. Una estimación más honesta del "verdadero" R cuadrado sería 0.7-0.6 = 0.1 (pequeño). Entonces has demostrado cuán mal se adapta tu estrategia.
Ventajas del metodo
Las desventajas incluyen
[1] Frank Harrell, "Estrategias de modelado de regresión", 2001. Springer.
[2] R. Tibshirani y K. Knight. El criterio de inflación de covarianza para la selección del modelo adaptativo. JRSS B, 61: 529-546, 1999.
fuente