Nombre del "truco de reorganización" (permutar aleatoriamente el conjunto de datos para estimar el sesgo de un estimador)

8

¿Conoces una referencia o nombre para la siguiente forma de investigar si una técnica de modelado compleja T es parcial?

  1. Aplicar Tal conjunto de datos original. Mida su rendimiento (por ejemplo, R cuadrado en la configuración de regresión).
  2. Permuta aleatoriamente la variable de respuesta para obtener un nuevo conjunto de datos. AplicarT y medir su rendimiento P. [Si las observaciones son dependientes, este paso es más complicado.]

Si P es sustancialmente diferente del rendimiento cero, concluimos T es parcial

El paso 2 puede repetirse si los recursos lo permiten, lo que llevaría a la distribución nula de permutación de la medida de rendimiento. Pero en mi aplicación, no puedo hacer esto debido a problemas de recursos.

Recuerdo sombríamente que este truco de "reorganización" fue utilizado por alguien para investigar el sesgo de la validación cruzada de dejar uno fuera (en algún contexto). Sin embargo, no sé si estaba en mi situación en la que podría repetir todo el proceso solo una vez.

Un ejemplo en R que muestra el "poder" de la ingenua selección hacia atrás:

# Generate random data set. Only random performance is expected.
n <- 100
p <- 30

set.seed(7567)
y <- rnorm(n)
X <- rnorm(n*p)
dim(X) <- c(n, p)
data <- data.frame(y, X)

# Modelling technique: backward selection with OLS
T <- function(data) {
  step(lm(y ~ ., data = data), trace = 0)
}

# Performance: R-squared
P <- function(fit) {
  summary(fit)$r.squared
}

# Step 1: Compute performance on original data. Happily publish high R-squared...
P(T(data)) # 0.240405

# Step 2: Your mean colleague reshuffles response and gets also R-squared far away from 0
data$y <- data$y[sample(n)]
P(T(data)) # 0.1925726

Conclusión sobre el ejemplo: la técnica de modelado elegida es extremadamente propensa al sobreajuste, al menos en este entorno específico.

Algunos antecedentes

Una vez he usado este truco de reorganización para verificar si la validación cruzada de algún tedioso proceso de modelado fue implementada adecuadamente por mí. Bajo una permutación aleatoria, CV dio un R cuadrado de esencialmente 0 (como se esperaba / deseó).

Michael M
fuente
3
Esta pregunta parece muy relevante: stats.stackexchange.com/questions/192291/… y la referencia citada en ella.
Flounderer
2
Buena búsqueda @Flounderer, agregué el enlace a esta pregunta a mi respuesta para aquellos que desean leer más (y tal vez obtener la respuesta de ameba algunos de los votos positivos que merece)
IWS

Respuestas:

15

Para responder la pregunta en el título, AFAIK esto se llama prueba de permutación . Sin embargo, si esto es lo que está buscando, no funciona como se describe en la pregunta.

Para ser (algo) conciso: la prueba de permutación de hecho funciona barajando una de las 'columnas' y realizando la prueba o el cálculo de interés. Sin embargo, el truco es hacerlo muchas veces , barajando los datos cada vez. En conjuntos de datos pequeños, incluso podría ser posible realizar todas las permutaciones posibles. En grandes conjuntos de datos, generalmente realiza una cantidad de permutación que su computadora puede manejar, pero que es lo suficientemente grande como para obtener una distribución de la estadística de interés .

Finalmente, utiliza esta distribución para verificar si, por ejemplo, la diferencia media entre dos grupos es> 0 en el 95% de la distribución. En pocas palabras, este último paso de verificar qué parte de la distribución está por encima / debajo de un cierto valor crítico es el 'valor p' para su prueba de hipótesis.

Si esto es muy diferente del valor p en la muestra original, no diría que hay algo mal con la prueba / estadística de interés, sino que su muestra contiene ciertos puntos de datos que influyen específicamente en el resultado de la prueba. Esto podría ser sesgo (sesgo de selección debido a la inclusión de algunos casos extraños; error de medición en casos específicos, etc.), o podría ser un uso incorrecto de la prueba (por ejemplo, supuestos violados).

Ver https://en.wikipedia.org/wiki/Resampling_(statistics) para más detalles

Además, vea la respuesta de @amoeba a esta pregunta si desea saber más sobre cómo combinar las pruebas de permutación con la selección de variables.

IWS
fuente
1
Entonces es como una prueba de permutación con una sola permutación (porque Tpor ejemplo, se ejecuta durante 10 días) y con un enfoque en la distribución nula de la estadística de rendimiento (en lugar de los valores p)?
Michael M
55
La fuerza de las pruebas de permutación (y los métodos de remuestreo) reside en la distribución de las estadísticas de prueba que obtiene. Para reafirmar eso, la obtención de la distribución es obligatoria para la prueba. Comprenderá que si solo hace esto una vez o solo unas pocas veces, no puede formar una distribución adecuada de estos resultados. Si modelandoTUna vez que se requieren 10 días de tiempo de ejecución, las pruebas de permutación adecuadas tomarían años. ¿Quizás la validación cruzada en.wikipedia.org/wiki/Cross-validation_(statistics) es más aplicable?
IWS
1
@MichaelM La prueba de permutación y la prueba de aleatorización son la misma prueba. Si la estadística tarda mucho en computarse, la prueba de permutación tardará mucho tiempo en ejecutarse.
AdamO
@AdamO: Totalmente de acuerdo sobre el momento. Pero la técnica no se trata en absoluto de probar una hipótesis. Se trata de la estimación de un sesgo (que iría más en la dirección de una aplicación de arranque). ¡Pero esa es la razón por la que hice la pregunta!
Michael M
2

Finalmente encontré la respuesta en el libro de Frank Harrell "Estrategias de modelado de regresión" [1] en la Sección 5.2.4 (Mejoras en la división de datos: remuestreo).

El "método de aleatorización" se presenta como un método interesante para estimar el optimismo a través de permutaciones aleatorias de la respuesta, especialmente en combinación con la selección de variables (como en el ejemplo en el OP).

Se refiere, entre otros, a [2] para ideas relacionadas.

El método es muy simple: supongamos que su complicada estrategia de modelado implica la selección hacia adelante / atrás (y lateralmente) y su conjunto de datos es demasiado pequeño para tener un tren limpio / validación / división de prueba. Además, es posible que no confíe plenamente en la validación cruzada, ya que siempre significa descartar una cierta proporción de los datos dentro del pliegue. ¿Cómo puede juzgar si su R-cuadrado de 0.7 es válido o si se debe principalmente a un sobreajuste? El método de aleatorización funciona de la siguiente manera (aquí hablamos de R cuadrado pero puede ser cualquier medida de rendimiento de interés). Si su estrategia es imparcial, esperaría que el R cuadrado sea cercano a 0 si se repite en un conjunto de datos con una variable de respuesta permutada al azar. Digamos que obtienes un R-cuadrado promedio de 0.6 en lugar de 0 después de 20 permutaciones. Entonces sabes que el R cuadrado original de 0. 7 probablemente no sea mucho más que el resultado del sobreajuste. Una estimación más honesta del "verdadero" R cuadrado sería 0.7-0.6 = 0.1 (pequeño). Entonces has demostrado cuán mal se adapta tu estrategia.

Ventajas del metodo

  • Muy simple
  • Siempre usas el conjunto de datos completo

Las desventajas incluyen

  • La estimación del optimismo no parece ser muy precisa.
  • El método no se conoce bien en contraste con la validación cruzada o la validación de arranque.

[1] Frank Harrell, "Estrategias de modelado de regresión", 2001. Springer.

[2] R. Tibshirani y K. Knight. El criterio de inflación de covarianza para la selección del modelo adaptativo. JRSS B, 61: 529-546, 1999.

Michael M
fuente
1
+1 Interesante, parece que me he perdido este método, mientras disfruto de los votos a favor de mi respuesta sobre una explicación general de los métodos de remuestreo. Si pudieras elaborar esta respuesta con cómo funciona este método de permutación, sería fantástico.
IWS
¡No necesitas disculparte! Tus respuestas son siempre muy bienvenidas. En realidad no hay mucho que elaborar, pero he agregado algunas informaciones a la respuesta.
Michael M
Basado en lecturas adicionales, he modificado la respuesta para resaltar que, en contraste con mi OP, generalmente se ejecutan un par de permutaciones para calcular el optimismo con suficiente precisión.
Michael M
Aquí hay una publicación reciente sobre la técnica: arxiv.org/abs/1801.01489
Michael M