Intuitivamente, ¿cómo funciona el arranque salvaje?

8

Estoy tratando de entender la intuición detrás del arranque salvaje. ¿Qué está haciendo realmente? Necesito poder entender lo que está tratando de hacer en comparación con una regresión convencional.

Mis datos tienen heterocedasticidad, y el método que uso hace 5000 repeticiones.

¿Cómo genera 5000 datos adicionales?

Francis Origi
fuente

Respuestas:

9

Supongamos que tiene un conjunto de entrenamiento de pares de ejemplos .Tnorte(yyo,Xyo)

Un bootstrap normal es un conjunto de pares de ejemplos , donde es una secuencia de enteros aleatorios muestreados uniformemente de 1 a . En particular, tenga en cuenta que cada ejemplo en es exactamente el mismo que uno de los ejemplos de , y algunos se repiten. Pero esto es un poco extraño, especialmente cuando la variable de respuesta es continua, porque si volvemos a muestrear la población original, casi seguramente no obtendríamos ni siquiera un duplicado exacto , mientras que un bootstrap probablemente tenga muchos.sinorte(yryo,Xryo)ryonortenortesiT

Para evitar duplicados, necesitamos que los ejemplos de no sean copias al carbón de ejemplos de , sino ejemplos sintéticos que se parezcan más a lo que obtendríamos de la población original. Esto requiere hacer una suposición sobre la distribución de la población original.si T

Si asumimos la homocedasticidad y ajustamos un modelo lineal a que tiene residuos entonces podemos construir nuevos ejemplos sintéticos reemplazando el residuo ajustado de cada ejemplo con el residuo de un ejemplo de entrenamiento diferente . Si los residuos son realmente iid, no debería haber problemas para cambiar uno por otro. Hacemos este reemplazo restando el residuo encontrado para el ejemplo de entrenamiento y sumando el residuo para otro ejemplo:Tmiyo(yyo,Xyo)

(1)yyo=yryo-miryo+miryo

Donde y son dos diferentes e independientes. Entonces podemos formar el bootstrap de la manera habitual:ryoryo

(2)si={(yyo,Xyo)}yo=1norte

Esto se llama bootstrap residual y puede considerarse como la elección de nuevos residuos de la función de distribución empírica de los residuos.

Para relajar aún más los supuestos de id y homoscedasticidad, podemos usar un arranque salvaje , donde calculamos la nueva variable de respuesta aún más aleatoriamente multiplicando el residuo elegido aleatoriamente por otra variable aleatoria .vyo

(3)yyo=yryo-miryo+vyomiryo

A menudo se usa la distribución normal estándar pero son posibles otras opciones. Por ejemplo, a veces simplemente se elige con igual probabilidad de , que simplemente voltea aleatoriamente el signo la mitad del tiempo, obligando a la distribución residual a ser simétrica. El punto es obtener ejemplos de entrenamiento que estén más cerca de lo que habríamos extraído de la población original sin la replicación artificial introducida por el bootstrap.vyonorte(0 0,1)vyo{-1,1}

olooney
fuente
Entonces, básicamente, ¿generamos errores que se comportan de la misma manera que los residuos reales y luego obtenemos datos reales que funcionan de la misma manera que los datos reales? ¿Algún libro de texto para recomendar?
Francis Origi
entonces, ¿qué hacemos con todos estos datos adicionales? ¿Cómo calculamos las estadísticas t, etc.?
Francis Origi