El bootstrapping se realiza para obtener una imagen más sólida de la distribución de muestreo que la que supone la teoría de la muestra grande. Cuando arrancas, efectivamente no hay límite para la cantidad de 'muestras de arranque' que tomas; de hecho, obtiene una mejor aproximación a la distribución de muestreo mientras más muestras de arranque tome. Es común usar B=10,000 muestras de arranque, aunque no hay nada mágico en ese número. Además, no ejecuta una prueba en las muestras de arranque; tiene una estimación de la distribución de muestreo: úsela directamente. Aquí hay un algoritmo:
- tome una muestra de arranque de un conjunto de datos muestreando observaciones de arranque con reemplazo. [Con respecto a los comentarios a continuación, una pregunta relevante es qué constituye una 'observación de arranque' válida para usar en su muestra de arranque. De hecho, hay varios enfoques legítimos; Mencionaré dos que son robustos y le permiten reflejar la estructura de sus datos: cuando tiene datos de observación (es decir, los datos se muestrearon en todas las dimensiones, una observación de arranque puede ser una n-tupla ordenada (por ejemplo, una fila de su conjunto de datos). Por ejemplo, si tiene una variable predictiva y una variable de respuesta, tomaría una muestra de n 1 ( x , y )n1n1 (x,y)pares ordenados Por otro lado, cuando se trabaja con datos experimentales, los valores de las variables predictoras no se muestrearon, pero las unidades experimentales se asignaron a los niveles previstos de cada variable predictiva. En un caso como este, puede muestrear y valores dentro de cada uno de los j niveles de su variable predictiva, luego emparejar esos y s con el valor correspondiente de ese nivel predictor. De esta manera, no tomarías muestras sobre X ]n1j yjyX
- ajuste a su modelo de regresión y almacenar la estimación de la pendiente (lo llaman ß 1 )β^1
- tome una muestra de arranque del otro conjunto de datos muestreando observaciones de arranque con reemplazon2
- β^2
- β^1−β^2
- almacenar la estadística y volcar la otra información para no desperdiciar memoria
- B=10,000
- ordenar la distribución de muestreo bootstrapped de las diferencias de pendiente
- calcule el% del bsd que se superpone a 0 (el que sea más pequeño, el% de la cola derecha o el% de la cola izquierda)
- multiplica este porcentaje por 2
La lógica de este algoritmo como prueba estadística es fundamentalmente similar a las pruebas clásicas (p. Ej., Pruebas t), pero no está asumiendo que los datos o las distribuciones de muestreo resultantes tengan una distribución particular. (Por ejemplo, no está asumiendo la normalidad). La suposición principal que está haciendo es que sus datos son representativos de la población de la que tomó muestras / desea generalizar. Es decir, la distribución de la muestra es similar a la distribución de la población. Tenga en cuenta que, si sus datos no están relacionados con la población que le interesa, no tiene suerte.
Algunas personas se preocupan por usar, por ejemplo, un modelo de regresión para determinar la pendiente si no está dispuesto a asumir la normalidad. Sin embargo, esta preocupación es errónea. El teorema de Gauss-Markov nos dice que la estimación es imparcial (es decir, centrada en el valor verdadero), por lo que está bien. La falta de normalidad simplemente significa que la distribución de muestreo real puede ser diferente de la teóricamente planteada, por lo que los valores p no son válidos. El procedimiento de arranque le brinda una forma de lidiar con este problema.
Otros dos problemas con respecto al arranque: si se cumplen los supuestos clásicos, el arranque es menos eficiente (es decir, tiene menos potencia) que una prueba paramétrica. En segundo lugar, el bootstrapping funciona mejor cuando se explora cerca del centro de una distribución: los medios y las medianas son buenos, los cuartiles no tan buenos, los bootstrapping min o max necesariamente fallan. Con respecto al primer punto, es posible que no necesite arrancar en su situación; Con respecto al segundo punto, el arranque de la pendiente está perfectamente bien.
gung - Restablece a Monica
fuente
If you have correlation among the error terms, you may need to alter this procedure a bit, so write back if that is the case.
You can generalize this approach to the seemingly unrelated regressions (SUR) framework. This approach still allows the coefficients for the intercept and the slope to be arbitrarily different in the two data sets.
fuente
Hacer todo en una regresión es ordenado, y el supuesto de independencia es importante. Pero calcular las estimaciones puntuales de esta manera no requiere una variación constante. Prueba este código R;
Obtenemos la misma estimación puntual en ambos sentidos. Las estimaciones de error estándar pueden requerir una variación constante (dependiendo de cuál use), pero el arranque considerado aquí no usa errores estándar estimados.
fuente