Tengo problemas para entender cómo usar bootstrapping para calcular los intervalos de predicción para un modelo de regresión lineal. ¿Alguien puede describir un procedimiento paso a paso? Busqué a través de google pero nada realmente tiene sentido para mí.
Entiendo cómo usar bootstrapping para calcular intervalos de confianza para los parámetros del modelo.
Respuestas:
Los intervalos de confianza tienen en cuenta la incertidumbre de la estimación. Los intervalos de predicción añaden a esto la incertidumbre fundamental. R
predict.lm
le dará el intervalo de predicción para un modelo lineal. A partir de ahí, todo lo que tiene que hacer es ejecutarlo repetidamente en muestras de arranque.El resultado de
replicate
es una matriz tridimensional (n
x3
xn.bs
). La dimensión de longitud 3 consiste en el valor ajustado para cada elemento de datos y los límites inferior / superior del intervalo de predicción del 95%.Método de Gary King
Dependiendo de lo que quieras, hay un método genial de King, Tomz y Wittenberg . Es relativamente fácil de implementar y evita los problemas de arranque para ciertas estimaciones (por ejemplo
max(Y)
).Citaré su definición de incertidumbre fundamental aquí, ya que es razonablemente agradable:
fuente
Bootstrapping no asume ningún conocimiento de la forma de la distribución principal subyacente de la cual surgió la muestra. Las estimaciones de parámetros estadísticos clásicos tradicionales se basan en el supuesto de normalidad. Bootstrap trata la no normalidad y es más preciso en la práctica que los métodos clásicos.
Bootstrapping sustituye la potencia informática sin procesar de las computadoras por un análisis teórico riguroso. Es una estimación de la distribución de muestreo de un término de error del conjunto de datos. Bootstrapping incluye: volver a muestrear el conjunto de datos un número específico de veces, calcular la media de cada muestra y encontrar el error estándar de la media.
El siguiente código "R" demuestra el concepto:
Este ejemplo práctico demuestra la utilidad de bootstrapping y estima el error estándar. Se requiere el error estándar para calcular el intervalo de confianza.
Supongamos que tiene un conjunto de datos sesgado "a":
visualización del conjunto de datos sesgados
Realice el procedimiento de arranque:
fuente