Si todo lo que está haciendo es volver a tomar muestras de la distribución empírica, ¿por qué no solo estudiar la distribución empírica? Por ejemplo, en lugar de estudiar la variabilidad mediante muestreo repetido, ¿por qué no cuantificar la variabilidad a partir de la distribución empírica?
13
Respuestas:
Bootstrapping (u otro remuestreo) es un método experimental para estimar la distribución de una estadística.
Es un método muy sencillo y sencillo (solo significa que calcula con muchas variantes aleatorias de los datos de la muestra para obtener una estimación de la distribución deseada de la estadística).
Lo más probable es que lo use cuando la expresión 'teórica / analítica' sea demasiado difícil de obtener / calcular (o como aksakal dice que a veces son desconocidas).
Ejemplo 1: si realiza un análisis pca y desea comparar los resultados con "estimaciones de la desviación de los valores propios" dada la hipótesis de que no hay correlación en las variables.
Podría mezclar los datos muchas veces y volver a calcular los valores propios de pca de modo que obtenga una distribución (basada en pruebas aleatorias con los datos de muestra) para los valores propios.
Tenga en cuenta que las prácticas actuales están contemplando un diagrama de pantalla y aplican reglas generales para "decidir" si un determinado valor propio es significativo / importante o no.
Ejemplo 2: Hiciste una regresión no lineal y ~ f (x) proporcionándote una estimación del conjunto de parámetros para la función f. Ahora desea saber el error estándar para esos parámetros.
Aquí no es posible una simple mirada a los residuales y el álgebra lineal, como en OLS. Sin embargo, una manera fácil es calcular la misma regresión muchas veces con los residuos / errores revueltos para tener una idea de cómo variarían los parámetros (dado que la distribución del término de error puede ser modelada por los residuos observados).
Escrito por StackExchangeStrike
fuente
La clave es que la rutina de arranque no se trata realmente de descifrar características de la distribución de los datos , sino de descifrar las características de un estimador aplicado a los datos.
Algo así como la función de distribución empírica le dirá una estimación bastante buena del CDF del que provienen los datos ... pero al aislarlo, no le dice esencialmente nada sobre cuán confiables serán los estimadores que construimos a partir de esos datos. Esta es la pregunta respondida usando bootstrap.
fuente
SI sabe exactamente cuál es la distribución subyacente, entonces no necesita estudiarla. A veces, en ciencias naturales sabes exactamente la distribución.
SI conoce el tipo de distribución, solo necesita estimar sus parámetros y estudiarlos en el sentido que usted quiso decir. Por ejemplo, en algún momento sabes a priori que la distribución subyacente es normal. En algunos casos, incluso sabes lo que significa. Entonces, para lo normal, lo único que queda por descubrir es la desviación estándar. Obtiene la desviación estándar de la muestra y, voila, obtiene la distribución para estudiar.
SI no sabe cuál es la distribución, pero piensa que es una de las varias en la lista, entonces podría intentar ajustar esa distribución a los datos y elegir la que mejor se ajuste. ENTONCES estudias esa distribución.
FINALMENTE, a menudo no conoce el tipo de distribución con la que está tratando. Y no tiene una razón para creer que pertenece a una de las 20 distribuciones en las que R puede ajustar sus datos. ¿Qué vas a hacer? Ok, nos fijamos en las desviaciones medias y estándar, bien. Pero, ¿y si está muy sesgado? ¿Qué pasa si su curtosis es muy grande? y así. Realmente necesita saber todos los momentos de distribución para saber y estudiarlo. Entonces, en este caso, el bootstrapping no paramétrico es útil. No asumes mucho, y solo muestras de él, luego estudias sus momentos y otras propiedades.
Aunque el bootstrapping no paramétrico no es una herramienta mágica, tiene problemas. Por ejemplo, puede estar sesgado. Creo que el bootstrapping paramétrico es imparcial
fuente