La respuesta dada por miura no es del todo precisa, así que estoy respondiendo esta vieja pregunta para la posteridad:
(2) Estas son cosas muy diferentes. El cdf empírico es una estimación de la CDF (distribución) que generó los datos. Precisamente, es el CDF discreto el que asigna la probabilidad a cada punto de datos observado, , para cada . Este estimador converge al verdadero cdf: casi seguramente para cada (de hecho de manera uniforme).F ( x ) = 11/nx F (x)→F(x)=P(Xi≤x)xF^(x)=1n∑ni=1I(Xi≤x)xF^(x)→F(x)=P(Xi≤x)x
La distribución de muestreo de un estadístico es, en cambio, la distribución del estadístico que esperaría ver bajo la experimentación repetida. Es decir, realiza su experimento una vez y recopila datos . es una función de sus datos: . Ahora, suponga que repite el experimento y recopila datos . Al T en la nueva muestra se obtiene . Si se recogieron 100 muestras tendríamos 100 estimaciones de . Estas observaciones de forman la distribución muestral deX 1 , … , X n T T = T ( X 1 , … , X n ) X ′ 1 , … , X ′ n T ′ = T ( X ′ 1 , … , X ′ n ) T T TTX1,…,XnTT=T(X1,…,Xn)X′1,…,X′nT′=T(X′1,…,X′n)TTT. Es una verdadera distribución. A medida que el número de experimentos llega al infinito, su media converge a y su varianza a .V a r ( T )E(T)Var(T)
En general, por supuesto, nosotros no repetir los experimentos de este tipo, que sólo he ver una instancia de . Averiguar cuál es la varianza de partir de una sola observación es muy difícil si no conoce la función de probabilidad subyacente de a priori. Bootstrapping es una manera de estimar que la distribución de muestreo de mediante la ejecución artificialmente "nuevos experimentos" en el que para calcular nuevas instancias de . Cada nueva muestra es en realidad solo una muestra de los datos originales. Que esto le proporcione más información de la que tiene en los datos originales es misterioso y totalmente increíble.T T T TTTTTT
(1) Tienes razón, no harías esto. El autor está tratando de motivar el bootstrap paramétrico describiéndolo como "lo que haría si supiera la distribución", pero sustituyendo un muy buen estimador de la función de distribución: el cdf empírico.
Por ejemplo, suponga que sabe que su estadístico de prueba se distribuye normalmente con media cero, varianza uno. ¿Cómo estimaría la distribución muestral de ? Bueno, dado que conoce la distribución, una forma tonta y redundante de estimar la distribución de muestreo es usar R para generar aproximadamente 10.000 variables aleatorias normales estándar, luego tomar su media y varianza de muestra, y usarlas como nuestras estimaciones de la media y varianza de la distribución de muestreo de .T TTTT
Si no conocemos a priori los parámetros de , pero sabemos que normalmente está distribuido, lo que podemos hacer en su lugar es generar aproximadamente 10.000 muestras del cdf empírico, calcular en cada una de ellas y luego tomar la media de la muestra y la varianza de estos 10.000 s, y los utilizan como nuestras estimaciones del valor esperado y la varianza de . Como el cdf empírico es un buen estimador del cdf verdadero, los parámetros de la muestra deben converger a los parámetros verdaderos. Esta es la rutina de arranque paramétrica: usted posiciona un modelo en la estadística que desea estimar. El modelo está indexado por un parámetro, p. Ej. , que calcula a partir del muestreo repetido del ecdf.TTTT(μ,σ)
(3) La rutina de arranque no paramétrica ni siquiera requiere que sepas a priori que se distribuye normalmente. En cambio, simplemente extrae muestras repetidas del ecdf y calcula en cada una. Después de haber extraído aproximadamente 10.000 muestras y calculado 10.000 s, puede trazar un histograma de sus estimaciones. Esta es una visualización de la distribución muestral deTTTT. El bootstrap no paramétrico no le dirá que la distribución de muestreo es normal, o gamma, etc., pero le permite estimar la distribución de muestreo (generalmente) con la precisión necesaria. Hace menos suposiciones y proporciona menos información que la rutina de arranque paramétrica. Es menos preciso cuando la suposición paramétrica es verdadera pero más precisa cuando es falsa. El que uses en cada situación que encuentres depende completamente del contexto. Es cierto que más personas están familiarizadas con el bootstrap no paramétrico, pero con frecuencia una suposición paramétrica débil hace que un modelo completamente intratable sea susceptible de estimación, lo cual es encantador.
Realmente aprecio el esfuerzo aportado por guest47, pero no estoy del todo de acuerdo con su respuesta, en algunos aspectos menores. No plantearía directamente mis desacuerdos, sino que los reflejaría en esta respuesta.
En muchos casos, es redundante para calcular θ s cuando ya se sabe el verdadero subyacente parámetro θ * . Sin embargo, todavía es útil cuando queremos mirar la exactitud y precisión de θ s en la estimación de θ * . Además, el primer párrafo de su pasaje citado le facilitará la comprensión de la noción de "arranque paramétrico", que abordaré poco después.θ^s θ∗ θ^s θ∗
Guest47 da buena respuesta. No hay necesidad de elaborar más.
En bootstrap paramétrico, lo que tienes es los datos observados D. llegar a un modelo paramétrico para ajustar los datos, y el uso de estimadores theta (que es una función de los datos D) para los verdaderos parámetros theta * . A continuación, se genera miles de conjuntos de datos del modelo paramétrico con θ , y podrá valorar θ s para estos modelos. En bootstrapping no paramétrico, usted usa directamente D, muestra (por miles de veces) exactamente de D, en lugar de datos generados.θ^ θ∗ θ^ θ^s
fuente
No soy un experto, pero por lo que vale:
Porque está interesado en la distribución de muestreo, como se menciona en la primera oración de su cita.
La distribución empírica es la distribución que ve en su número finito de muestras. La distribución de muestreo es lo que vería si tomara un número infinito de muestras.
No puedo responder 3. Siempre entendí lo que aquí se describe como bootstrap no paramétrico como "el" bootstrap.
Si aún no ha comprendido completamente el concepto de la distribución de muestreo, aquí hay un hilo realmente agradable que presenta un código R muy ilustrativo.
fuente