Actualmente estoy leyendo "Todas las estadísticas" de Larry Wasserman y estoy desconcertado por algo que escribió en el capítulo sobre la estimación de funciones estadísticas de modelos no paramétricos.
El escribio
"A veces podemos encontrar el error estándar estimado de una función estadística haciendo algunos cálculos. Sin embargo, en otros casos no es obvio cómo estimar el error estándar".
Me gustaría señalar que en el próximo capítulo habla sobre bootstrap para abordar este problema, pero dado que realmente no entiendo esta declaración, ¿no entiendo completamente el incentivo detrás de Bootstrapping?
¿Qué ejemplo hay para cuando no es obvio cómo estimar el error estándar?
Todos los ejemplos que he visto hasta ahora han sido "obvios" como luego^ s e ( p n ) = √
Respuestas:
Dos respuestas
fuente
Un ejemplo podría ayudar a ilustrar. Supongamos, en un marco de modelado causal, que está interesado en determinar si la relación entre (una exposición de interés) un (un resultado de interés) está mediada por una variable . Esto significa que en los dos modelos de regresión:Y WX Y W
El efecto es diferente al efecto .β1 γ1
Como ejemplo, considere la relación entre fumar y el riesgo cardiovascular (CV). Fumar obviamente aumenta el riesgo de CV (para eventos como ataque cardíaco y accidente cerebrovascular) al hacer que las venas se vuelvan frágiles y calcificadas. Sin embargo, fumar también es un supresor del apetito. Por lo tanto, sería curioso saber si la relación estimada entre fumar y el riesgo CV está mediada por el IMC, que independientemente es un factor de riesgo para el riesgo CV. Aquí podría ser un evento binario (infarto de miocardio o neurológico) en un modelo de regresión logística o una variable continua como la calcificación arterial coronaria (CAC), la fracción de eyección del ventrículo izquierdo (FEVI) o la masa ventricular izquierda (LVM).Y
Encajaríamos dos modelos 1: ajuste por fumar y el resultado junto con otros factores de confusión como la edad, el sexo, los ingresos y los antecedentes familiares de enfermedad cardíaca y luego 2: todas las covariables anteriores, así como el índice de masa corporal. La diferencia en el efecto de fumar entre los modelos 1 y 2 es donde basamos nuestra inferencia.
Estamos interesados en probar las hipótesis
Una posible medida del efecto podría ser: o o cualquier cantidad de mediciones. Se pueden utilizar los estimadores usuales para y . El error estándar de estos estimadores es muy complicado de derivar. Sin embargo, el arranque de la distribución de ellos es una técnica comúnmente aplicada, y es fácil calcular el valor directamente a partir de eso.T=β1−γ1 S=β1/γ1 T S p
fuente
Tener soluciones paramétricas para cada medida estadística sería deseable pero, al mismo tiempo, bastante poco realista. Bootstrap es útil en esos casos. El ejemplo que me viene a la mente se refiere a la diferencia entre dos medios de distribuciones de costos muy sesgadas. En ese caso, la prueba t clásica de dos muestras no cumple con sus requisitos teóricos (las distribuciones de las cuales se extrajeron las muestras bajo investigación seguramente se apartan de la normalidad, debido a su larga cola derecha) y las pruebas no paramétricas no se transmiten información útil para los tomadores de decisiones (que generalmente no están interesados en los rangos). Una posible solución para evitar detenerse en ese tema es una prueba t de arranque de dos muestras.
fuente