He estado mirando numerosas preguntas en este sitio sobre el arranque y los intervalos de confianza, pero todavía estoy confundido. Probablemente, parte de la razón de mi confusión es que no estoy lo suficientemente avanzado en mi conocimiento de estadísticas para comprender muchas de las respuestas. Estoy a mitad de camino de un curso introductorio de estadística y mi nivel de matemáticas es solo a mediados de Álgebra II, por lo que cualquier cosa que supere ese nivel me confunde. Si una de las personas con conocimientos en este sitio pudiera explicar este problema a mi nivel, sería extremadamente útil.
Estábamos aprendiendo en clase cómo tomar muestras usando el método bootstrap y usarlas para construir un intervalo de confianza para algunas estadísticas que nos gustaría medir. Entonces, por ejemplo, digamos que tomamos una muestra de una gran población y encontramos que el 40% dice que votará por el candidato A. Suponemos que esta muestra es un reflejo bastante preciso de la población original, en cuyo caso podemos tomar muestras de descubrir algo sobre la población. Por lo tanto, tomamos muestras y encontramos (utilizando un nivel de confianza del 95%) que el intervalo de confianza resultante oscila entre el 35% y el 45%.
Mi pregunta es, ¿qué significa realmente este intervalo de confianza ?
Sigo leyendo que hay una diferencia entre los intervalos de confianza (frecuentes) y los intervalos creíbles (bayesianos). Si entendí correctamente, un intervalo creíble diría que hay un 95% de posibilidades de que en nuestra situación el parámetro verdadero esté dentro del intervalo dado (35% -45%), mientras que un intervalo de confianza diría que hay un 95% que en este tipo de situación (pero no necesariamente en nuestra situación específica) el método que estamos utilizando informaría con precisión que el parámetro verdadero está dentro del intervalo dado.
Asumiendo que esta definición es correcta, mi pregunta es: ¿Cuál es el "parámetro verdadero" del que estamos hablando cuando usamos intervalos de confianza creados usando el método bootstrap? ¿Nos referimos a (a) el verdadero parámetro de la población original , o (b) el verdadero parámetro de la muestra ? Si (a), entonces estaríamos diciendo que el 95% de las veces el método bootstrap informará con precisión declaraciones verdaderas sobre la población original. Pero, ¿cómo podríamos saber eso? ¿No descansa todo el método bootstrap en el supuesto?que la muestra original es un reflejo exacto de la población de la que fue tomada? Si (b), entonces no entiendo el significado del intervalo de confianza en absoluto. ¿No sabemos ya el verdadero parámetro de la muestra? ¡Es una medida directa!
Discutí esto con mi maestra y ella fue muy útil. Pero todavía estoy confundido.
fuente
Lo que está diciendo es que no hay necesidad de encontrar el intervalo de confianza de las muestras de arranque. Si está satisfecho con la estadística (media muestral o proporción muestral) obtenida de resamples de bootstrapped, no encuentre ningún intervalo de confianza y, por lo tanto, no hay duda de interpretación. Pero si no está satisfecho con la estadística obtenida de los resamples de bootstrapped o está satisfecho pero aún desea encontrar el intervalo de confianza, entonces la interpretación para dicho intervalo de confianza es la misma que cualquier otro intervalo de confianza. Es porque cuando las muestras remotas representan exactamente (o se supone que lo son) la población original, entonces, ¿dónde está la necesidad del intervalo de confianza? La estadística de las muestras remotas es el parámetro de población original en sí, pero cuando no considera la estadística como el parámetro de población original, entonces es necesario encontrar el intervalo de confianza. Entonces, se trata de cómo lo consideras. Supongamos que calculó un intervalo de confianza del 95% a partir de muestras remotas. Ahora la interpretación es: "el 95% de las veces, este método de arranque resulta con precisión en un intervalo de confianza que contiene el parámetro de población real".
(Esto es lo que pienso. Corrígeme si hay algún error).
fuente
Nos estamos refiriendo al verdadero parámetro de la población original. Es posible hacer esto suponiendo que los datos se extrajeron aleatoriamente de la población original; en ese caso, hay argumentos matemáticos que muestran que los procedimientos de arranque proporcionarán un intervalo de confianza válido, al menos a medida que el tamaño del conjunto de datos sea lo suficientemente grande. .
fuente