Mi pregunta surge de este comentario en una publicación de blog de Andrew Gelman en la que aboga por el uso de intervalos de confianza del 50% en lugar de intervalos de confianza del 95%, aunque no sobre la base de que se estimen de manera más sólida:
Prefiero intervalos de 50% a 95% por 3 razones:
Estabilidad computacional,
Evaluación más intuitiva (la mitad de los intervalos del 50% deben contener el valor verdadero),
Una sensación de que en las aplicaciones es mejor tener una idea de dónde estarán los parámetros y los valores pronosticados, no intentar una certeza irrealista.
La idea del comentarista parece ser que los problemas con los supuestos subyacentes a la construcción del intervalo de confianza tendrán más impacto si es un IC del 95% que si es un IC del 50%. Sin embargo, él realmente no explica por qué.
[...] a medida que avanza a intervalos más grandes, en general se vuelve más sensible a los detalles o suposiciones de su modelo. Por ejemplo, nunca creería que había identificado correctamente el intervalo del 99.9995%. O al menos esa es mi intuición. Si es correcto, argumenta que el 50 por ciento debería estimarse mejor que el 95 por ciento. ¿O tal vez se estimó "más sólidamente", ya que es menos sensible a las suposiciones sobre el ruido, tal vez?
¿Es verdad? ¿Por qué por qué no?
fuente
Respuestas:
Esta respuesta analiza el significado de la cita y ofrece los resultados de un estudio de simulación para ilustrarlo y ayudar a comprender lo que podría estar tratando de decir. Cualquiera puede ampliar fácilmente el estudio (con
R
habilidades rudimentarias ) para explorar otros procedimientos de intervalo de confianza y otros modelos.Dos cuestiones interesantes surgieron en este trabajo. Uno se refiere a cómo evaluar la precisión de un procedimiento de intervalo de confianza. La impresión de robustez depende de eso. Muestro dos medidas de precisión diferentes para que pueda compararlas.
El otro problema es que, aunque un procedimiento de intervalo de confianza con baja confianza puede ser robusto, los límites de confianza correspondientes pueden no serlo en absoluto. Los intervalos tienden a funcionar bien porque los errores que cometen en un extremo a menudo contrarrestan los errores que cometen en el otro. Como cuestión práctica, puede estar bastante seguro de que alrededor de la mitad de sus intervalos de confianza del están cubriendo sus parámetros, pero el parámetro real podría estar consistentemente cerca de un extremo particular de cada intervalo, dependiendo de cómo la realidad se aleje de los supuestos de su modelo.50 %
Robusto tiene un significado estándar en estadística:
(Hoaglin, Mosteller y Tukey, Understanding Robust and Exploratory Data Analysis . J. Wiley (1983), p. 2.)
Esto es consistente con la cita en la pregunta. Para comprender la cita, aún necesitamos conocer el propósito previsto de un intervalo de confianza. Con este fin, repasemos lo que escribió Gelman.
Como obtener una idea de los valores pronosticados no es para lo que están destinados los intervalos de confianza (IC), me enfocaré en obtener una idea de los valores de los parámetros , que es lo que hacen los IC. Llamemos a estos los valores "objetivo". Por lo tanto, por definición, un IC está destinado a cubrir su objetivo con una probabilidad específica (su nivel de confianza). Lograr las tasas de cobertura previstas es el criterio mínimo para evaluar la calidad de cualquier procedimiento de CI. (Además, podríamos estar interesados en los anchos típicos de CI. Para mantener la publicación a una longitud razonable, ignoraré este problema).
Estas consideraciones nos invitan a estudiar hasta qué punto un cálculo del intervalo de confianza podría inducirnos a error con respecto al valor del parámetro objetivo. La cita podría leerse como una sugerencia de que los IC de menor confianza pueden conservar su cobertura incluso cuando los datos se generan por un proceso diferente al modelo. Eso es algo que podemos probar. El procedimiento es:
Adopte un modelo de probabilidad que incluya al menos un parámetro. El clásico es el muestreo de una distribución Normal de media y varianza desconocidas.
Seleccione un procedimiento de CI para uno o más de los parámetros del modelo. Una excelente construye el IC a partir de la media muestral y la desviación estándar muestral, multiplicando este último por un factor dado por una distribución t de Student.
Aplique ese procedimiento a varios modelos diferentes , sin apartarse demasiado del adoptado, para evaluar su cobertura en un rango de niveles de confianza.
captura muy bien la diferencia. Cuando es cero, la cobertura es exactamente el valor deseado. Cuando es negativo, la cobertura es demasiado baja, lo que significa que el IC es demasiado optimista y subestima la incertidumbre.
La pregunta, entonces, es ¿cómo varían estas tasas de error con el nivel de confianza a medida que se perturba el modelo subyacente? Podemos responderlo trazando los resultados de la simulación. Estas gráficas cuantifican cuán "poco realista" podría ser la "casi certeza" de un IC en esta aplicación arquetípica.
Este es el
R
código que produjo las tramas. Se modifica fácilmente para estudiar otras distribuciones, otros rangos de confianza y otros procedimientos de CI.fuente
Esta es una idea interesante, y puedo ver cómo es intuitivamente convincente, pero creo que es demasiado vago para ser verdadero o falso. Aquí hay un par de preguntas que me gustaría que aclarara el comentarista:
Con diferentes respuestas a esas preguntas, creo que podríamos hacer que la afirmación sea claramente verdadera o falsa.
Mi conjetura es que el comentarista se refiere a:
Si eso es lo que el comentarista tiene en mente, dependiendo de cómo las colas de la distribución se compensan con sus hombros, la declaración podría ser cierta.
fuente