Morey et al (2015) argumentan que los intervalos de confianza son engañosos y que existen múltiples sesgos relacionados con su comprensión. Entre otros, describen la falacia de precisión de la siguiente manera:
La falacia de precisión
El ancho de un intervalo de confianza indica la precisión de nuestro conocimiento sobre el parámetro. Los intervalos de confianza estrechos muestran conocimiento preciso, mientras que los errores de confianza amplios muestran conocimiento impreciso.No existe una conexión necesaria entre la precisión de una estimación y el tamaño de un intervalo de confianza. Una forma de ver esto es imaginar que dos investigadores, un investigador principal y un estudiante de doctorado, están analizando datos de participantes de un experimento. Como ejercicio para el beneficio del estudiante de doctorado, el investigador principal decide dividir aleatoriamente a los participantes en dos conjuntos de 25 para que cada uno pueda analizar por separado la mitad del conjunto de datos. En una reunión posterior, los dos comparten entre sí los intervalos de confianza t de Student para la media. El IC del 95 % del estudiante de doctorado es 52 ± 2 , y el investigador principal el 95 %CI es .
El investigador principal señala que sus resultados son ampliamente consistentes y que podrían utilizar la media ponderada por igual de sus dos estimaciones puntuales respectivas, , como una estimación general de la media real.
La estudiante de doctorado, sin embargo, argumenta que sus dos medios no deben ser ponderados de manera uniforme: observa que su IC es la mitad de ancho y argumenta que su estimación es más precisa y, por lo tanto, debe ser ponderada más pesadamente. Su asesor señala que esto no puede ser correcto, porque la estimación de una ponderación desigual de los dos medios sería diferente de la estimación del análisis del conjunto de datos completo, que debe ser . El error del estudiante de doctorado es suponer que los IC indican directamente la precisión posterior a los datos.
El ejemplo anterior parece ser engañoso. Si dividimos al azar una muestra por la mitad, en dos muestras, entonces esperaríamos que tanto las medias de la muestra como los errores estándar estén cerca. En tal caso, no debería haber ninguna diferencia entre usar la media ponderada (por ejemplo, ponderada por errores inversos) y usar la media aritmética simple. Sin embargo, si las estimaciones difieren y los errores en una de las muestras son notablemente mayores, esto podría sugerir "problemas" con dicha muestra.
Obviamente, en el ejemplo anterior, los tamaños de muestra son los mismos, por lo que "unir" los datos tomando la media de las medias es lo mismo que tomar la media de toda la muestra. El problema es que todo el ejemplo sigue la lógica mal definida de que la muestra se divide primero en partes y luego se vuelve a unir para la estimación final.
El ejemplo puede reformularse para llevar exactamente a la conclusión opuesta:
El investigador y el estudiante decidieron dividir su conjunto de datos en dos mitades y analizarlos de forma independiente. Luego, compararon sus estimaciones y parecía que la muestra significaba que calculaban que eran muy diferentes, además, el error estándar de la estimación de los estudiantes fue mucho mayor. El estudiante temía que esto pudiera sugerir problemas con la precisión de su estimación, pero el investigador dio a entender que no hay conexión entre los intervalos de confianza y la precisión, por lo que ambas estimaciones son igualmente confiables y pueden publicar cualquiera de ellos, elegidos al azar, como su estimación final.
Dicho de manera más formal, los intervalos de confianza "estándar", como la de Student , se basan en errores
donde es alguna constante. En tal caso, están directamente relacionados con la precisión, ¿no es así?
Entonces mi pregunta es:
¿es la falacia de precisión realmente una falacia? ¿Qué dicen los intervalos de confianza sobre la precisión?
Morey, R., Hoekstra, R., Rouder, J., Lee, M. y Wagenmakers, E.-J. (2015) La falacia de poner confianza en los intervalos de confianza. Boletín y revisión psiconómica, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
Respuestas:
En el documento, en realidad demostramos la falacia de precisión de múltiples maneras. El que está preguntando - el primero en el documento - El ejemplo está destinado a demostrar que un simplista "CI = precisión" está mal. Esto no quiere decir que cualquier frecuentista competente, bayesiano o probabilista estaría confundido por esto.
Aquí hay otra forma de ver lo que está sucediendo: si solo nos informaran los CI, aún no podríamos combinar la información en las muestras juntas; necesitaríamos saber , y a partir de eso podríamos descomponer los CI en ˉ x y s 2 , y así combinar las dos muestras correctamente. La razón por la que tenemos que hacer esto es que la información en el IC es marginal sobre el parámetro molesto. Debemos tener en cuenta que ambas muestras contienen información sobre el mismo parámetro molesto. Esto implica la computación calculando ambos valores s 2 , combinándolos para obtener una estimación general de σ 2N x¯ s2 s2 σ2 , luego computando un nuevo IC.
En cuanto a otras demostraciones de la falacia de precisión, ver
La respuesta al enigma es que la "precisión", al menos en la forma en que los defensores de CI piensan al respecto (una evaluación post-experimental de cuán "cercana" es una estimación a un parámetro) simplemente no es una característica que los intervalos de confianza tienen en general , y no estaban destinados a hacerlo. Los procedimientos de confianza particulares podrían ... o no.
Vea también la discusión aquí: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
fuente
En primer lugar, limitemos a los procedimientos de CI que solo producen intervalos con anchos estrictamente positivos y finitos (para evitar casos patológicos).
En este caso, la relación entre precisión y ancho de CI puede demostrarse teóricamente. Tome una estimación de la media (cuando existe). Si su IC para la media es muy estrecha, entonces tiene dos interpretaciones: o tuvo mala suerte y su muestra estaba demasiado agrupada (a priori 5% de probabilidad de que eso suceda), o su intervalo cubre la media verdadera (95% oportunidad a priori). Por supuesto, el IC observado puede ser cualquiera de estos dos, pero configuramos nuestro cálculo para que este último sea mucho más probable que haya ocurrido (es decir, 95% de probabilidad a priori) ... por lo tanto, tenemos un alto grado de confianzaque nuestro intervalo cubre la media, porque configuramos las cosas probabilísticamente, así que así es Por lo tanto, un IC del 95% no es un intervalo de probabilidad (como un intervalo creíble bayesiano), sino más bien como un "asesor de confianza" ... alguien que, estadísticamente, tiene razón el 95% del tiempo, por lo que confiamos en sus respuestas aunque cualquier respuesta particular bien podría estar equivocada.
En el 95% de los casos en los que cubre el parámetro real, el ancho le dice algo sobre el rango de valores plausibles dados los datos (es decir, qué tan bien puede vincular el valor verdadero), por lo tanto, actúa como una medida de precisión . En el 5% de los casos en que no es así, el IC es engañoso (ya que la muestra es engañosa).
Entonces, el 95% del ancho de CI indica precisión ... Diría que hay un 95% de posibilidades de que lo haga (siempre que el ancho de su CI sea positivo-finito) ;-)
¿Qué es un CI sensible?
En respuesta a la publicación del autor original, he revisado mi respuesta para (a) tener en cuenta que el ejemplo de "muestra dividida" tenía un propósito muy específico, y (b) proporcionar más antecedentes según lo solicitado por el comentarista:
En un mundo ideal (frecuentista), todas las distribuciones de muestreo admitirían una estadística fundamental que podríamos usar para obtener intervalos de confianza exactos. ¿Qué hay de bueno en las estadísticas fundamentales? ¡Su distribución se puede derivar sin conocer el valor real del parámetro que se estima! En estos casos agradables, tenemos una distribución exacta de nuestra estadística de muestra en relación con el parámetro verdadero (aunque puede no ser gaussiano) sobre este parámetro.
En pocas palabras: conocemos la distribución del error (o alguna transformación de la misma).
Es esta cualidad de algunos estimadores la que nos permite formar intervalos de confianza razonables. Estos intervalos no solo satisfacen sus definiciones ... lo hacen en virtud de derivarse de la distribución real del error de estimación.
La distribución gaussiana y el estadístico Z asociado es el ejemplo canónico del uso de una cantidad fundamental para desarrollar un IC exacto para la media. Hay más ejemplos esotéricos, pero este generalmente es el que motiva la "teoría de la muestra grande", que es básicamente un intento de aplicar la teoría detrás de los IC gaussianos a distribuciones que no admiten una cantidad pivotal verdadera. En estos casos, leerá sobre cantidades aproximadamente pivotales o asintóticamente pivotales (en el tamaño de la muestra) o intervalos de confianza "aproximados" ... estos se basan en la teoría de la probabilidad, específicamente, el hecho de que la distribución de errores para muchos MLE se acerca a una distribución normal.
Otro enfoque para generar CI sensibles es "invertir" una prueba de hipótesis. La idea es que una prueba "buena" (p. Ej., UMP) dará como resultado un buen (léase: estrecho) CI para una tasa de error Tipo I dada. Estos no tienden a proporcionar una cobertura exacta, pero sí proporcionan una cobertura de límite inferior (nota: la definición real de un X% -CI solo dice que debe cubrir el parámetro verdadero al menos un X% del tiempo).
El uso de pruebas de hipótesis no requiere directamente una cantidad fundamental o distribución de errores; su sensibilidad se deriva de la sensibilidad de la prueba subyacente. Por ejemplo, si tuviéramos una prueba cuya región de rechazo tuviera una longitud del 0 5% del tiempo y una longitud infinita del 95% del tiempo, estaríamos de vuelta a donde estábamos con los CI, pero es obvio que esta prueba no es condicional a los datos y, por lo tanto, no proporcionará ninguna información sobre el parámetro subyacente que se está probando.
Esta idea más amplia, que una estimación de precisión debe estar condicionada a los datos, se remonta a Fischer y la idea de las estadísticas auxiliares. Puede estar seguro de que si el resultado de su prueba o procedimiento de CI NO está condicionado por los datos (es decir, su comportamiento condicional es el mismo que su comportamiento incondicional), entonces tiene un método cuestionable en sus manos.
fuente
La razón por la que no creo que deberíamos cuidar de esta aparente falacia es que si bien es cierto que no hay una conexión necesaria entre la anchura de un intervalo de confianza y precisión, no es una conexión casi universal entre los errores y la precisión estándar, y en En la mayoría de los casos, el ancho de un intervalo de confianza es proporcional a un error estándar.
fuente
Creo que la distinción demostrable entre "intervalos de confianza" y "precisión" (ver respuesta de @dsaxton) es importante porque esa distinción señala problemas en el uso común de ambos términos.
Citando de Wikipedia :
Por lo tanto, se podría argumentar que los intervalos de confianza frecuentistas representan un tipo de precisión de un esquema de medición . Si uno repite el mismo esquema, el IC del 95% calculado para cada repetición contendrá el único valor verdadero del parámetro en el 95% de las repeticiones.
Sin embargo, esto no es lo que muchas personas quieren de una medida práctica de precisión. Ellos quieren saber qué tan cerca el valor medido es el verdadero valor . Los intervalos de confianza frecuentes no proporcionan estrictamente esa medida de precisión. Las regiones bayesianas creíbles lo hacen.
Parte de la confusión es que, en ejemplos prácticos, los intervalos de confianza frecuentes y las regiones creíbles bayesianas "se superpondrán más o menos" . El muestreo de una distribución normal, como en algunos comentarios sobre el OP, es un buen ejemplo. Ese también puede ser el caso en la práctica para algunos de los tipos más amplios de análisis que @Bey tenía en mente, basados en aproximaciones a errores estándar en procesos que tienen distribuciones normales en el límite.
Si sabes que estás en tal situación , puede que no exista un peligro práctico al interpretar un IC del 95% en particular, a partir de una sola implementación de un esquema de medición, como si tuviera una probabilidad del 95% de contener el valor verdadero. Sin embargo, esa interpretación de los intervalos de confianza no proviene de estadísticas frecuentistas, para las cuales el valor verdadero está o no dentro de ese intervalo particular.
Si los intervalos de confianza y las regiones creíbles difieren notablemente, esa interpretación al estilo bayesiano de los intervalos de confianza frecuentistas puede ser engañosa o incorrecta, como lo demuestra el documento vinculado anteriormente y la literatura anterior a la que se hace referencia. Sí, el "sentido común" podría ayudar a evitar tales interpretaciones erróneas, pero en mi experiencia el "sentido común" no es tan común.
Otras páginas CrossValidated contienen mucha más información sobre los intervalos de confianza y las diferencias entre los intervalos de confianza y las regiones creíbles . Los enlaces de esas páginas particulares también son altamente informativos.
fuente
I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense
.@Bey lo tiene. No hay una conexión necesaria entre puntajes y rendimiento, ni precio y calidad, ni olor y sabor. Sin embargo, uno generalmente informa sobre el otro.
Se puede demostrar por inducción que no se puede dar una prueba sorpresa. En un examen minucioso, esto significa que uno no puede garantizar que el cuestionario sea una sorpresa. Sin embargo, la mayoría de las veces lo será.
Parece que Morey et al muestran que existen casos en los que el ancho no es informativo. Aunque eso es suficiente para afirmar que "No existe una conexión necesaria entre la precisión de una estimación y el tamaño de un intervalo de confianza", no es suficiente concluir que los IC generalmente no contienen información sobre la precisión. Simplemente que no están garantizados para hacerlo.
(Puntos insuficientes para la respuesta de + @ Bey).
fuente