¿Qué dicen los intervalos de confianza sobre la precisión (en todo caso)?

31

Morey et al (2015) argumentan que los intervalos de confianza son engañosos y que existen múltiples sesgos relacionados con su comprensión. Entre otros, describen la falacia de precisión de la siguiente manera:

La falacia de precisión
El ancho de un intervalo de confianza indica la precisión de nuestro conocimiento sobre el parámetro. Los intervalos de confianza estrechos muestran conocimiento preciso, mientras que los errores de confianza amplios muestran conocimiento impreciso.

No existe una conexión necesaria entre la precisión de una estimación y el tamaño de un intervalo de confianza. Una forma de ver esto es imaginar que dos investigadores, un investigador principal y un estudiante de doctorado, están analizando datos de participantes de un experimento. Como ejercicio para el beneficio del estudiante de doctorado, el investigador principal decide dividir aleatoriamente a los participantes en dos conjuntos de 25 para que cada uno pueda analizar por separado la mitad del conjunto de datos. En una reunión posterior, los dos comparten entre sí los intervalos de confianza t de Student para la media. El IC del 95 % del estudiante de doctorado es 52 ± 2 , y el investigador principal el 95 %5025t95%52±295%CI es .53±4

El investigador principal señala que sus resultados son ampliamente consistentes y que podrían utilizar la media ponderada por igual de sus dos estimaciones puntuales respectivas, , como una estimación general de la media real.52.5

La estudiante de doctorado, sin embargo, argumenta que sus dos medios no deben ser ponderados de manera uniforme: observa que su IC es la mitad de ancho y argumenta que su estimación es más precisa y, por lo tanto, debe ser ponderada más pesadamente. Su asesor señala que esto no puede ser correcto, porque la estimación de una ponderación desigual de los dos medios sería diferente de la estimación del análisis del conjunto de datos completo, que debe ser . El error del estudiante de doctorado es suponer que los IC indican directamente la precisión posterior a los datos.52.5

El ejemplo anterior parece ser engañoso. Si dividimos al azar una muestra por la mitad, en dos muestras, entonces esperaríamos que tanto las medias de la muestra como los errores estándar estén cerca. En tal caso, no debería haber ninguna diferencia entre usar la media ponderada (por ejemplo, ponderada por errores inversos) y usar la media aritmética simple. Sin embargo, si las estimaciones difieren y los errores en una de las muestras son notablemente mayores, esto podría sugerir "problemas" con dicha muestra.

Obviamente, en el ejemplo anterior, los tamaños de muestra son los mismos, por lo que "unir" los datos tomando la media de las medias es lo mismo que tomar la media de toda la muestra. El problema es que todo el ejemplo sigue la lógica mal definida de que la muestra se divide primero en partes y luego se vuelve a unir para la estimación final.

El ejemplo puede reformularse para llevar exactamente a la conclusión opuesta:

El investigador y el estudiante decidieron dividir su conjunto de datos en dos mitades y analizarlos de forma independiente. Luego, compararon sus estimaciones y parecía que la muestra significaba que calculaban que eran muy diferentes, además, el error estándar de la estimación de los estudiantes fue mucho mayor. El estudiante temía que esto pudiera sugerir problemas con la precisión de su estimación, pero el investigador dio a entender que no hay conexión entre los intervalos de confianza y la precisión, por lo que ambas estimaciones son igualmente confiables y pueden publicar cualquiera de ellos, elegidos al azar, como su estimación final.

Dicho de manera más formal, los intervalos de confianza "estándar", como la de Student , se basan en errorest

x¯±c×SE(x)

donde es alguna constante. En tal caso, están directamente relacionados con la precisión, ¿no es así?c

Entonces mi pregunta es:
¿es la falacia de precisión realmente una falacia? ¿Qué dicen los intervalos de confianza sobre la precisión?


Morey, R., Hoekstra, R., Rouder, J., Lee, M. y Wagenmakers, E.-J. (2015) La falacia de poner confianza en los intervalos de confianza. Boletín y revisión psiconómica, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/

Tim
fuente
2
Supongo que si la precisión se define como el recíproco de la varianza, entonces el ancho de estos IC solo refleja una estimación de la precisión. Tanto como el ancho de un intervalo bayesiano creíble para la media reflejaría incertidumbre sobre la precisión.
Scortchi - Restablece a Monica
@Scortchi, entonces esta es otra forma de decir que los métodos frecuentistas no son confiables en general ...
Tim
77
Yo diría que esto es un arenque rojo. Simplemente simulé 10,000 experimentos, en cada uno extrayendo 50 muestras de una distribución normal con un promedio de 52.5 y SD 7.5 (de modo que el SE de las submuestras de tamaño 25 sería aproximadamente , dando CIs de±3). Luego dividí estas muestras en dos y verifiqué con qué frecuencia los IC diferían en 2 o más. Esto sucedió en solo 6 de cada 10,000 casos. Cualquiera que observe ICs tan diferentes preferiría sospechar que algo se ha roto en la selección de submuestras. 7.5/25=5±3
S. Kolassa - Restablece a Monica
@StephanKolassa Hice exactamente la misma simulación que condujo exactamente a las mismas conclusiones: así es como surgió la pregunta :)
Tim
2
@Tim: Realmente no sé a qué están tratando de llegar: si la verdadera precisión de la estimación de la media se concibe como una función de un valor de parámetro desconocido, común a las dos submuestras, entonces yo no piense que a nadie le importaría admitir que la diferencia en el ancho de estos dos IC no refleja una diferencia en la precisión de las estimaciones (a menos que dudaran del procedimiento de submuestreo). Considerar las propiedades de cobertura de los IC condicionales al coeficiente de variación observado podría haber sido una mejor táctica.
Scortchi - Restablece a Monica

Respuestas:

16

En el documento, en realidad demostramos la falacia de precisión de múltiples maneras. El que está preguntando - el primero en el documento - El ejemplo está destinado a demostrar que un simplista "CI = precisión" está mal. Esto no quiere decir que cualquier frecuentista competente, bayesiano o probabilista estaría confundido por esto.

Aquí hay otra forma de ver lo que está sucediendo: si solo nos informaran los CI, aún no podríamos combinar la información en las muestras juntas; necesitaríamos saber , y a partir de eso podríamos descomponer los CI en ˉ x y s 2 , y así combinar las dos muestras correctamente. La razón por la que tenemos que hacer esto es que la información en el IC es marginal sobre el parámetro molesto. Debemos tener en cuenta que ambas muestras contienen información sobre el mismo parámetro molesto. Esto implica la computación calculando ambos valores s 2 , combinándolos para obtener una estimación general de σ 2Nx¯s2s2σ2 , luego computando un nuevo IC.

En cuanto a otras demostraciones de la falacia de precisión, ver

  • los múltiples CI en la sección Welch (1939) (el submarino), uno de los cuales incluye el CI "trivial" mencionado por @dsaxton arriba. En este ejemplo, el IC óptimo no rastrea el ancho de la probabilidad, y hay varios otros ejemplos de IC que tampoco lo hacen.
  • El hecho de que los CI, incluso los CI "buenos" pueden estar vacíos, "falsamente", lo que indica una precisión infinita

La respuesta al enigma es que la "precisión", al menos en la forma en que los defensores de CI piensan al respecto (una evaluación post-experimental de cuán "cercana" es una estimación a un parámetro) simplemente no es una característica que los intervalos de confianza tienen en general , y no estaban destinados a hacerlo. Los procedimientos de confianza particulares podrían ... o no.

Vea también la discusión aquí: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591

richarddmorey
fuente
77
(+1) ¡Qué bueno saber del autor real! Estoy de acuerdo en que los CI tienen varios problemas filosóficos, al igual que TODAS las formas de inferencia (solo diferentes problemas) ... Me gusta cómo señaló que es el procedimiento de confianza específico lo que debe considerar, no solo que es un CI en tal y tal nivel.
44
(+1) ¡Gracias por tu respuesta! Estoy de acuerdo con los argumentos de que usted declara en su documento que los CI no tienen que decir nada sobre la precisión, sin embargo, llamar a esto una falacia da la impresión de que indica que no dicen nada sobre la precisión, y esto no es lo mismo ... Además: en su opinión, ¿es la "falacia de precisión" un problema de análisis de la vida real ...? Estoy de acuerdo en que malinterpretar CI es, pero en este caso, no estoy tan seguro ...
Tim
2
El impacto de la "vida real" es difícil de cuantificar, particularmente b / c se podría hablar sobre el impacto en un escenario de análisis específico o en un campo. Por el simple hecho de calcular un IC en un gaussiano, la falacia no es demasiado peligrosa. Pero considere la lista de citas en p117 (el párrafo comienza "¿Con qué frecuencia el procedimiento de confianza de Steiger ..."). Es probable que los intervalos en esos artículos publicados sean "demasiado" estrechos. La falacia tiene otros impactos: la falta de rigor en los generadores de nuevos procedimientos de CI (marque cualquier papel con un nuevo CI), la renuencia de los analistas para moverse lejos de las suposiciones de Gauss cuando sea necesario, y otros.
richarddmorey
Estoy atormentado por estas paréntesis. ¿Qué es este "submarino"?
Superbest
1
θ
13

En primer lugar, limitemos a los procedimientos de CI que solo producen intervalos con anchos estrictamente positivos y finitos (para evitar casos patológicos).

En este caso, la relación entre precisión y ancho de CI puede demostrarse teóricamente. Tome una estimación de la media (cuando existe). Si su IC para la media es muy estrecha, entonces tiene dos interpretaciones: o tuvo mala suerte y su muestra estaba demasiado agrupada (a priori 5% de probabilidad de que eso suceda), o su intervalo cubre la media verdadera (95% oportunidad a priori). Por supuesto, el IC observado puede ser cualquiera de estos dos, pero configuramos nuestro cálculo para que este último sea mucho más probable que haya ocurrido (es decir, 95% de probabilidad a priori) ... por lo tanto, tenemos un alto grado de confianzaque nuestro intervalo cubre la media, porque configuramos las cosas probabilísticamente, así que así es Por lo tanto, un IC del 95% no es un intervalo de probabilidad (como un intervalo creíble bayesiano), sino más bien como un "asesor de confianza" ... alguien que, estadísticamente, tiene razón el 95% del tiempo, por lo que confiamos en sus respuestas aunque cualquier respuesta particular bien podría estar equivocada.

En el 95% de los casos en los que cubre el parámetro real, el ancho le dice algo sobre el rango de valores plausibles dados los datos (es decir, qué tan bien puede vincular el valor verdadero), por lo tanto, actúa como una medida de precisión . En el 5% de los casos en que no es así, el IC es engañoso (ya que la muestra es engañosa).

Entonces, el 95% del ancho de CI indica precisión ... Diría que hay un 95% de posibilidades de que lo haga (siempre que el ancho de su CI sea positivo-finito) ;-)

¿Qué es un CI sensible?

En respuesta a la publicación del autor original, he revisado mi respuesta para (a) tener en cuenta que el ejemplo de "muestra dividida" tenía un propósito muy específico, y (b) proporcionar más antecedentes según lo solicitado por el comentarista:

En un mundo ideal (frecuentista), todas las distribuciones de muestreo admitirían una estadística fundamental que podríamos usar para obtener intervalos de confianza exactos. ¿Qué hay de bueno en las estadísticas fundamentales? ¡Su distribución se puede derivar sin conocer el valor real del parámetro que se estima! En estos casos agradables, tenemos una distribución exacta de nuestra estadística de muestra en relación con el parámetro verdadero (aunque puede no ser gaussiano) sobre este parámetro.

En pocas palabras: conocemos la distribución del error (o alguna transformación de la misma).

Es esta cualidad de algunos estimadores la que nos permite formar intervalos de confianza razonables. Estos intervalos no solo satisfacen sus definiciones ... lo hacen en virtud de derivarse de la distribución real del error de estimación.

La distribución gaussiana y el estadístico Z asociado es el ejemplo canónico del uso de una cantidad fundamental para desarrollar un IC exacto para la media. Hay más ejemplos esotéricos, pero este generalmente es el que motiva la "teoría de la muestra grande", que es básicamente un intento de aplicar la teoría detrás de los IC gaussianos a distribuciones que no admiten una cantidad pivotal verdadera. En estos casos, leerá sobre cantidades aproximadamente pivotales o asintóticamente pivotales (en el tamaño de la muestra) o intervalos de confianza "aproximados" ... estos se basan en la teoría de la probabilidad, específicamente, el hecho de que la distribución de errores para muchos MLE se acerca a una distribución normal.

Otro enfoque para generar CI sensibles es "invertir" una prueba de hipótesis. La idea es que una prueba "buena" (p. Ej., UMP) dará como resultado un buen (léase: estrecho) CI para una tasa de error Tipo I dada. Estos no tienden a proporcionar una cobertura exacta, pero sí proporcionan una cobertura de límite inferior (nota: la definición real de un X% -CI solo dice que debe cubrir el parámetro verdadero al menos un X% del tiempo).

El uso de pruebas de hipótesis no requiere directamente una cantidad fundamental o distribución de errores; su sensibilidad se deriva de la sensibilidad de la prueba subyacente. Por ejemplo, si tuviéramos una prueba cuya región de rechazo tuviera una longitud del 0 5% del tiempo y una longitud infinita del 95% del tiempo, estaríamos de vuelta a donde estábamos con los CI, pero es obvio que esta prueba no es condicional a los datos y, por lo tanto, no proporcionará ninguna información sobre el parámetro subyacente que se está probando.

Esta idea más amplia, que una estimación de precisión debe estar condicionada a los datos, se remonta a Fischer y la idea de las estadísticas auxiliares. Puede estar seguro de que si el resultado de su prueba o procedimiento de CI NO está condicionado por los datos (es decir, su comportamiento condicional es el mismo que su comportamiento incondicional), entonces tiene un método cuestionable en sus manos.


fuente
2
Sería genial si pudieras elaborar lo que agregaste en una "Nota". Este es, creo, el quid de toda la discusión: uno puede idear procedimientos frecuentas muy raros pero válidos para construir CI bajo los cuales el ancho de CI no tiene relación con ninguna precisión. Por lo tanto, se puede argumentar, como Morey et al. hacer, que los CI están engañados en principio. Estoy de acuerdo con usted en que los procedimientos de CI comúnmente utilizados son más razonables que eso, pero hay que tener claro qué los hace tales.
ameba dice Reinstate Monica
@amoeba Agregué más explicaciones sobre por qué no todos los CI se crean de la misma manera ... la idea principal es la complementariedad, la segunda es el papel de una distribución de errores (o una aproximación a ella)
Gracias por la actualización. Una cosa que todavía no encuentro muy clara en su respuesta, es que en el primer párrafo no dice nada sobre el ancho de CI; solo está hablando de que contiene o no contiene el parámetro de población real. Todo allí es correcto incluso en casos "patológicos". Luego, cuando dices que sí, el ancho indica precisión, pero no has proporcionado ningún argumento para eso (en ese punto). Sin embargo, en la discusión posterior lo explicas más.
ameba dice Reinstate Monica
@amoeba Creo que mi publicación podría funcionar con un poco más de formato. La lógica básica es esta (suponiendo que estamos usando un procedimiento de CI "razonable" como lo describo): existe una probabilidad a priori del 95% de que el intervalo contendrá el parámetro verdadero. Después de recopilar datos, tenemos nuestro intervalo real (ancho finito, distinto de cero). SI contiene el parámetro verdadero, entonces el ancho expresa el rango de valores plausibles que podría ser, por lo tanto, el ancho limita el rango del parámetro. SIN EMBARGO, en el 5% de los casos en que el intervalo no contiene el valor, entonces el intervalo es engañoso.
@amoeba actualizó la publicación para enfatizar mejor la conexión entre el ancho de CI y la precisión.
8

{x1,x2,,xn}(μ,σ2)μ(,){0}basado en el lanzamiento de una moneda sesgada. Al usar el sesgo correcto podemos obtener cualquier nivel de confianza que nos guste, pero obviamente nuestro "cálculo" de intervalos no tiene precisión en absoluto, incluso si terminamos con un intervalo que tiene un ancho cero.

La razón por la que no creo que deberíamos cuidar de esta aparente falacia es que si bien es cierto que no hay una conexión necesaria entre la anchura de un intervalo de confianza y precisión, no es una conexión casi universal entre los errores y la precisión estándar, y en En la mayoría de los casos, el ancho de un intervalo de confianza es proporcional a un error estándar.

σ como nuestra mejor suposición. Me parece que este ejemplo es como el anterior donde solo equiparamos el ancho del intervalo de confianza con la precisión si nos hemos dejado de pensar.

dsaxton
fuente
Un buen punto sobre los IC aleatorios infinitos ... definitivamente muestra que la confianza es un concepto diferente que la precisión. Probablemente debería haber advertido mi respuesta al decir que estoy asumiendo un IC basado en la probabilidad, donde el ancho está relacionado con la curvatura de la probabilidad de registro, que es una aproximación del error estándar ... su publicación señala que hay IC que técnicamente logran cobertura pero de una manera muy contraintuitiva.
Una cuestión relacionada (aunque muy interesante) es la de los subconjuntos relevantes para un IC ... por ejemplo, si usted condiciona estadísticas auxiliares, su cobertura de IC puede cambiar (un caso en particular es que la cobertura condicional de un intervalo t cambios basados ​​en la variabilidad de su muestra). Aquí está el enlace al documento: jstor.org/stable/2242024?seq=1#page_scan_tab_contents
@Bey Hay otro ejemplo menos extremo de este artículo que involucra un submarino: webfiles.uci.edu/mdlee/fundamentalError.pdf . Es interesante, pero nuevamente parece ser un caso de interpretación que ninguna persona inteligente haría.
dsaxton
De acuerdo ... no puede dejar el sentido común en la puerta con estadísticas ... incluso en Machine Learning (algo así como un nombre inapropiado)
1
@richarddmorey: Bien, ya veo. ¡Entonces fue una formulación desafortunada! No lo saqué del contexto a propósito; Honestamente leí esta oración como un resumen y generalización de cualquier situación (sin darme cuenta de que "en ese ejemplo" se asumió en esa oración). Considere dejar un comentario de aclaración en ese otro hilo con mi acusación (que ya recibió algunos votos positivos).
ameba dice Reinstate Monica
4

Creo que la distinción demostrable entre "intervalos de confianza" y "precisión" (ver respuesta de @dsaxton) es importante porque esa distinción señala problemas en el uso común de ambos términos.

Citando de Wikipedia :

La precisión de un sistema de medición, relacionado con la reproducibilidad y la repetibilidad, es el grado en que las mediciones repetidas en condiciones sin cambios muestran los mismos resultados.

Por lo tanto, se podría argumentar que los intervalos de confianza frecuentistas representan un tipo de precisión de un esquema de medición . Si uno repite el mismo esquema, el IC del 95% calculado para cada repetición contendrá el único valor verdadero del parámetro en el 95% de las repeticiones.

Sin embargo, esto no es lo que muchas personas quieren de una medida práctica de precisión. Ellos quieren saber qué tan cerca el valor medido es el verdadero valor . Los intervalos de confianza frecuentes no proporcionan estrictamente esa medida de precisión. Las regiones bayesianas creíbles lo hacen.

Parte de la confusión es que, en ejemplos prácticos, los intervalos de confianza frecuentes y las regiones creíbles bayesianas "se superpondrán más o menos" . El muestreo de una distribución normal, como en algunos comentarios sobre el OP, es un buen ejemplo. Ese también puede ser el caso en la práctica para algunos de los tipos más amplios de análisis que @Bey tenía en mente, basados ​​en aproximaciones a errores estándar en procesos que tienen distribuciones normales en el límite.

Si sabes que estás en tal situación , puede que no exista un peligro práctico al interpretar un IC del 95% en particular, a partir de una sola implementación de un esquema de medición, como si tuviera una probabilidad del 95% de contener el valor verdadero. Sin embargo, esa interpretación de los intervalos de confianza no proviene de estadísticas frecuentistas, para las cuales el valor verdadero está o no dentro de ese intervalo particular.

Si los intervalos de confianza y las regiones creíbles difieren notablemente, esa interpretación al estilo bayesiano de los intervalos de confianza frecuentistas puede ser engañosa o incorrecta, como lo demuestra el documento vinculado anteriormente y la literatura anterior a la que se hace referencia. Sí, el "sentido común" podría ayudar a evitar tales interpretaciones erróneas, pero en mi experiencia el "sentido común" no es tan común.

Otras páginas CrossValidated contienen mucha más información sobre los intervalos de confianza y las diferencias entre los intervalos de confianza y las regiones creíbles . Los enlaces de esas páginas particulares también son altamente informativos.

EdM
fuente
Este es un buen punto ... Creo que lo más parecido a la interpretación común de "precisión" es más como un error RMS. Se considera que una estimación imparcial pero altamente variable no es mejor que un estimador de baja variabilidad pero altamente sesgado ... no se puede confiar en que ambos proporcionen una estimación cercana al valor verdadero.
+1, pero no estoy seguro de compartir su opinión pesimista sobre el "sentido común". Hay una gran cita de Jeffreys de "sentido común" en las estadísticas frecuentistas: I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense.
ameba dice Reinstate Monica
@amoeba considera la afirmación de Laplace de que "la teoría de la probabilidad no es más que sentido común reducido al cálculo". Los esfuerzos dedicados desde entonces a la teoría de la probabilidad al menos muestran que las implicaciones del sentido común no siempre son obvias de inmediato.
EdM
@amoeba: Fisher rechazó los CI e identificó a Fisher como frecista. es engañoso. Su lógica de intervalos (fiducial) era similar a la del obj. Bayes, e identifica la probabilidad con incertidumbre racional. Él dice esto: "A veces se afirma que el método fiducial generalmente conduce a los mismos resultados que el método de [IC]. Es difícil entender cómo puede ser así, ya que se ha establecido firmemente que el método de confianza los intervalos no conducen a declaraciones de probabilidad sobre los parámetros del mundo real, mientras que el argumento fiducial existe para este propósito ". (Fisher, 1959)
richarddmorey
@richard, gracias por la aclaración. Se sabe que Fisher ha dicho cosas contradictorias a lo largo de su larga carrera y que ha cambiado de opinión un par de veces. No estoy realmente familiarizado con su teoría fiducial, así que no puedo comentar sobre eso. Mi suposición inconsciente fue que Jeffreys en esa cita se refería al "período frecuentista" de Fisher, pero no tengo pruebas de ello. En mi experiencia (¡limitada!), Nadie usa inferencia fiducial. Nadie. Siempre. Mientras que las técnicas frecuentistas se usan todo el tiempo y muchas vuelven a Fisher. De ahí la asociación existente en mi mente.
ameba dice Reinstate Monica
1

@Bey lo tiene. No hay una conexión necesaria entre puntajes y rendimiento, ni precio y calidad, ni olor y sabor. Sin embargo, uno generalmente informa sobre el otro.

Se puede demostrar por inducción que no se puede dar una prueba sorpresa. En un examen minucioso, esto significa que uno no puede garantizar que el cuestionario sea una sorpresa. Sin embargo, la mayoría de las veces lo será.

Parece que Morey et al muestran que existen casos en los que el ancho no es informativo. Aunque eso es suficiente para afirmar que "No existe una conexión necesaria entre la precisión de una estimación y el tamaño de un intervalo de confianza", no es suficiente concluir que los IC generalmente no contienen información sobre la precisión. Simplemente que no están garantizados para hacerlo.

(Puntos insuficientes para la respuesta de + @ Bey).

ctwardy
fuente