¿Por qué estas declaraciones no se siguen lógicamente de un IC del 95% para la media?

26

He estado leyendo el artículo de 2014 de Hoekstra et al. Sobre "Interpretación errónea robusta de los intervalos de confianza", que descargué del sitio web de Wagenmakers .

En la penúltima página aparece la siguiente imagen.

Examen

Según los autores, False es la respuesta correcta a todas estas declaraciones. No estoy muy seguro de por qué las declaraciones son falsas y, por lo que puedo decir, el resto del documento no intenta explicar esto.

Creo que 1-2 y 4 no son correctos porque afirman algo sobre el valor probable de la media verdadera, cuando la media verdadera tiene un valor definido que es desconocido. ¿Es esta una distinción convincente?

Con respecto a 3, entiendo que no se pretende hacer afirmaciones sobre la probabilidad de que la hipótesis nula sea incorrecta, aunque no estoy tan seguro de la razón.

Del mismo modo, 6 no puede ser cierto porque implica que la media verdadera está cambiando de un experimento a otro.

El que realmente no entiendo es 5. ¿Por qué está mal? Si tengo un proceso que el 95% del tiempo produce IC que contienen la media real, ¿por qué no debo decir que tengo un 95% de confianza en que el valor de la población está entre 0.1 y 0.4? ¿Es porque podríamos tener alguna información especial sobre la muestra que acabamos de tomar que nos haría pensar que es probable que sea uno del 5% que no contiene la media real? Por ejemplo, 0.13 se incluye en el intervalo de confianza y, por alguna razón, 0.13 no se considera un valor plausible dentro de un contexto de investigación específico, por ejemplo, porque ese valor entraría en conflicto con la teoría previa.

¿Qué significa confianza en este contexto, de todos modos?

user1205901 - Restablecer Monica
fuente

Respuestas:

11

El significado mismo de la pregunta (5) depende de alguna interpretación no revelada de "confianza". Busqué en el periódico cuidadosamente y no encontré ningún intento de definir "confianza" o lo que podría significar en este contexto. La explicación del documento de su respuesta a la pregunta (5) es

"... [menciona] los límites del IC mientras que ... un IC puede usarse para evaluar solo el procedimiento y no un intervalo específico".

Esto es a la vez engañoso y engañoso. Primero, si no puede evaluar el resultado del procedimiento, ¿de qué sirve el procedimiento en primer lugar? En segundo lugar, la declaración en la pregunta no se trata del procedimiento, sino de la "confianza" del lector en sus resultados.

Los autores se defienden:

"Antes de continuar, es importante recordar la definición correcta de un IC. Un CI es un intervalo numérico construido alrededor de la estimación de un parámetro. Sin embargo, dicho intervalo no indica directamente una propiedad del parámetro; en cambio, indica una propiedad del procedimiento, como es típico de una técnica frecuentista ".

Su sesgo surge en la última frase: "técnica frecuentista" (escrita, tal vez, con un desprecio implícito). Aunque esta caracterización es correcta, está críticamente incompleta. No se da cuenta de que un intervalo de confianza también es una propiedad de los métodos experimentales (cómo se obtuvieron y midieron las muestras) y, lo que es más importante, de la naturaleza misma. Esa es la única razón por la que alguien estaría interesado en su valor.

Recientemente tuve el placer de leer Circular Statistics in Biology de Edward Batschelet (Academic Press, 1981). Batschelet escribe claramente y al grano, en un estilo dirigido al científico que trabaja. Esto es lo que dice sobre los intervalos de confianza:

" Una estimación de un parámetro sin indicaciones de desviaciones causadas por fluctuaciones fortuitas tiene poco valor científico ...

"Mientras que el parámetro a estimar es un número fijo, los límites de confianza están determinados por la muestra. Son estadísticas y, por lo tanto, dependen de las fluctuaciones del azar. Diferentes muestras extraídas de la misma población conducen a diferentes intervalos de confianza".

[El énfasis está en el original, en las páginas 84-85.]

Observe la diferencia de énfasis: mientras que el documento en cuestión se enfoca en el procedimiento, Batschelet se enfoca en la muestra y específicamente en lo que puede revelar sobre el parámetro y en qué medida esa información puede verse afectada por "fluctuaciones casuales". Este enfoque descaradamente práctico y científico me parece mucho más constructivo, esclarecedor y, en última instancia, útil.

Por lo tanto, una caracterización más completa de los intervalos de confianza que ofrece el documento debería proceder de la siguiente manera:

Un IC es un intervalo numérico construido alrededor de la estimación de un parámetro. Cualquier persona que esté de acuerdo con los supuestos subyacentes a la construcción de CI está justificado al decir que confía en que el parámetro se encuentra dentro del intervalo: este es el significado de "confiado". Este significado está ampliamente de acuerdo con los significados no técnicos convencionales de confianza porque bajo muchas repeticiones del experimento (ya sea que tengan lugar o no) el CI, aunque variará, se espera que contenga el parámetro la mayor parte del tiempo.

En este sentido de "confianza" más completo, más convencional y más constructivo, la respuesta a la pregunta (5) es cierta.

whuber
fuente
2
Cabe destacar que el enfoque de Batschelet parece descartar ciertos tipos de intervalos de confianza que dan pausa a los lectores reflexivos, como los IC que pueden estar vacíos. Tal CI apenas captaría la idea de "indicaciones de desviaciones causadas por fluctuaciones casuales". Esto sugiere que quizás la definición estándar de intervalo de confianza no logra lo que se pretende. De todos modos, en ausencia de una indicación clara de lo que significa "confianza" en la pregunta (5), tenemos que descartar cualquier conclusión extraída por los autores con base en las respuestas que obtuvieron a esa pregunta.
whuber
yyodounatudohy(μ,1)μ
... continúa ... así que aunque se alcance la cobertura promedio a largo plazo, la cobertura en una clase particular de muestras no lo hará.
probabilityislogic
10

Preguntas 1-2, 4: en el análisis frecuentista, la media verdadera no es una variable aleatoria, por lo tanto, estas probabilidades no están definidas, mientras que en el análisis bayesiano las probabilidades dependerían de las anteriores.

Pregunta 3: Por ejemplo, considere un caso en el que sabemos con certeza. Aún sería posible obtener estos resultados, pero no es razonable decir que la hipótesis nula es 'poco probable' que sea cierta. Obtuvimos datos que es poco probable que ocurran si la hipótesis nula es cierta, pero esto no implica que la hipótesis nula sea poco probable.

Pregunta 5: Esto es un poco cuestionable, ya que depende de la definición de "podemos estar seguros". Si definimos que el enunciado significa lo que se infiere de p% de intervalos de confianza, el enunciado es, por definición, correcto. El típico argumento pro-bayesiano establece que las personas tienden a interpretar estas afirmaciones de manera intuitiva en el sentido de "la probabilidad es p%", lo que sería falso (compárense las respuestas con 1-2,4).

Pregunta 6: Su explicación "implica que la verdadera media está cambiando de un experimento a otro" es exactamente correcta.

El artículo fue discutido recientemente en el blog de Andrew Gelman ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Por ejemplo, el tema de la interpretación de la declaración en la pregunta 5 se discute en los comentarios.

Juho Kokkala
fuente
1
Entonces, si uno regresara y reemplazara cada instancia de "media verdadera" con "la mejor estimación para la media verdadera", ¿las afirmaciones serían correctas?
Superbest
@Superbest No. Si consideramos "la mejor estimación dada esta información", es una constante conocida (siempre que la mejor esté bien definida). Si consideramos la "mejor estimación de una muestra futura", no sabemos cómo varía porque no sabemos la media real.
Juho Kokkala
Esto no es exactamente una refutación del comentario anterior, pero debo señalar que, de hecho, la "mejor estimación" implica un número real, en lugar de una distribución. Con un IC, uno podría hablar sobre "la distribución de dónde podría estar la verdadera media dada esta información".
Superbest
1
@Super Ese es exactamente el malentendido de CI que se aborda en el documento. En particular, la verdadera media es un número ; No tiene distribución. Vea los primeros dos resultados en una búsqueda de sitio para el intervalo de confianza para una discusión adicional.
whuber
1
@super, "intervalo creíble" se acercaría.
whuber
8

Sin una definición formal de lo que significa tener un "95% de confianza", ¿qué justificación hay para etiquetar # 5 como verdadero o falso? Un laico indudablemente lo malinterpretaría como sinónimo de una probabilidad del 95% de que la media esté en ese intervalo: pero algunas personas lo usan en el sentido de haber usado un método de generación de intervalos cuyos intervalos contienen la media verdadera el 95% del tiempo, precisamente para evitar hablar sobre la distribución de probabilidad de un parámetro desconocido; lo que parece una extensión bastante natural de la terminología.

La estructura similar de la declaración anterior (# 4) podría haber alentado a los encuestados a tratar de establecer una distinción entre "podemos tener una confianza del 95%" y "hay una probabilidad del 95%" incluso si no habían pensado en la idea antes. Esperaba que este truco condujera al n. ° 5 a tener la mayor proporción de acuerdo: al mirar el periódico, descubrí que estaba equivocado, pero noté que al menos el 80% leía el cuestionario en una versión holandesa, lo que quizás debería plantear preguntas sobre La pertinencia de la traducción al inglés.

Scortchi - Restablece a Monica
fuente
4

Aquí está la definición de un intervalo de confianza, del Diccionario de Estadística de BS Everitt :

"Un rango de valores, calculado a partir de las observaciones de la muestra, que se cree, con cierta probabilidad, que contienen el valor del parámetro verdadero. Un IC del 95%, por ejemplo, implica que el proceso de estimación se repitió una y otra vez, luego el 95% de los intervalos calculados se esperaría que contuviera el verdadero valor del parámetro. Tenga en cuenta que el nivel de probabilidad establecido se refiere a las propiedades del intervalo y no al parámetro en sí, que no se considera una variable aleatoria "

Un error muy común es confundir el significado de un intervalo de confianza con el de un intervalo creíble , también conocido como "intervalo de confianza bayesiano", que hace declaraciones similares a las de las preguntas.

He escuchado que los intervalos de confianza a menudo son similares a los intervalos creíbles que se derivaron de un previo poco informativo, pero eso me lo dijeron anecdóticamente (aunque sea un tipo al que respeto mucho), y no tengo detalles ni citas.

Peter Flom - Restablece a Monica
fuente
Jaynes 1976 intervalos de confianza en papel vs intervalos bayesianos. Esa es al menos una fuente creíble. También hay referencias previas de Berger y Bernardo. En serio, ¿nunca has oído hablar de estos?
probabilityislogic
2

Con respecto a la intuición de la falsedad de la Pregunta 5, obtengo la siguiente discusión sobre este tema desde aquí

Es correcto decir que existe un 95% de posibilidades de que el intervalo de confianza que calculó contenga la media real de la población. No es correcto decir que hay un 95% de posibilidades de que la media de la población se encuentre dentro del intervalo.

¿Cual es la diferencia? La media poblacional tiene un valor. No sabe qué es (a menos que esté haciendo simulaciones) pero tiene un valor. Si repitiera el experimento, ese valor no cambiaría (y aún así no sabría de qué se trata). Por lo tanto, no es estrictamente correcto preguntar sobre la probabilidad de que la media de la población se encuentre dentro de un cierto rango. Por el contrario, el intervalo de confianza que calcula depende de los datos que recopiló. Si repitiera el experimento, su intervalo de confianza seguramente sería diferente. Entonces está bien preguntar sobre la probabilidad de que el intervalo contenga la media de la población.

Ahora a sus preguntas específicas sobre 5. ¿Por qué está mal ...

  1. ¿Es porque podríamos tener alguna información especial sobre la muestra que acabamos de tomar que nos haría pensar que es probable que sea uno del 5% que no contiene la media real? No, más bien, creo que es porque la media real no es una variable aleatoria, sino que el intervalo de confianza es una función de los datos.
  2. 100(1-α)100(1-α)

Como nota al margen (mencionada en otras respuestas a esta pregunta), un intervalo creíble , un concepto de las estadísticas bayesianas, predice que el verdadero valor del parámetro tiene una probabilidad particular de estar en el intervalo de confianza dados los datos realmente obtenidos. Quizás pueda obtener más información sobre esto en el blog de Gelman.

Muerte mortal14
fuente
55
"El intervalo contiene el valor verdadero" y "el valor verdadero se encuentra dentro del intervalo" significa exactamente lo mismo. Es más útil pensar en términos de lo primero, pero realmente no tiene sentido decir que uno es correcto y el otro incorrecto.
David Richerby