¿Por qué un intervalo de confianza (IC) del 95% no implica una probabilidad del 95% de contener la media?

228

Parece que a través de varias preguntas relacionadas aquí, hay consenso en que la parte "95%" de lo que llamamos un "intervalo de confianza del 95%" se refiere al hecho de que si tuviéramos que replicar exactamente nuestros procedimientos de muestreo y cálculo de CI muchas veces , El 95% de los IC calculados de esta manera contendrían la media de la población. También parece ser el consenso de que esta definición noPermitir a uno concluir, a partir de un único IC del 95%, que existe una probabilidad del 95% de que la media caiga en algún lugar dentro del IC. Sin embargo, no entiendo cómo lo primero no implica lo último en la medida en que, habiendo imaginado muchos IC del 95% de los cuales contienen la media de la población, no debería nuestra incertidumbre (con respecto a si nuestro IC calculado realmente contiene la población media o no) ¿nos obligan a usar la tasa base de los casos imaginados (95%) como nuestra estimación de la probabilidad de que nuestro caso real contenga el IC?

He visto publicaciones que discuten en la línea de "el CI calculado realmente contiene la media de la población o no, por lo que su probabilidad es 1 o 0", pero esto parece implicar una extraña definición de probabilidad que depende en estados desconocidos (es decir, un amigo lanza una moneda justa, oculta el resultado y no se me permite decir que hay un 50% de posibilidades de que sea cara).

Seguramente estoy equivocado, pero no veo dónde mi lógica se ha torcido ...

Mike Lawrence
fuente
44
Por "casualidad", ¿quiere decir "probabilidad" en el sentido técnico frecuentista o en el sentido bayesiano de plausibilidad subjetiva? En el sentido frecuentista, solo los eventos de experimentos aleatorios tienen una probabilidad. Mirar tres números (fijos) dados (media verdadera, límites de CI calculados) para determinar su orden (¿verdadera media contenida en CI?) No es un experimento aleatorio. Esta es también la razón por la que la parte de probabilidad de "el IC calculado realmente contiene la media de la población o no, por lo que su probabilidad es 1 o 0" también es incorrecta. Un modelo de probabilidad frecuentista simplemente no se aplica en ese caso.
caracal
11
Depende de cómo trates la media teórica. Si es una variable aleatoria, puede decir acerca de la probabilidad de que caiga en algún intervalo. Si es constante, no puedes. Esa es la explicación más simple, que cerró este problema personalmente.
mpiktas
2
Por cierto, me encontré con esta charla, de Thaddeus Tarpey: Todos los modelos tienen razón ... la mayoría son inútiles . ¿Discutió la cuestión de la probabilidad de que un intervalo de confianza del 95% contenga (p. 81 y ss.)? μ
chl
3
@Nesp: No creo que haya ningún problema con la declaración "Es probable que sea cero o uno" en referencia a la probabilidad (posterior) de que un IC contenga un parámetro (fijo). (¡Esto ni siquiera se basa realmente en ninguna interpretación frecuentista de probabilidad!). Tampoco se basa en "estados desconocidos". Dicha declaración se refiere precisamente a la situación en la que se entrega un IC basado en una muestra particular. Es un ejercicio matemático simple mostrar que cualquier probabilidad es trivial, es decir, toma valores en . {0,1}
cardenal
3
@MikeLawrence tres años después, ¿está satisfecho con la definición de un intervalo de confianza del 95% como esta: "si tomamos muestras repetidamente de la población y calculamos un intervalo de confianza del 95% después de cada muestra, el 95% de nuestro intervalo de confianza contendría la media ". Al igual que usted en 2012, me cuesta ver cómo esto no implica que un intervalo de confianza del 95% tenga una probabilidad del 95% de contener la media. Me interesaría ver cómo ha progresado su comprensión de un intervalo de confianza desde que hizo esta pregunta.
luciano

Respuestas:

107

Parte del problema es que la definición frecuentista de una probabilidad no permite que se aplique una probabilidad no trivial al resultado de un experimento en particular, sino solo a una población ficticia de experimentos de los cuales este experimento en particular puede considerarse una muestra. La definición de un IC es confusa, ya que es una declaración sobre esta (generalmente) población ficticia de experimentos, en lugar de sobre los datos particulares recopilados en la instancia en cuestión. Entonces, parte del problema es una de las definiciones de probabilidad: la idea del verdadero valor dentro de un intervalo particular con una probabilidad del 95% es inconsistente con un marco frecuentista.

Otro aspecto del problema es que el cálculo de la confianza frecuentista no utiliza toda la información contenida en la muestra particular relevante para delimitar el verdadero valor de la estadística. Mi pregunta "¿Hay ejemplos en los que los intervalos bayesianos creíbles son obviamente inferiores a los intervalos de confianza frecuentistas"analiza un artículo de Edwin Jaynes que tiene algunos ejemplos realmente buenos que realmente resaltan la diferencia entre los intervalos de confianza y los intervalos creíbles. Uno que es particularmente relevante para esta discusión es el Ejemplo 5, que discute la diferencia entre un intervalo creíble y un intervalo de confianza para estimar el parámetro de una distribución exponencial truncada (para un problema en el control de calidad industrial). En el ejemplo que da, ¡hay suficiente información en la muestra para estar seguro de que el verdadero valor del parámetro no se encuentra en ningún lugar en un intervalo de confianza del 90% correctamente construido!

Esto puede parecer impactante para algunos, pero la razón de este resultado es que los intervalos de confianza y los intervalos creíbles son respuestas a dos preguntas diferentes, a partir de dos interpretaciones diferentes de la probabilidad.

El intervalo de confianza es la respuesta a la solicitud: "Dame un intervalo que ponga entre paréntesis el valor verdadero del parámetro en el % de las instancias de un experimento que se repite una gran cantidad de veces". El intervalo creíble es una respuesta a la solicitud: "Dame un intervalo que ponga entre paréntesis el valor verdadero con la probabilidad dada la muestra particular que realmente he observado " . Para poder responder a la última solicitud, primero debemos adoptar cualquiera ( ) un nuevo concepto del proceso de generación de datos o (b) un concepto diferente de la definición de probabilidad misma. p100pp

La razón principal por la que un intervalo de confianza del 95% en particular no implica una probabilidad del 95% de contener la media es porque el intervalo de confianza es una respuesta a una pregunta diferente, por lo que es solo la respuesta correcta cuando la respuesta a las dos preguntas sucede a tener la misma solución numérica

En resumen, los intervalos creíbles y de confianza responden diferentes preguntas desde diferentes perspectivas; ambos son útiles, pero debe elegir el intervalo correcto para la pregunta que realmente desea hacer. Si desea un intervalo que admita una interpretación de una probabilidad del 95% (posterior) de contener el valor verdadero, elija un intervalo creíble (y, con él, la conceptualización de probabilidad correspondiente), no un intervalo de confianza. Lo que no debe hacer es adoptar una definición de probabilidad diferente en la interpretación que la utilizada en el análisis.

¡Gracias a @cardinal por sus refinamientos!

Aquí hay un ejemplo concreto, del excelente libro de David MaKay "Teoría de la información, inferencia y algoritmos de aprendizaje" (página 464):

Deje que el parámetro de interés sea y los datos , un par de puntos y dibujados independientemente de la siguiente distribución:D x 1 x 2θDx1x2

p(x|θ)={1/2x=θ,1/2x=θ+1,0otherwise

Si es , entonces esperaríamos ver los conjuntos de datos , , y todos con igual probabilidad . Considere el intervalo de confianza39 ( 39 , 39 ) ( 39 , 40 ) ( 40 , 39 ) ( 40 , 40 ) 1 / 4θ39(39,39)(39,40)(40,39)(40,40)1/4

[θmin(D),θmax(D)]=[min(x1,x2),max(x1,x2)] .

Claramente, este es un intervalo de confianza válido del 75% porque si vuelve a muestrear los datos, , muchas veces el intervalo de confianza construido de esta manera contendría el valor verdadero el 75% del tiempo.D=(x1,x2)

Ahora considere los datos . En este caso, el intervalo de confianza frecuente del 75% sería . Sin embargo, suponiendo que el modelo del proceso de generación es correcto, podría ser 28 o 29 en este caso, y no tenemos ninguna razón para suponer que 29 es más probable que 28, por lo que la probabilidad posterior es . Entonces, en este caso, el intervalo de confianza frecuentista claramente no es un intervalo creíble del 75%, ya que solo hay un 50% de probabilidad de que contenga el verdadero valor de , dado lo que podemos inferir sobre de esta muestra en particular .[ 29 , 29 ] θ p ( θ = 28 | D ) = p ( θ = 29 | D ) = 1 / 2 theta θD=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2θθ

Sí, este es un ejemplo artificial, pero si los intervalos de confianza y los intervalos creíbles no fueran diferentes, seguirían siendo idénticos en los ejemplos artificiales.

Tenga en cuenta que la diferencia clave es que el intervalo de confianza es una declaración sobre lo que sucedería si repitiera el experimento muchas veces, el intervalo creíble es una declaración sobre lo que se puede inferir de esta muestra en particular.

Dikran Marsupial
fuente
8
El intervalo de confianza es la respuesta a la pregunta "dame un intervalo que ponga entre paréntesis el valor verdadero de la estadística con probabilidad p si el experimento se repite una gran cantidad de veces". El intervalo creíble es una respuesta a la pregunta "dame un intervalo que ponga entre paréntesis el valor verdadero con probabilidad p". En primer lugar, la afirmación sobre una interpretación frecuentista de la probabilidad deja algo que desear. Quizás, el problema radica en el uso de la palabra probabilidad en esa oración. En segundo lugar, considero que la "definición" del intervalo creíble es demasiado simplista ...
cardenal
77
... y un poco engañoso teniendo en cuenta la caracterización que le da a un CI. En una línea relacionada, la oración de cierre tiene el mismo problema: si desea un intervalo que contenga el valor verdadero el 95% del tiempo, elija un intervalo creíble, no un intervalo de confianza. El uso coloquial de "contiene el verdadero valor el 95% del tiempo" es un poco impreciso y deja una impresión equivocada. De hecho, puedo hacer un argumento convincente (creo) que tal redacción está mucho más cerca de ser la definición de un IC.
cardenal
11
Solicitud : Sería útil para el votante a esta respuesta expresar su opinión / razones en los comentarios. Si bien esta pregunta es un poco más probable que la mayoría para conducir a un debate extendido, sigue siendo útil proporcionar retroalimentación constructiva a los que responden; esa es una de las formas más fáciles de ayudar a mejorar el contenido general del sitio. Salud.
cardenal
99
Dikran, sí, estoy de acuerdo. Eso fue parte de lo que estaba tratando de sacar un poco más en las ediciones. Un frecuentista radical (que ciertamente no soy ) podría decirlo provocativamente como: "Un IC es conservador en que diseño el intervalo de antemano de tal manera que no importa qué datos en particular observe, el parámetro será capturado en el intervalo 95% del momento. Un intervalo creíble surge de decir 'Vaya, alguien acaba de arrojar algunos datos en mi regazo. ¿Cuál es la probabilidad de que el intervalo que construyo a partir de esos datos contenga el parámetro verdadero?' "Eso es un poco injusto en el último caso ... .
cardenal
2
Dikran, todos venimos de diferentes orígenes y eso ayuda a enriquecer nuestra comprensión. Con respecto a la probabilidad y los conceptos relacionados, quizás el pensador más brillante con el que tuve el placer de interactuar no tenía una estadística formal o un fondo de probabilidad (matemático); Él era ingeniero.
cardenal
28

En las estadísticas frecuentistas, las probabilidades se refieren a eventos a largo plazo. Simplemente no se aplican a un solo evento una vez hecho. Y la ejecución de un experimento y el cálculo del IC es solo un evento de este tipo.

Querías compararlo con la probabilidad de que una moneda oculta sea cara pero no puedes. Puedes relacionarlo con algo muy cercano. Si su juego tenía una regla en la que debía declarar después de "voltear" las cabezas, entonces la probabilidad de que sea correcto a largo plazo es del 50% y eso es análogo.

Cuando ejecuta su experimento y recopila sus datos, obtiene algo similar al lanzamiento real de la moneda. El proceso del experimento es como el proceso del lanzamiento de la moneda en el que generaμμo no solo quiere que la moneda sea cara o no. Una vez que lanza la moneda, lo vea o no, no hay probabilidad de que sea cara, ya sea cara o no. Ahora supongamos que llamas cabezas. Eso es lo que es calcular el CI. Porque nunca puedes revelar la moneda (tu analogía con un experimento se desvanecería). O tienes razón o estás equivocado, eso es todo. ¿Su estado actual tiene alguna relación con la probabilidad de que salga cara en la próxima vuelta, o que podría haber predicho lo que es? No. El proceso por el cual se produce la cabeza tiene una probabilidad de 0.5 de producirlos, pero no significa que una cabeza que ya existe tenga una probabilidad de ser de 0.5. Una vez que calcula su CI, no hay probabilidad de que captureμ, lo hace o no, ya has lanzado la moneda.

De acuerdo, creo que ya he torturado lo suficiente. El punto crítico es realmente que su analogía está equivocada. Nunca puedes revelar la moneda; solo puede llamar cara o cruz basándose en suposiciones sobre monedas (experimentos). Es posible que desee hacer una apuesta después de que sus cabezas o colas sean correctas, pero nunca podrá cobrar por ello. Además, es un componente crítico del procedimiento de CI que indique que el valor de importación está en el intervalo. Si no lo tiene, entonces no tiene un IC (o al menos no uno en el% indicado).

Probablemente lo que confunde a CI es su nombre. Es un rango de valores que contienen o no . Creemos que contienen pero la probabilidad de que eso no sea el mismo que el proceso que se llevó a desarrollarlo. La parte del 95% del nombre del IC del 95% es solo sobre el proceso. Usted puede calcular un rango que cree posteriormente contiene en algún nivel de probabilidad, sino que es un cálculo diferente y no un CI.μ μμμμ

Es mejor pensar en el nombre IC del 95% como una designación de un tipo de medición de un rango de valores que crees que contienen y separan el 95% de esa plausibilidad. Podríamos llamarlo Jennifer CI, mientras que el 99% CI es Wendy CI. Eso podría ser realmente mejor. Luego, luego podemos decir que creemos que es probable que esté en el rango de valores y que nadie se quede atascado diciendo que existe una probabilidad de Wendy de que hayamos capturado . Si desea una designación diferente, creo que probablemente también debería sentirse libre de deshacerse de la parte de "confianza" de CI (pero es un intervalo).μ μμμμ

John
fuente
Para ser lo suficientemente justo, esta respuesta parece estar bien, pero me encantaría ver una descripción formal (matemática). Con formal, quiero decir convertirlo en eventos. Explicaré mi punto: recuerdo haber estado muy confundido con los valores de al principio. En alguna parte leí que "lo que los valores de realmente calculan son la probabilidad de los datos dado que la hipótesis nula, , es verdadera". Cuando relacioné esto con el teorema de Bayes, todo tenía tanto sentido que ahora puedo explicárselo a todos (es decir, que calcula ). Sin embargo, (irónicamente) no tengo tanta confianza ...p H 0 p ( D | H 0 )ppH0p(D|H0)
Néstor
μ^P(L1(μ^)<μ<L2(mu^)|D)μP(L1<X¯μ<L2)=ααp(H0|D)p(D|H0)
A veces, poder eliminar comentarios tiene sus inconvenientes. ¡No pude seguir el ritmo de los rápidos cambios, en este caso!
cardenal
1
μ
1
@vonjd, no veo lo que no tiene sentido al respecto. Es obvio que su oponente tiene un color o no. Si es lo primero, la probabilidad es (trivialmente) 1, y si es lo último 0. En consecuencia, no se puede decir con sensatez que la probabilidad es .198. Eso tiene mucho sentido. Antes de repartir la mano, es razonable hablar sobre la probabilidad de recibir un color. Del mismo modo, antes de robar una carta, es razonable hablar sobre la probabilidad de obtener el palo que necesita. Después de tener la tarjeta, es simplemente el palo que sea.
Gung
22

Las ideas formales y explícitas sobre argumentos, inferencia y lógica se originaron, dentro de la tradición occidental, con Aristóteles. Aristóteles escribió sobre estos temas en varios trabajos diferentes (incluido uno llamado Temas ;-)). Sin embargo, el principio único más básico es la Ley de no contradicción , que se puede encontrar en varios lugares, incluida la metafísica.libro IV, capítulos 3 y 4. Una formulación típica es: "... es imposible que algo al mismo tiempo sea y no sea [en el mismo sentido]" (1006 a 1). Su importancia se afirma un poco antes, "... este es naturalmente el punto de partida incluso para todos los demás axiomas" (1005 b 30). Perdóname por depilarme filosóficamente, pero esta pregunta por su naturaleza tiene un contenido filosófico que no se puede dejar de lado simplemente por conveniencia.

Considere este experimento mental: Alex lanza una moneda, la atrapa y la gira sobre su antebrazo con la mano cubriendo el lado hacia arriba. Bob estaba parado en la posición correcta; vio brevemente la moneda en la mano de Alex, y así puede deducir qué lado está mirando hacia arriba ahora. Sin embargo, Carlos no vio la moneda, no estaba en el lugar correcto. En este punto, Alex les pregunta cuál es la probabilidad de que la moneda muestre caras. Carlos sugiere que la probabilidad es .5, ya que esa es la frecuencia a largo plazo de las cabezas. Bob no está de acuerdo, afirma con confianza que la probabilidad no es más que exactamente 0 .

Ahora, ¿quién tiene razón? Es posible, por supuesto, que Bob haya visto mal y sea incorrecto (supongamos que no vio mal). Sin embargo, no puede sostener que ambos son correctos y se apegan a la ley de no contradicción. (Supongo que si no crees en la ley de no contradicción, podrías pensar que ambos tienen razón, o alguna otra formulación similar.) Ahora imagina un caso similar, pero sin Bob presente, ¿podría ser la sugerencia de Carlos? más bien (¿eh?) sin Bob alrededor, ya que nadie vio la moneda? La aplicación de la ley de no contradicción no es tan clara en este caso, pero creo que es obvio que las partes de la situación que parecen ser importantes se mantienen constantes de la primera a la segunda. Ha habido muchos intentos de definir la probabilidad, y en el futuro todavía puede haber muchos más, pero una definición de probabilidad en función de quién está parado y dónde está posicionado tiene poco atractivo. En cualquier caso (adivinando por el uso de la frase "intervalo de confianza "), estamos trabajando dentro del enfoque Frequentista, y si alguien sabe que el verdadero estado de la moneda es irrelevante. No es una variable aleatoria: es un valor realizado y muestra caras o colas .

pp=.5p=.95p

Es importante para mí señalar en este punto que todo esto es el caso dentro de una concepción frecuente de probabilidad. La perspectiva bayesiana no viola la ley de no contradicción, simplemente parte de diferentes suposiciones metafísicas sobre la naturaleza de la realidad (más específicamente sobre la probabilidad). Otros en CV están mucho mejor versados ​​en la perspectiva bayesiana que yo, y tal vez puedan explicar por qué los supuestos detrás de su pregunta no se aplican dentro del enfoque bayesiano, y que de hecho, puede haber una probabilidad del 95% de la media mentir dentro de un 95% creíbleintervalo, bajo ciertas condiciones que incluyen (entre otras) que el uso previo fue correcto (ver el comentario de @DikranMarsupial a continuación). Sin embargo, creo que todos estarían de acuerdo, que una vez que declare que está trabajando dentro del enfoque Frequentista, no puede ser el caso de que la probabilidad de que la verdadera media se encuentre dentro de un IC del 95% en particular es de .95.

gung
fuente
55
Según el enfoque bayesiano, no es cierto que haya una probabilidad del 95% de que el valor verdadero se encuentre en un intervalo creíble del 95%. Sería más correcto decir que dada una distribución previa particular para el valor de la estadística (que representa nuestro estado inicial de conocimiento) luego de haber observado los datos, tenemos una distribución posterior que representa nuestro estado de conocimiento actualizado, lo que nos da un intervalo donde estamos 95% seguros de que el verdadero valor reside. Esto solo será exacto si nuestro previo es exacto (y otros supuestos como la forma de la probabilidad).
Dikran Marsupial
@DikranMarsupial, gracias por la nota. Eso es un poco bocado. Edité mi respuesta para que fuera más coherente con su sugerencia, pero no la copié in toto . Avíseme si es necesario realizar más modificaciones.
Gung
Esencialmente, el enfoque bayesiano se interpreta mejor como una declaración de su estado de conocimiento con respecto al parámetro de interés (vea cardinal, estoy aprendiendo; o), pero no garantiza que ese estado de conocimiento sea correcto a menos que todos los supuestos sean correctos . Disfruté la discusión filosófica, tendré que recordar la ley de no contradicción para la próxima vez que discuta la lógica difusa; o)
Dikran Marsupial
12

¿Por qué un IC del 95% no implica una probabilidad del 95% de contener la media?

Hay muchos problemas que deben aclararse en esta pregunta y en la mayoría de las respuestas dadas. Me limitaré solo a dos de ellos.

a. ¿Qué significa una población? ¿Existe una verdadera población media?

El concepto de media poblacional depende del modelo. Como todos los modelos están equivocados, pero algunos son útiles, esta media poblacional es una ficción que se define solo para proporcionar interpretaciones útiles. La ficción comienza con un modelo de probabilidad.

(X,F,P),
XFXPF
μ=xXxP(X=x),
PXxXP(X=x)

PPPPM

(X,F,M).
ΘRpp<M{Pθ: θΘ}

PθM

μθ=xXxPθ(X=x).
{μθ: θΘ}MMM

MΘ

si. ¿Cuál es la definición y el propósito de un intervalo de confianza?

1αCαθΘ

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
P θ ( C α ( X ) μ θ ) C α ( X ) μ θ P θ 1 - αPθ(Cα(X)=)=0Pθ(Cα(X)μθ)Cα(X)μθPθ1α

Observación: Los lectores deben notar que no es necesario hacer suposiciones sobre el estado de la realidad, la región de confianza se define para un modelo estadístico bien definido sin hacer referencia a ningún medio "verdadero". Incluso si la medida de probabilidad "verdadera" no existe o no está en , la definición de la región de confianza funcionará, ya que los supuestos se refieren al modelado estadístico más que a los estados de la realidad.M

Por un lado, antes de observar los datos, es un conjunto aleatorio (o intervalo aleatorio) y la probabilidad de que " contenga la media " es, al menos, para todos . Esta es una característica muy deseable para el paradigma frecuentista.C α ( X ) μ θ ( 1 - α ) θ ΘCα(X)Cα(X)μθ(1α)θΘ

Por otro lado, después de observar los datos , es solo un conjunto fijo y la probabilidad de que " contenga la media " debería estar en {0,1} para todos .C α ( x ) C α ( x ) μ θ θ ΘxCα(x)Cα(x)μθθΘ

Es decir, después de observar los datos , ya no podemos emplear el razonamiento probabilístico. Hasta donde sé, no existe una teoría para tratar los conjuntos de confianza para una muestra observada (estoy trabajando en ello y obtengo algunos buenos resultados). Por un tiempo, el frecuentista debe creer que el conjunto (o intervalo) observado es uno de los conjuntos que contiene para todos .C α ( x ) ( 1 - α ) 100 % μ θ θ ΘxCα(x)(1α)100%μθθΘ

PD: invito cualquier comentario, crítica, crítica o incluso objeción a mi publicación. Discutamos en profundidad. Como no soy hablante nativo de inglés, mi publicación seguramente contiene errores tipográficos y gramaticales.

Referencia:

Schervish, M. (1995), Theory of Statistics, Second ed, Springer.

Alexandre Patriota
fuente
¿Alguien quiere discutirlo?
Alexandre Patriota
44
Las discusiones pueden ocurrir en el chat, pero son inapropiadas en nuestro sitio principal. Consulte nuestro centro de ayuda para obtener más información sobre cómo funciona esto. Mientras tanto, estoy desconcertado por el formato de su publicación: casi todo está formateado como una cita. ¿Has extraído este material de alguna fuente publicada o es tuyo, recientemente escrito para esta respuesta? Si es lo último, ¡elimine las citas!
whuber
2
(+1) Gracias por una sinopsis impresionantemente clara. ¡Bienvenido a nuestro sitio!
whuber
11

Me sorprende que nadie haya mencionado el ejemplo de Berger de un intervalo de confianza del 75% esencialmente inútil descrito en el segundo capítulo de "El principio de probabilidad". Los detalles se pueden encontrar en el texto original (que está disponible de forma gratuita en Project Euclid ): lo esencial del ejemplo es que describe, sin ambigüedades, una situación en la que conoce con absoluta certeza el valor de un parámetro aparentemente desconocido después de observando datos, pero usted afirmaría que solo tiene un 75% de confianza en que su intervalo contiene el valor verdadero. Trabajar en los detalles de ese ejemplo fue lo que me permitió entender toda la lógica de construir intervalos de confianza.

johnmyleswhite
fuente
8
En un entorno frecuentista, uno no "afirmaría que solo tiene un 75% de confianza de que su intervalo contiene el valor verdadero" en referencia a un CI, en primer lugar. Aquí radica el quid de la cuestión. :)
cardenal
1
¿puede proporcionar un enlace directo / referencia de página a ese ejemplo? Busqué en el capítulo pero no pude identificar el ejemplo correcto.
Ronald
@Ronald: Es el primero en la primera página del Capítulo 2. Un enlace directo sería una buena adición.
cardenal
1
Enlace según lo solicitado. Ah, sí. En este ejemplo, parece claro: si hacemos un experimento, hay un 75% de probabilidades de que el intervalo de confianza resultante será contener la media. Una vez que hemos realizado el experimento y sabemos cómo se desarrolló, esa probabilidad puede ser diferente, dependiendo de la distribución de la muestra resultante.
Ronald
7

No sé si esto debería hacerse como una nueva pregunta, pero está abordando la misma pregunta planteada anteriormente al proponer un experimento mental.

En primer lugar, voy a suponer que si selecciono una carta de juego al azar de un mazo estándar, la probabilidad de que haya seleccionado un palo (sin mirarlo) es 13/52 = 25%.

Y en segundo lugar, se ha dicho muchas veces que un intervalo de confianza del 95% debe interpretarse en términos de repetir un experimento varias veces y el intervalo calculado contendrá la media real el 95% del tiempo; creo que esto fue demostrado razonablemente convincentemente por James Waters simulación. La mayoría de las personas parecen aceptar esta interpretación de un IC del 95%.

Ahora, para el experimento mental. Supongamos que tenemos una variable normalmente distribuida en una gran población, tal vez la altura de hombres o mujeres adultos. Tengo un asistente dispuesto e incansable a quien le encargo realizar múltiples procesos de muestreo de un tamaño de muestra dado de la población y calcular la media de la muestra y el intervalo de confianza del 95% para cada muestra. Mi asistente está muy interesado y logra medir todas las muestras posibles de la población. Luego, para cada muestra, mi asistente registra el intervalo de confianza resultante en verde (si el IC contiene la media verdadera) o rojo (si el IC no contiene la media verdadera). Desafortunadamente, mi asistente no me mostrará los resultados de sus experimentos. Necesito obtener información sobre la altura de los adultos en la población, pero solo tengo tiempo, recursos y paciencia para hacer el experimento una vez. Hago una sola muestra aleatoria (del mismo tamaño de muestra utilizada por mi asistente) y calculo el intervalo de confianza (usando la misma ecuación).

No tengo forma de ver los resultados de mi asistente. Entonces, ¿cuál es la probabilidad de que la muestra aleatoria que he seleccionado arroje un IC verde (es decir, el intervalo contiene la media real)?

En mi opinión, esto es lo mismo que la situación de la baraja de cartas descrita anteriormente y puede interpretarse que es un 95% de probabilidad de que el intervalo calculado contenga la media verdadera (es decir, es verde). Y, sin embargo, el consenso parece ser que un intervalo de confianza del 95% NO puede interpretarse ya que existe una probabilidad del 95% de que el intervalo contenga la media real. ¿Por qué (y dónde) se desmorona mi razonamiento en el experimento de pensamiento anterior?

usuario1718097
fuente
+1 Esta es una descripción notablemente clara de la progresión conceptual de una población normal a una situación de muestreo binario. ¡Gracias por compartirlo con nosotros y bienvenido a nuestro sitio!
whuber
Por favor publique esto como una pregunta.
John
Gracias por el comentario, John. Ahora he publicado como una pregunta separada ( stats.stackexchange.com/questions/301478/… ).
user1718097
4

Si bien ha habido una discusión extensa en las numerosas respuestas excelentes, quiero agregar una perspectiva más simple. (aunque se ha aludido en otras respuestas, pero no explícitamente). Para algunos parámetros , y dada una muestra , un intervalo de confianza de es una declaración de probabilidad de la formaθ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

Si consideramos a ser una constante, entonces la afirmación anterior es sobre las variables aleatorias y , o más exactamente, se trata de el intervalo aleatorio .g ( X 1 , X 2 , , X n ) f ( X 1 , X 2 , , X n ) ( g ( X 1 , X 2 , , X n ) , f ( X 1 , X 2 , , X n ) )θg(X1,X2,,Xn)f(X1,X2,,Xn)(g(X1,X2,,Xn),f(X1,X2,,Xn))

Por lo tanto, en lugar de proporcionar información sobre la probabilidad de que el parámetro esté contenido en el intervalo, proporciona información sobre la probabilidad del intervalo que contiene el parámetro, ya que el intervalo se realiza a partir de variables aleatorias.

Comp_Warrior
fuente
3

Para fines prácticos, no está más equivocado al apostar que su IC del 95% incluyó la media real con una probabilidad de 95: 5, que apostar al lanzamiento de la moneda de su amigo con una probabilidad de 50:50.

Si tu amigo ya lanzó la moneda y crees que hay un 50% de probabilidad de que sea cara, entonces solo estás usando una definición diferente de la palabra probabilidad. Como han dicho otros, para los frecuentistas no puede asignar una probabilidad a un evento que haya ocurrido, sino que puede describir la probabilidad de que ocurra un evento en el futuro utilizando un proceso dado.

Desde otro blog: El frecuentador dirá: "Un evento en particular no puede tener una probabilidad. La moneda muestra cara o cruz, y a menos que lo muestres, simplemente no puedo decir cuál es el hecho. Solo si repitieras el lanzamiento muchas, muchas veces, cualquiera que varíe las condiciones iniciales de los lanzamientos con la suficiente fuerza, esperaría que la frecuencia relativa de cabezas en todos los lanzamientos se acerque a 0.5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability

nigelhenry
fuente
2
Ese blog suena como un argumento de hombre de paja. Parece confundir una filosofía de probabilidad con algún tipo de limitación inherente (inexistente) en la capacidad de crear modelos de probabilidad. No reconozco ninguna forma de procedimientos o metodología estadística clásica en esa caracterización. Sin embargo, creo que su conclusión final es buena, pero el lenguaje que utiliza, al no dejar en claro que la apuesta concierne al IC y no a la media, corre el riesgo de crear una forma de confusión que esta pregunta pretende abordar.
whuber
1
Una forma en que veo que se usa con frecuencia es enfatizar que el IC es el resultado de un procedimiento. Lo que me gusta de su declaración final es que se puede relanzar fácilmente de tal forma, como en "No está más equivocado al apostar a una probabilidad de 95: 5 de que su intervalo de confianza del 95% ha cubierto la media real, de lo que está apostar por el lanzamiento de la moneda de tu amigo con una probabilidad de 50:50 ".
whuber
OK, lo cambié.
nigelhenry
2

Digamos que el IC que calculó a partir del conjunto particular de datos que tiene es uno de los 5% de posibles IC que no contiene la media. ¿Qué tan cerca está de ser el intervalo de 95% creíble que te gustaría imaginar que sea? (Es decir, ¿qué tan cerca está de contener la media con un 95% de probabilidad?) No tiene la seguridad de que esté cerca en absoluto. De hecho, su IC puede no superponerse con uno solo del 95% de los IC del 95% que realmente contienen la media. Sin mencionar que no contiene la media en sí, lo que también sugiere que no es un intervalo de 95% creíble.

Tal vez desee ignorar esto y asumir de manera optimista que su IC es uno del 95% que contiene la media. Bien, ¿qué sabemos sobre su IC, dado que está en el 95%? Que contiene la media, pero tal vez solo una salida extrema, excluyendo todo lo demás al otro lado de la media. No es probable que contenga el 95% de la distribución.

De cualquier manera, no hay garantía, tal vez ni siquiera una esperanza razonable de que su IC del 95% sea un intervalo creíble del 95%.

Wayne
fuente
Tengo curiosidad sobre el primer párrafo. Tal vez lo estoy interpretando mal, pero el argumento parece estar un poco en desacuerdo con el hecho de que hay múltiples ejemplos en los que los IC y los intervalos creíbles coinciden para todos los posibles conjuntos de observaciones. ¿Qué me he perdido?
cardenal
@ cardinal: puedo estar equivocado. Estaba hablando del caso general, pero supongo que en el caso en que CI e intervalo creíble son iguales, existen otras restricciones, como la normalidad, que evitan que los IC estén demasiado lejos.
Wayne
Me enfoqué más fuertemente en la última oración del párrafo; El ejemplo de los intervalos coincidentes estaba destinado a resaltar un punto. Podrías considerar si realmente crees o no esa oración. :)
cardenal
¿Quiere decir que un IC del 95% no implica que el 5% no incluya la media? Debo decir "por definición, ¿no es necesario que contenga el medio mismo"? ¿O me estoy perdiendo aún más?
Wayne
Wayne, ¿cómo el hecho de que un intervalo particular no contenga la media impide que sea un intervalo creíble válido? ¿Estoy leyendo mal este comentario?
cardenal
2

(es decir, un amigo lanza una moneda justa, oculta el resultado y no puedo decir que hay un 50% de posibilidades de que sea cara)

Si solo está adivinando los lanzamientos de monedas de sus amigos con 50% de cara / cruz, entonces no lo está haciendo bien.

  • Debes tratar de mirar rápidamente la moneda después / cuando cae y antes de que el resultado esté oculto.
  • También debe intentar crear de antemano una estimación a priori de la equidad de la moneda.

Seguramente la credibilidad de su suposición sobre el lanzamiento de la moneda dependerá de estas condiciones y no siempre será el mismo 50% (a veces su método de 'trampa' puede funcionar mejor).

Su suposición general podría ser, si hace trampa, x> 50% del tiempo correcto, pero eso no significa necesariamente que la probabilidad de cada lanzamiento en particular fuera constantemente x% cara. Por lo tanto, sería un poco extraño proyectar su probabilidad general sobre la probabilidad de un lanzamiento específico. Es un "tipo de probabilidad" diferente.


Se trata un poco de hasta qué nivel o profundidad especifica / define 'probabilidad' .

  • La confianza es independiente de la 'probabilidad específica en el experimento / volteo particular' e independiente de 'las probabilidades a priori' .

  • La confianza se trata del conjunto de experimentos . Está construido de tal manera que no es necesario conocer las probabilidades o distribuciones a priori en la población.

  • La confianza se refiere a la "tasa de falla" general de la estimación, pero para casos específicos uno podría especificar variaciones más precisas en la probabilidad .

    ( Estas variaciones en la probabilidad al menos existen implícitamente , en teoría, y no necesitamos saberlas para que existan. Pero podemos expresar explícitamente estas probabilidades utilizando un enfoque bayesiano).


Ejemplo 1:

Digamos que está haciendo una prueba para una enfermedad muy rara. Realiza una prueba que podría verse como un ensayo de Bernoulli (positivo o negativo) que tiene un alto para un resultado positivo cuando la persona está enferma o bajo cuando la persona no está enferma.p=0.99p=0.01

Ahora, esto no se hace normalmente (en la práctica clínica) para estimar un intervalo de CI para pero podría hacerlo (como ejemplo) si lo desea. Si la prueba es positiva, entonces estima y si la prueba es negativa, entonces estima .0.05 p 1 0 p 0.95p0.05p10p0.95

Si tiene 1% de la población enferma, en promedio obtendrá 1.98% de la prueba positiva (1% del 99% de las personas sanas dan positivo y 99% del 1% de las personas enfermas dan positivo). Esto hace que su intervalo de IC del 95% (condicional) cuando encuentre una prueba positiva , solo sea correcto el 50% del tiempo.

Por otro lado, cuando se encuentre con una prueba negativa, será correcto más del 95% del tiempo, por lo que, en general, su intervalo de IC es correcto (al menos) el 95% del tiempo, pero caso por caso (para casos específicos ) realmente no se puede decir que la probabilidad de dentro del intervalo es del 95%. Es probable que haya alguna variación.p

Ejemplo 2

Digamos que hay personas que realizan 300 preguntas de CI. Desde el ingenuo intervalo de confianza y el punto de vista frecuentista, se podría suponer que cada persona tiene una distribución teórica personal para el rendimiento de la prueba, y en función del rendimiento de la prueba observada, podría crear una estimación para un intervalo tal que en el 95% de los casos tendrá derecho a contener adecuadamente el en el intervalo.N ( μ i , σ 2 i ) μ iiN(μi,σi2)μi

Esto ignora que existe un efecto de regresión a la media y que la probabilidad a priori para el IQ cualquier persona se distribuye como . Luego, en casos extremos, bajo o alto, el resultado de los resultados, la probabilidad del coeficiente intelectual de una persona en los intervalos de confianza del 95% basados ​​en las mediciones / pruebas será inferior al 95%. N ( 100 , 15 )μiN(100,15)

(lo contrario es cierto para las personas que tienen resultados cercanos a 100, su coeficiente intelectual probablemente sea más probable que 95% dentro del 95% -CI, y esto debería compensar los errores que cometió en los extremos, de modo que termine teniendo la razón en el 95% de los casos)

Martijn Weterings
fuente
2

Primero, demos una definición del intervalo de confianza o, en espacios de dimensión mayor que uno, la región de confianza. La definición es una versión concisa de la dada por Jerzy Neyman en su artículo de 1937 a la Royal Society.

pspA(p,α)prob(sA(p,α)|p=p,I)=ααIps=sC(s,α)={p|sA(p,α)}

α

p

[pC(s,α)]prob(s=s|p=p,I)ds=[sA(p,α)]prob(s=s|p=p,I)ds=α

[pC(s,α)]pαppp

s=s

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=s|p=p,I)prob(p=p|I)dpprob(s=s|p=p,I)prob(p=p|I)dp

αIA(p,α)spp

prob(pC(s,α)|s=s,I)=C(s,α)prob(s=p|p=s,I)dpprob(s=p|p=s,I)dp=prob(sC(s,α)|p=s,I)=prob(sA(s,α)|p=s,I)

sA(s,α)sA(s,α)

prob(pC(s,α)|s=s,I)=prob(sA(s,α)|p=s,I)=α

El ejemplo de libro de texto de estimar una media poblacional con un intervalo de confianza estándar construido sobre una estadística normal es un caso especial de los supuestos anteriores. Por lo tanto el intervalo de confianza estándar 95% hace contener la media con una probabilidad de 0,95; pero esta correspondencia generalmente no es válida.

CarbonFlambe
fuente
-1

Aquí hay algunas respuestas interesantes, pero pensé que agregaría una pequeña demostración práctica con R. Recientemente utilizamos este código en un curso de estadísticas para resaltar cómo funcionan los intervalos de confianza. Esto es lo que hace el código:

1 - Muestra de una distribución conocida (n = 1000)

2 - Calcula el IC del 95% para la media de cada muestra

3 - Pregunta si el IC de cada muestra incluye o no la media real.

4 - Informa en la consola la fracción de CI que incluía la media real.

Acabo de ejecutar el script varias veces y en realidad no es demasiado raro encontrar que menos del 94% de los IC contenían la media real. Al menos para mí, esto ayuda a disipar la idea de que un intervalo de confianza tiene un 95% de probabilidad de contener el parámetro verdadero.

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

¡Espero que esto ayude!

James Waters
fuente
2
Disculpas por las críticas, pero he tenido que rechazar (temporalmente) esta respuesta. Creo que es un malentendido el significado de un intervalo de confianza y sinceramente espero que este no haya sido el argumento utilizado en su clase. Las simulaciones se reducen a un experimento de muestreo binomial (bastante elaborado).
cardenal
55
1α=0.95
44
"Menos del 94%" en una muestra de 1000 IC seguramente no es evidencia significativa en contra de la idea de que el 95% de los IC contienen la media. De hecho, esperaría que el 95% de los IC contuvieran la media, en este caso.
Ronald
3
@Ronald: Sí, este fue exactamente mi punto con los comentarios, pero lo has dicho mucho más simple y concisamente. Gracias. Como se indicó en uno de los comentarios, se verán 940 éxitos o menos aproximadamente el 8,7% del tiempo y eso es cierto para cualquier IC del 95% exactamente que se construya en el transcurso de 1000 experimentos. :)
cardenal
2
@JamesWaters: Gracias por tomarse el tiempo de responder. El código está bien, pero no veo cómo "demuestra instancias en las que es incorrecto". ¿Puedes explicar esa intención? Todavía sospecho que puede haber un malentendido fundamental aquí. Parece entender lo que es CI y cómo interpretarlo correctamente, pero el experimento de simulación no responde a la pregunta a la que parece estar afirmando que responde. Creo que esta respuesta tiene potencial, así que me gustaría ver que termine con una buena edición para aclarar el punto que está tratando de transmitir. Salud. :)
cardenal