Esta es una pregunta puramente hipotética. Una afirmación muy común es que nunca es cierto, es solo una cuestión de tamaño de muestra.
Supongamos que, de verdad, no hay absolutamente ninguna diferencia medible entre dos medias ( ) extraídas de la población normalmente distribuida (tanto para como para estimado ). Asumimos por grupo y usamos -test. Esto significaría que el valor es lo que indica que no hay absolutamente ninguna discrepancia de . Esto indicaría que la estadística de prueba es . La diferencia media entre los grupos sería . ¿Cuáles serían los límites del intervalo de confianza del para la diferencia de medias en este caso? Serían ellos ?
El punto principal de mi pregunta fue: ¿cuándo podemos realmente decir que es verdadero, es decir, en este caso? ¿O cuando en un marco frecuentista podemos decir verdaderamente "no hay diferencia" al comparar dos medios?
fuente
Respuestas:
Un intervalo de confianza para una prueba t tiene la forma , donde y son las medias de muestra, es el valor crítico de en el dado , y es el error estándar de la diferencia de medias. Si , entonces . Entonces la fórmula es solo , y los límites son solo { ,x¯1−x¯2±tcrit,αsx¯1−x¯2 x¯1 x¯2 tcrit,α t α sx¯1−x¯2 p=1.0 x¯1−x¯2=0 ±tcrit,αsx¯1−x¯2 −tcrit,αsx¯1−x¯2 tcrit,αsx¯1−x¯2 }.
No estoy seguro de por qué pensarías que los límites seríanEl valor crítico no es cero y el error estándar de la diferencia de medias no es cero.{0,0}. t
fuente
Siendo súper vago, usando R para resolver el problema numéricamente en lugar de hacer los cálculos a mano:
Defina una función que dará valores normalmente distribuidos con una media de (¡casi!) Exactamente cero y una SD de exactamente 1:
Ejecute una prueba t:
Las medias no son exactamente cero debido a la imprecisión de coma flotante.
Más directamente, los IC son±
sqrt(1/8)*qt(0.975,df=30)
; la varianza de cada media es 1/16, por lo que la varianza agrupada es 1/8.fuente
El CI puede tener cualquier límite, pero está centrado exactamente alrededor de cero
Para una prueba T de dos muestras (prueba de una diferencia en las medias de dos poblaciones), un valor p de exactamente uno corresponde al caso donde las medias de muestra observadas son exactamente iguales. † (Las variaciones de muestra pueden tomar cualquier valor). Para ver esto, tenga en cuenta que la función de valor p para la prueba es:†
Por lo tanto, establecer produce:x¯=y¯
Ahora, suponga que forma el intervalo de confianza estándar (aproximado) utilizando la aproximación Welch-Satterwaite. En este caso, suponiendo que (para dar un valor p exacto de uno) da el intervalo de confianza:x¯=y¯
donde los grados de libertad están determinados por la aproximación de Welch-Satterwaite. Dependiendo de las variaciones de muestra observadas en el problema, el intervalo de confianza puede ser cualquier intervalo finito centrado alrededor de cero. Es decir, el intervalo de confianza puede tener cualquier límite, siempre que esté centrado exactamente alrededor de cero.DF
fuente
Es difícil tener una discusión filosófica convincente sobre cosas que tienen 0 probabilidades de suceder. Por lo tanto, le mostraré algunos ejemplos relacionados con su pregunta.
Si tiene dos enormes muestras independientes de la misma distribución, ambas muestras seguirán teniendo cierta variabilidad, el estadístico t de 2 muestras agrupadas estará cerca, pero no exactamente 0, el valor P se distribuirá como y el intervalo de confianza del 95% será muy corto y centrado muy cerca deUnif(0,1), 0.
Un ejemplo de uno de esos conjuntos de datos y prueba t:
Aquí se resumen los resultados de 10,000 de tales situaciones. Primero, la distribución de los valores de P.
A continuación, la estadística de prueba:
Y así sucesivamente para el ancho del CI.
Es casi imposible obtener un valor P de la unidad haciendo una prueba exacta con datos continuos, donde se cumplen los supuestos. Tanto es así, que un experto en estadística reflexionará sobre lo que podría haber salido mal al ver un valor P de 1.
Por ejemplo, puede darle al software dos muestras grandes idénticas . La programación continuará como si fueran dos muestras independientes y arrojen resultados extraños. Pero incluso entonces el CI no será de 0 de ancho.
fuente
La respuesta directa (+1 a Noah) explicará que el intervalo de confianza para la diferencia de medias aún puede ser de longitud distinta de cero porque depende de la variación observada en la muestra de una manera diferente que el valor p.
Sin embargo, aún puede preguntarse por qué es así. Como no es tan extraño imaginar que un valor p alto también significa un pequeño intervalo de confianza. Después de todo, ambos corresponden a algo que está cerca de una confirmación de la hipótesis nula. Entonces, ¿por qué este pensamiento no es correcto?
Un valor p alto no es lo mismo que un pequeño intervalo de confianza.
El valor p es un indicador de cuán extrema es una observación particular (extrema dada alguna hipótesis) al expresar cuán probable es observar una desviación dada. Es una expresión del tamaño del efecto observado en relación con la precisión del experimento (un gran tamaño del efecto observado podría no significar mucho cuando el experimento es tan 'inexacto' que estas observaciones no son extremas desde un punto de vista estadístico / probabilístico ) Cuando se observa un valor de p de 1, entonces este (sólo) medios que observado efecto cero porque la probabilidad de observar tales resultado cero o más grande es igual a 1 (pero esto no es la misma que la que hay es efecto cero).
Nota al margen: ¿Por qué los valores p? El valor p expresa el tamaño real observado del efecto en relación con los tamaños esperados del efecto (probabilidades). Esto es relevante porque los experimentos podrían, por diseño, generar observaciones de algún tamaño de efecto relevante por pura casualidad debido a fluctuaciones comunes en los datos / conservaciones. Exigir que una observación / experimento tenga un valor p bajo significa que el experimento tiene una alta precisión, es decir: el tamaño del efecto observado es menos frecuente / probable debido a la posibilidad / fluctuaciones (y puede ser debido a un efecto real) .
Nota al margen: para las variables continuas, este valor de p igual a 1 ocurre casi nunca porque es un evento que tiene una medida cero (por ejemplo, para una variable distribuida normal tiene ). Pero para una variable discreta o variable continua discretizada puede ser el caso (al menos la probabilidad es distinta de cero).X∼N(0,1) P(X=0)=0
El intervalo de confianza podría verse como el rango de valores para los cuales una prueba de hipótesis de nivel tendría éxito (para los cuales el valor p está por encima de ).α α
Debe tener en cuenta que un valor p alto no es (necesariamente) una prueba / soporte / lo que sea para la hipótesis nula. El alto valor p solo significa que la observación no es notable / extrema para una hipótesis nula dada, pero este podría ser el caso de la hipótesis alternativa (es decir, el resultado está de acuerdo con ambas hipótesis efecto sí / no). Esto ocurre típicamente cuando los datos no transportan mucha información (por ejemplo, alto ruido o muestra pequeña).
Ejemplo: Imagine que tiene una bolsa de monedas para las que tiene monedas justas e injustas y desea clasificar una moneda determinada volteándola 20 veces. (digamos que la moneda es una variable de Bernoulli con para monedas justas y para monedas injustas. En este caso, cuando observe 10 caras y 10 colas, entonces podría decir que p- el valor es igual a 1, pero supongo que es obvio que una moneda injusta podría crear este resultado y no deberíamos descartar la posibilidad de que la moneda sea injusta.p≈0.5 p∼U(0,1)
fuente
No, porque "la ausencia de evidencia no es evidencia de ausencia". La probabilidad puede pensarse como una extensión de la lógica , con incertidumbres añadidas, así que imagine por un momento que, en lugar de números reales en el intervalo de la unidad, la prueba de hipótesis devolvería solo los valores binarios: 0 (falso) o 1 (verdadero). En tal caso, se aplican las reglas básicas de la lógica, como en el siguiente ejemplo :
fuente
Nada le impide utilizar fórmulas t o Gauss estándar para calcular el intervalo de confianza: toda la información necesaria se proporciona en su pregunta. p = 1 no significa que haya algo malo en eso. Tenga en cuenta que p = 1 no significa que pueda estar particularmente seguro de que H0 es verdadero. La variación aleatoria aún está presente y si u0 = u1 puede ocurrir bajo H0, también puede ocurrir si el valor verdadero de u0 es ligeramente diferente del verdadero u1, por lo que habrá más en el intervalo de confianza que solo la igualdad.
fuente
No entre personas que saben de lo que están hablando, y están hablando con precisión. La prueba de hipótesis tradicional nunca concluye que el nulo es verdadero, pero si el nulo es verdadero o no es independiente de si se concluye que el nulo es verdadero.
Para una prueba de dos colas, sí.
Podemos decir lo que queramos. Sin embargo, decir que una prueba muestra que el nulo es verdadero no es consistente con la prueba de hipótesis tradicional, independientemente de los resultados. Y hacerlo no está bien fundado desde un punto de vista probatorio. La hipótesis alternativa, de que las medias no son las mismas, abarca todas las diferencias posibles en las medias. La hipótesis alternativa es "La diferencia en medias es , o , o , o , o1 2 3 .5 .1 , ... "Podemos plantear una diferencia arbitrariamente pequeña en las medias, y eso será consistente con la hipótesis alternativa. Y con una diferencia arbitrariamente pequeña, la probabilidad dada esa media es arbitrariamente cercana a la probabilidad dada la nula. Además, el la hipótesis alternativa abarca no solo la posibilidad de que los parámetros de las distribuciones, como la media, sean diferentes, sino que hay una distribución completamente diferente. Por ejemplo, la hipótesis alternativa abarca "Las dos muestras siempre tendrán una diferencia en el significado de que esto es exactamente 1 o exactamente 0, con probabilidad .5 para cada ". Los resultados son más consistentes con eso que con el nulo.
fuente