SPSS proporciona la salida "intervalo de confianza de las medias de diferencia". He leído en algunos lugares que significa "95 de cada 100 veces, nuestra diferencia de medias de muestra estará entre estos límites". Esto no está claro. ¿Alguien puede sugerir una redacción más clara para explicar el "intervalo de confianza de la diferencia de medias"? Esta salida aparece en el contexto de una prueba t de una muestra.
21
Respuestas:
Esto no es fácil, incluso para los estadísticos respetados. Mira un intento reciente de Nate Silver :
(del blog FiveThirtyEight en el New York Times, 29/09/10.) Este no es un intervalo de confianza. Dependiendo de cómo lo interprete, es un intervalo de tolerancia o un intervalo de predicción. (De lo contrario, no hay nada que pase con la excelente discusión del Sr. Silver sobre la estimación de probabilidades; es una buena lectura). Muchos otros sitios web (particularmente aquellos con un enfoque de inversión) confunden de manera similar los intervalos de confianza con otros tipos de intervalos.
El New York Times se ha esforzado por aclarar el significado de los resultados estadísticos que produce e informa. La letra pequeña debajo de muchas encuestas incluye algo como esto:
( por ejemplo , cómo se realizó la encuesta , 5/2/2011.)
Un poco prolijo, quizás, pero claro y preciso: esta declaración caracteriza la variabilidad de la distribución muestral de los resultados de la encuesta. Eso se está acercando a la idea del intervalo de confianza, pero no está del todo allí. Sin embargo, uno podría considerar el uso de tales palabras en lugar de intervalos de confianza en muchos casos.
Cuando hay tanta confusión potencial en Internet, es útil recurrir a fuentes autorizadas. Uno de mis favoritos es el texto de Freedman, Pisani y Purves, Estadísticas. Ahora en su cuarta edición, se ha utilizado en universidades por más de 30 años y destaca por sus explicaciones claras y claras y su enfoque en los métodos clásicos "frecuentas". Veamos qué dice sobre la interpretación de los intervalos de confianza:
[en p. 384; todas las citas son de la tercera edición (1998)]. Continúa,
[pags. 384]. El texto dice mucho más acerca de los intervalos de confianza, pero esto es suficiente para ayudar: su enfoque es mover el foco de discusión a la muestra, a la vez que aporta rigor y claridad a las declaraciones. Por lo tanto, podríamos intentar lo mismo en nuestros propios informes. Por ejemplo, apliquemos este enfoque para describir un intervalo de confianza de [34%, 40%] alrededor de una diferencia porcentual informada en un experimento hipotético:
(Este es mi texto, que seguramente se puede mejorar: invito a los editores a trabajar en él).
Una declaración larga como esta es algo difícil de manejar. En los informes reales, la mayor parte del contexto (muestreo aleatorio, sujetos y controles, posibilidad de variabilidad) ya se habrá establecido, haciendo innecesaria la mitad de la declaración anterior. Cuando el informe establece que existe una variabilidad de muestreo y exhibe un modelo de probabilidad para los resultados de la muestra, generalmente no es difícil explicar un intervalo de confianza (u otro intervalo aleatorio) tan clara y rigurosamente como la audiencia lo necesita.
fuente
Desde un punto de vista técnico pedante, personalmente no creo que haya una "redacción clara" de la interpretación de los intervalos de confianza.
Interpretaría un intervalo de confianza como: hay un 95% de probabilidad de que el intervalo de confianza del 95% cubra la verdadera diferencia de medias
Una interpretación de esto es que si tuviéramos que repetir todo el experimento veces, bajo las mismas condiciones, entonces tendríamosN N intervalos de confianza diferentes. El nivel de confianza es la proporción de estos intervalos que contienen la verdadera diferencia de medias.
Mi propia objeción personal con la lógica de tal razonamiento es que esta explicación de los intervalos de confianza requiere que ignoremos el otroN−1 muestras al calcular nuestro intervalo de confianza. Por ejemplo, si tuviera un tamaño de muestra de 100, ¿iría y calcularía 100 intervalos de confianza del 95% de "1 muestra"?
Pero tenga en cuenta que todo esto está en la filosofía. Los intervalos de confianza son mejor dejar vagos en la explicación, creo. Dan buenos resultados cuando se usan correctamente.
fuente
La respuesta aproximada a la pregunta es que un intervalo de confianza del 95% le permite tener una confianza del 95% de que el valor del parámetro verdadero se encuentra dentro del intervalo. Sin embargo, esa respuesta aproximada es incompleta e inexacta.
Lo incompleto radica en el hecho de que no está claro que "95% de confianza" significa algo concreto, o si lo hace, entonces ese significado concreto no sería acordado universalmente ni siquiera por una pequeña muestra de estadísticos. El significado de confianza depende de qué método se utilizó para obtener el intervalo y de qué modelo de inferencia se está utilizando (que espero se aclare más adelante).
¡La inexactitud radica en el hecho de que muchos intervalos de confianza no están diseñados para decirle nada sobre la ubicación del valor del parámetro verdadero para el caso experimental particular que produjo el intervalo de confianza! Eso será sorprendente para muchos, pero se deduce directamente de la filosofía de Neyman-Pearson que se establece claramente en esta cita de su artículo de 1933 "Sobre el problema de las pruebas más eficientes de hipótesis estadísticas":
¡Por lo tanto, los intervalos que se basan en la 'inversión' de las pruebas de hipótesis NP heredarán de esa prueba la naturaleza de haber conocido propiedades de error a largo plazo sin permitir la inferencia sobre las propiedades del experimento que las produjo! Tengo entendido que esto protege contra la inferencia inductiva, que Neyman aparentemente consideró una abominación.
Neyman afirma explícitamente el término "intervalo de confianza" y el origen de la teoría de los intervalos de confianza en su artículo de Biometrika de 1941 "Argumento fiduciario y la teoría de los intervalos de confianza". En cierto sentido, entonces, cualquier cosa que sea adecuadamente un intervalo de confianza juega con sus reglas y, por lo tanto, el significado de un intervalo individual solo puede expresarse en términos de la tasa de largo plazo a la que los intervalos calculados por ese método contienen (cubren) el verdadero valor del parámetro
Ahora necesitamos bifurcar la discusión. Un capítulo sigue la noción de "cobertura", y el otro sigue intervalos no Neymanianos que son como intervalos de confianza. Diferiré el primero para poder completar esta publicación antes de que sea demasiado larga.
Existen muchos enfoques diferentes que producen intervalos que podrían denominarse intervalos de confianza no nemanianos. El primero de ellos son los intervalos fiduciales de Fisher. (La palabra 'fiducial' puede asustar a muchos y provocar sonrisas burlonas de otros, pero lo dejaré de lado ...) Para algunos tipos de datos (p. Ej., Normal con varianza de población desconocida) los intervalos calculados por el método de Fisher son numéricamente idénticos a intervalos que serían calculados por el método de Neyman. Sin embargo, invitan a interpretaciones que son diametralmente opuestas. Los intervalos de Neymanian reflejan solo las propiedades de cobertura a largo plazo del método, mientras que los intervalos de Fisher están destinados a apoyar la inferencia inductiva con respecto a los valores de parámetros verdaderos para el experimento particular que se realizó.
El hecho de que un conjunto de límites de intervalo pueda provenir de métodos basados en cualquiera de los dos paradigmas filosóficamente distintos conduce a una situación realmente confusa: los resultados se pueden interpretar de dos maneras contradictorias. Del argumento fiducial hay una probabilidad del 95% de que un intervalo fiducial particular del 95% contendrá el valor del parámetro verdadero. Por el método de Neyman, solo sabemos que el 95% de los intervalos calculados de esa manera contendrán el valor del parámetro verdadero, y tienen que decir cosas confusas sobre la probabilidad de que el intervalo que contiene el valor del parámetro verdadero sea desconocido pero 1 o 0.
En gran medida, el enfoque de Neyman ha dominado el de Fisher. Eso es muy desafortunado, en mi opinión, porque no conduce a una interpretación natural de los intervalos. (Vuelva a leer la cita anterior de Neyman y Pearson y vea si coincide con su interpretación natural de los resultados experimentales. Lo más probable es que no sea así).
Si un intervalo puede interpretarse correctamente en términos de tasas de error globales, pero también correctamente en términos de inferencia local, no veo una buena razón para prohibir a los usuarios de intervalos la interpretación más natural que ofrece este último. Por lo tanto, mi sugerencia es que la interpretación adecuada de un intervalo de confianza es AMBAS de las siguientes:
Neymanian: este intervalo del 95% se construyó mediante un método que produce intervalos que cubren el verdadero valor del parámetro en el 95% de las ocasiones a largo plazo (... de nuestra experiencia estadística).
Pescador: este intervalo del 95% tiene una probabilidad del 95% de cubrir el valor del parámetro verdadero.
(Los métodos bayesianos y de probabilidad también generarán intervalos con propiedades frecuentas deseables. Dichos intervalos invitan a interpretaciones ligeramente diferentes que probablemente se sentirán más naturales que el Neymaniano).
fuente
El significado de un intervalo de confianza es: si repitiera su experimento exactamente de la misma manera (es decir: el mismo número de observaciones, extrayendo de la misma población, etc.), y si sus suposiciones son correctas, y calcularía ese intervalo nuevamente en cada repetición, entonces este intervalo de confianza contendría la prevalencia verdadera en el 95% de las repeticiones (en promedio).
Entonces, podría decir que está 95% seguro (si sus suposiciones son correctas, etc.) de que ahora ha construido un intervalo que contiene la prevalencia verdadera.
Esto generalmente se expresa como: con un 95% de confianza, entre el 4.5 y el 8.3% de los hijos de madres que fumaron durante el embarazo se vuelven obesos.
Tenga en cuenta que esto generalmente no es interesante en sí mismo: probablemente desee comparar esto con la prevalencia en hijos de madres que no fumaron (odds ratio, riesgo relativo, etc.)
fuente
Si la verdadera diferencia de medias está fuera de este intervalo, entonces solo hay un 5% de posibilidades de que la diferencia de medias de nuestro experimento esté muy lejos de la verdadera diferencia de medias.
fuente
Mi interpretación: si realiza el experimento N veces (donde N tiende al infinito), de este gran número de experimentos, el 95% de los experimentos tendrá intervalos de confianza que se encuentran dentro de estos límites del 95%. Más claramente, digamos que esos límites son "a" y "b", entonces 95 de cada 100 veces la diferencia media de su muestra se ubicará entre "a" y "b". Supongo que comprende que diferentes experimentos pueden tener diferentes muestras para cubrir fuera de toda la población.
fuente
"95 veces de 100, su valor caerá dentro de una desviación estándar de la media"
fuente