Supongamos que tenemos un escenario de comparaciones múltiples, como la inferencia post hoc en estadísticas por pares, o como una regresión múltiple, donde estamos haciendo un total de comparaciones. Supongamos también que nos gustaría apoyar la inferencia en estos múltiplos utilizando intervalos de confianza.
1. ¿Aplicamos múltiples ajustes de comparación a los IC? Es decir, al igual que las comparaciones múltiples obligan a una redefinición de a la tasa de error familiar (FWER) o la tasa de descubrimiento falso (FDR), tiene el significado de confianza (o credibilidad 1 , o incertidumbre, o predicción, o inferencial ... elija su intervalo) ¿se altera de manera similar por múltiples comparaciones? Me doy cuenta de que una respuesta negativa aquí discutirá mis preguntas restantes.
2. ¿Existen traducciones directas de múltiples procedimientos de ajuste de comparación desde la prueba de hipótesis hasta la estimación de intervalos? Por ejemplo, serían ajustes centrarse en cambiar el plazo en el intervalo de confianza: ?
3. ¿Cómo abordaríamos los procedimientos de control de aumento o reducción para CI? Algunos ajustes de la tasa de error familiar del enfoque de prueba de hipótesis para la inferencia son 'estáticos' en el sentido de que precisamente se hace el mismo ajuste para cada inferencia separada. Por ejemplo, el ajuste de Bonferroni se realiza modificando el criterio de rechazo de:
- rechazar si a:
- rechazar si ,
pero el ajuste de Holm-Bonferroni no es 'estático', sino que lo realiza:
- primero ordenando los valores menor a mayor, y luego
- rechazar si , (dondeíndices El orden de los-valores) hasta
- fallamos en rechazar una hipótesis nula, y automáticamente fallamos en rechazar todas las hipótesis nulas posteriores.
Debido a que el rechazo / no rechazo no está ocurriendo con los IC (más formalmente, consulte las referencias a continuación), ¿eso significa que los procedimientos por pasos no se traducen (es decir, que incluyen todos los métodos FDR)? Debería advertencia aquí que estoy no preguntando cómo traducir IC en las pruebas de hipótesis (los representantes de la literatura 'visual de hipótesis' se citan a continuación llegar a esa pregunta no es trivial).
4. ¿Qué pasa con cualquiera de esos otros intervalos que mencioné entre paréntesis en 1?
1 Gosh, espero no tener problemas con esos estilos Bayesianos dulces y dulces al usar esta palabra aquí. :)
Referencias
Afshartous, D. y Preston, R. (2010). Intervalos de confianza para datos dependientes: equiparación de no solapamiento con significación estadística. Estadística computacional y análisis de datos , 54 (10): 2296–2305.
Cumming, G. (2009). Inferencia a simple vista: lectura de la superposición de intervalos de confianza independientes. Estadísticas en medicina , 28 (2): 205–220.
Payton, ME, Greenstone, MH y Schenker, N. (2003). Intervalos de confianza superpuestos o intervalos de error estándar: ¿Qué significan en términos de significación estadística? Journal of Insect Science , 3 (34): 1–6.
Tryon, WW y Lewis, C. (2008). Un método de intervalo de confianza inferencial para establecer la equivalencia estadística que corrige el factor de reducción de Tryon (2001). Métodos psicológicos , 13 (3): 272–277.
Respuestas:
Un excelente tema al que, lamentablemente, no se le presta suficiente atención.
Cuando se discuten múltiples parámetros e intervalos de confianza, se debe hacer una distinción entre inferencia simultánea e inferencia selectiva . Ref. [2] da una excelente demostración del asunto.
Estos dos conceptos se pueden combinar: supongamos que construye intervalos solo en parámetros para los que rechazó la hipótesis nula. Claramente se trata de una inferencia selectiva. Es posible que desee garantizar una cobertura simultánea de los parámetros seleccionados o una cobertura marginal de los parámetros seleccionados. El primero sería la contraparte del control FWER, y el último del control FDR.
Ahora más importante: no todos los procedimientos de prueba tienen sus intervalos correspondientes. Para los procedimientos de FWER y los intervalos que los acompañan, consulte [3]. Lamentablemente, esta referencia está un poco desactualizada. Para la contraparte de intervalo del control BH FDR, consulte [1] y una aplicación en [4] (que también incluye una breve revisión del asunto). Tenga en cuenta que este es un campo de investigación fresco y activo para que pueda esperar más resultados en el futuro cercano.
[1] Benjamini, Y. y D. Yekutieli. "Intervalos de confianza múltiple ajustados a la tasa de descubrimiento falso para parámetros seleccionados". Revista de la Asociación Americana de Estadística 100, no. 469 (2005): 71–81.
[2] Cox, DR "Una observación sobre los métodos de comparación múltiple". Technometrics 7, no. 2 (1965): 223–24.
[3] Hochberg, Y. y AC Tamhane. Procedimientos de comparación múltiple. Nueva York, NY, EE. UU .: John Wiley & Sons, Inc., 1987.
[4] Rosenblatt, JD e Y. Benjamini. "Correlaciones selectivas; Not Voodoo ”. NeuroImage 103 (diciembre de 2014): 401–10.
fuente
Yo nuncaajustar intervalos de confianza para múltiples pruebas. No soy un gran admirador de los valores p, porque creo que estimar los parámetros es un mejor uso de las estadísticas que probar hipótesis que nunca son exactamente ciertas. Sin embargo, reconozco que la prueba de hipótesis tiene su valor, por ejemplo, en un ensayo controlado aleatorio donde al menos uno puede argumentar que, asintóticamente, si un tratamiento no funciona, la hipótesis nula es cierta. Sin embargo, como he dicho en otra parte [1], generalmente esto implica tener un resultado primario. Sin embargo, los intervalos de confianza, en la definición frecuentista, no implican hipótesis y, por lo tanto, no necesitan ajustes para otras comparaciones potencialmente irrelevantes. Supongamos que estaba probando los fenotipos asociados con un gen en particular, como la altura y la presión arterial. YO' Me gustaría saber qué tan grande es la diferencia de altura entre aquellos con y sin el gen, y qué tan bien lo he estimado. No veo que el hecho de que también haya medido la presión arterial tenga algo que ver con eso. Donde podría importar es que si estos dos fueran los únicos significativos de cientos que probamos. Entonces es probable que las diferencias sean, por casualidad, mayores que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] No veo que el hecho de que también haya medido la presión arterial tenga algo que ver con eso. Donde podría importar es que si estos dos fueran los únicos significativos de cientos que probamos. Entonces es probable que las diferencias sean, por casualidad, mayores que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] No veo que el hecho de que también haya medido la presión arterial tenga algo que ver con eso. Donde podría importar es que si estos dos fueran los únicos significativos de cientos que probamos. Entonces es probable que las diferencias sean, por casualidad, mayores que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] más grande que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2] más grande que los experimentos contrafactuales esperados donde solo medimos la altura y la presión arterial, pero lo hicimos cientos de experimentos. Sin embargo, en esas circunstancias, ningún ajuste simple funcionaría, y es mejor dar la estimación no ajustada, pero aclarar cómo obtuvo estas comparaciones. También hemos publicado algunos resultados sobre la superposición de intervalos de confianza. [2]
[1] Campbell MJ y Swinscow TDV (2009) Estadísticas en Square One. 11ª ed Oxford; Libros de BMJ Blackwell Publishing
[2] Julious SA, Campbell MJ, Walters SJ (2007) Predecir dónde se encontrarán los medios futuros según los resultados del ensayo actual. Ensayos clínicos contemporáneos, 28, 352-357.
fuente