Esta es una pregunta de discusión sobre la intersección de las estadísticas y otras ciencias. A menudo me enfrento al mismo problema: los investigadores en mi campo tienden a decir que no hay ningún efecto cuando el valor p no es inferior al nivel de significancia. Al principio, a menudo respondía que no es así como funcionan las pruebas de hipótesis. Dada la frecuencia con la que surge esta pregunta, me gustaría discutir este tema con estadísticos más experimentados.
Consideremos un artículo reciente en una revista científica del "mejor grupo editorial" Nature Communications Biology (hay varios ejemplos, pero centrémonos en uno)
Los investigadores interpretan un resultado no estadísticamente significativo de la siguiente manera:
Por lo tanto, la restricción calórica moderada crónica puede prolongar la vida útil y mejorar la salud de un primate, pero afecta la integridad de la materia gris del cerebro sin afectar el rendimiento cognitivo .
Prueba:
Sin embargo, los desempeños en la tarea del laberinto de Barnes no fueron diferentes entre los animales de control y con restricción calórica (LME: F = 0.05, p = 0.82; Fig. 2a). De manera similar, la tarea de alternancia espontánea no reveló ninguna diferencia entre los animales de control y los animales con restricción calórica (LME: F = 1.63, p = 0.22; Fig. 2b).
Los autores también sugieren la explicación de la ausencia del efecto, pero el punto clave no es la explicación sino la afirmación misma. Las parcelas proporcionadas se ven significativamente diferentes "a simple vista" para mí (Figura 2).
Además, los autores ignoran el conocimiento previo:
Se han informado efectos nocivos de la restricción calórica sobre el rendimiento cognitivo para ratas y para funciones cerebrales y emocionales en humanos
Puedo entender la misma afirmación para los grandes tamaños de muestra (sin efecto = sin efecto prácticamente significativo allí), pero en situaciones particulares se usaron pruebas complejas y no es obvio para mí cómo realizar cálculos de potencia.
Preguntas:
¿Pasé por alto algún detalle que haga válidas sus conclusiones?
Teniendo en cuenta la necesidad de informar resultados negativos en la ciencia, cómo demostrar que no es "la ausencia de resultados" (que tenemos con ), sino "resultados negativos (por ejemplo, no hay diferencia entre los grupos)" usando ¿Estadísticas? Entiendo que para tamaños de muestra enormes, incluso pequeñas desviaciones del nulo provocan el rechazo, pero supongamos que tenemos datos ideales y aún necesitamos demostrar que nulo es prácticamente cierto.
¿Deben los estadísticos insistir siempre en conclusiones matemáticamente correctas como "tener este poder no pudimos detectar un efecto de tamaño significativo"? A los investigadores de otros campos les disgustan mucho tales formulaciones de resultados negativos.
Estaría encantado de escuchar cualquier idea sobre el problema y he leído y entendido las preguntas relacionadas en este sitio web. Hay una respuesta clara a las preguntas 2) -3) desde el punto de vista estadístico, pero me gustaría entender cómo deben responderse estas preguntas en caso de diálogo interdisciplinario.
UPD: Creo que un buen ejemplo de resultado negativo es la primera etapa de los ensayos médicos, la seguridad. ¿Cuándo los científicos pueden decidir que el medicamento es seguro? Supongo que comparan dos grupos y hacen estadísticas sobre estos datos. ¿Hay alguna manera de decir que este medicamento es seguro? Cochrane utiliza con precisión "no se encontraron efectos secundarios", pero los médicos dicen que este medicamento es seguro. Cuando se equilibra la precisión y la simplicidad de la descripción y podemos decir "no hay consecuencias para la salud"?
fuente
Respuestas:
Creo que a veces es apropiado interpretar resultados no estadísticamente significativos en el espíritu de "aceptar la hipótesis nula". De hecho, he visto estudios estadísticamente significativos interpretados de esa manera; el estudio fue demasiado preciso y los resultados fueron consistentes con un rango estrecho de efectos no nulos pero clínicamente insignificantes. Aquí hay una crítica algo ampollosa de un estudio (o, además, su prensa) sobre la relación entre el consumo de chocolate / vino tinto y su efecto "saludable" sobre la diabetes. Las curvas de probabilidad para las distribuciones de resistencia a la insulina por ingesta alta / baja son histéricas.
Si uno puede interpretar los hallazgos como "confirmando H_0" depende de una gran cantidad de factores: la validez del estudio, el poder, la incertidumbre de la estimación y la evidencia previa. Informar el intervalo de confianza (IC) en lugar del valor p es quizás la contribución más útil que puede hacer como estadístico. Les recuerdo a los investigadores y colegas estadísticos que las estadísticas no toman decisiones, la gente sí; omitir los valores p en realidad alienta una discusión más reflexiva de los hallazgos.
El ancho del IC describe una gama de efectos que pueden incluir o no el valor nulo, y pueden incluir o no valores clínicamente significativos como el potencial de salvar vidas. Sin embargo, un IC estrecho confirma un tipo de efecto; o el último tipo que es "significativo" en un sentido verdadero, o el primero que puede ser nulo o algo muy cercano al nulo.
Quizás lo que se necesita es un sentido más amplio de lo que son los "resultados nulos" (y los efectos nulos). Lo que encuentro decepcionante en la colaboración de investigación es cuando los investigadores no pueden establecer a priori a qué rango de efectos están apuntando: si una intervención está destinada a reducir la presión arterial, ¿cuántos mmHg? Si un medicamento está destinado a curar el cáncer, ¿cuántos meses de supervivencia tendrá el paciente? Alguien apasionado por la investigación y "conectado" a su campo y ciencia puede contar los hechos más sorprendentes sobre investigaciones anteriores y lo que se ha hecho.
En su ejemplo, no puedo evitar notar que el valor p de 0.82 es muy cercano al nulo. A partir de eso, todo lo que puedo decir es que el CI se centra en un valor nulo. Lo que no sé es si abarca efectos clínicamente significativos. Si el CI es muy estrecho, la interpretación que dan es, en mi opinión, correcta pero los datos no lo respaldan: sería una edición menor. En contraste, el segundo valor p de 0.22 está relativamente más cerca de su umbral de significancia (cualquiera que sea). Los autores lo interpretan correspondientemente como "no dar ninguna evidencia de diferencia" que sea consistente con una interpretación de tipo "no rechazar H_0". En cuanto a la relevancia del artículo, puedo decir muy poco. ¡Espero que explore la literatura y encuentre discusiones más destacadas sobre los resultados del estudio! En cuanto a los análisis,
fuente
Sin embargo, nosotros podemos reconocer que hay diferentes tipos de hipótesis nula:
[tost]
Hay algunas formas de realizar pruebas de equivalencia (ya sea que una se combine o no con pruebas de diferencia):
Referencias Reagle, DP y Vinod, HD (2003). Inferencia para la teoría negativista usando regiones de rechazo calculadas numéricamente . Estadística computacional y análisis de datos , 42 (3): 491–512.
Schuirmann, DA (1987). Una comparación de los dos procedimientos de pruebas unilaterales y el enfoque de potencia para evaluar la equivalencia de la biodisponibilidad promedio . Revista de farmacocinética y biofarmacéutica , 15 (6): 657-680.
Tryon, WW y Lewis, C. (2008). Un método de intervalo de confianza inferencial para establecer la equivalencia estadística que corrige el factor de reducción de Tryon (2001) . Métodos psicológicos , 13 (3): 272–277.
Tryon, WW y Lewis, C. (2009). Evaluación de proporciones independientes para diferencia estadística, equivalencia, indeterminación y diferencia trivial utilizando intervalos de confianza inferenciales . Journal of Educational and Behavioral Statistics , 34 (2): 171-189.
Wellek, S. (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman and Hall / CRC Press, segunda edición.
fuente
Se refiere a la práctica de inferencia estándar que se enseña en los cursos de estadística:
Esto está bien, y se usa en la práctica. Incluso me aventuraría a adivinar que este procedimiento podría ser obligatorio en algunas industrias reguladas como la farmacéutica.
Sin embargo, esta no es la única forma en que las estadísticas y la inferencia se aplican en la investigación y la práctica. Por ejemplo, eche un vistazo a este documento : "Observación de una nueva partícula en la búsqueda del bosón de Higgs modelo estándar con el detector ATLAS en el LHC". El documento fue el primero en presentar la evidencia de la existencia del bosón de Higgs, en el llamado experimento ATLAS. También fue uno de esos artículos donde la lista de autores es tan larga como su contenido real :)
Así es como se formula la conclusión: "Estos resultados proporcionan evidencia concluyente para el descubrimiento de una nueva partícula con masa 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV". Las palabras "stat" se refieren a estadísticas y "sys" a incertidumbres sistemáticas.
Entonces, como puede ver, no todos hacen el procedimiento de cuatro pasos que describí al comienzo de esta respuesta. Aquí, los investigadores muestran el valor p sin preestablecer el umbral, al contrario de lo que se enseña en las clases de estadística. En segundo lugar, no hacen baile "rechazar / no rechazar", al menos formalmente. Van al grano y dicen "aquí está el valor p, y es por eso que decimos que encontramos una nueva partícula con una masa de 126 GeV".
Nota IMPORTANTE
Los autores del artículo de Higgs aún no declararon el bosón de Higgs. Solo afirmaron que se encontró la nueva partícula y que algunas de sus propiedades, como una masa, son consistentes con el bosón de Higgs.
Tomó un par de años reunir evidencia adicional antes de que se estableciera que la partícula es de hecho el bosón de Higgs. Vea esta publicación de blog con una discusión temprana de resultados. Los físicos verificaron diferentes propiedades como el giro cero. Y aunque la evidencia se reunió en algún momento, el CERN declaró que la partícula es el bosón de Higgs.
¿Porque es esto importante? Porque es imposible trivializar el proceso de descubrimiento científico a un procedimiento rígido de inferencia estadística. La inferencia estadística es solo una herramienta utilizada.
Cuando el CERN estaba buscando esta partícula, el foco estaba en encontrarla primero. Fue el objetivo final. El físico tenía una idea de dónde mirar. Una vez que encontraron un candidato, se centraron en demostrar que era el indicado. Finalmente, la totalidad de la evidencia, ni un solo experimento con valor p y significado, convenció a todos de que encontramos la partícula. Incluya aquí todos los conocimientos previos y el modelo estándar . Esto no es solo una inferencia estadística, el método científico es más amplio que eso.
fuente
Hay maneras de abordar esto que no dependen de los cálculos de potencia (ver Wellek, 2010). En particular, también puede probar si rechaza la nula de que el efecto es de una magnitud significativa a priori .
Daniël Lakens aboga en esta situación por las pruebas de equivalencia. Lakens en particular usa " TOST " (dos pruebas unilaterales) para las comparaciones medias, pero hay otras formas de llegar a la misma idea.
En TOST, prueba un nulo compuesto: la hipótesis nula unilateral de que su efecto es más negativo que la diferencia de interés negativa más pequeña y el nulo de que su efecto es más positivo que la diferencia de interés positiva más pequeña. Si rechaza ambos, puede afirmar que no hay una diferencia significativa. Tenga en cuenta que esto puede suceder incluso si el efecto es significativamente diferente de cero, pero en ningún caso requiere endosar el valor nulo.
Lakens, D. (2017). Pruebas de equivalencia: una guía práctica para pruebas t , correlaciones y metanálisis . Ciencias sociales, psicológicas y de la personalidad , 8 (4), 355-362.
Wellek, S. (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman and Hall / CRC Press, segunda edición.
fuente