Una revista de psicología prohibió los valores p y los intervalos de confianza; ¿Es sabio dejar de usarlos?

73

El 25 de febrero de 2015, la revista Basic and Applied Social Psychology emitió un editorial que prohíbe los valores p y los intervalos de confianza de todos los trabajos futuros.

Específicamente, dicen (el formato y el énfasis son míos):

  • [...] antes de la publicación, los autores deberán eliminar todos los vestigios del NHSTP [procedimiento de prueba de significación de hipótesis nula] ( valores , valores , valores , declaraciones sobre diferencias "significativas" o falta de ellas , y así).ptF

  • De manera análoga a cómo el NHSTP no proporciona la probabilidad de la hipótesis nula, que es necesaria para proporcionar un caso sólido para rechazarla, los intervalos de confianza no proporcionan un caso sólido para concluir que el parámetro de interés de la población es probable que esté dentro de lo establecido intervalo. Por lo tanto, los intervalos de confianza también están prohibidos en BASP.

  • [...] con respecto a los procedimientos bayesianos, nos reservamos el derecho de emitir juicios caso por caso y, por lo tanto, los procedimientos bayesianos no son obligatorios ni están prohibidos en BASP.

  • [...] ¿Se requieren procedimientos estadísticos inferenciales? - No [...] Sin embargo, BASP requerirá estadísticas descriptivas sólidas, incluidos los tamaños del efecto.

No discutamos los problemas y el mal uso de los valores p aquí; ya hay muchas discusiones excelentes sobre CV que se pueden encontrar navegando por la etiqueta de valor p . La crítica de los valores p menudo va acompañada de un consejo para informar los intervalos de confianza para los parámetros de interés. Por ejemplo, en esta respuesta muy bien argumentada, @gung sugiere informar los tamaños de los efectos con intervalos de confianza a su alrededor. Pero este diario también prohíbe los intervalos de confianza.

¿Cuáles son las ventajas y desventajas de este enfoque para presentar datos y resultados experimentales en comparación con el enfoque "tradicional" con valores , intervalos de confianza y dicotomía significativa / insignificante? La reacción a esta prohibición parece ser mayormente negativa; Entonces, ¿cuáles son las desventajas? La Asociación Americana de Estadística incluso ha publicado un breve comentario desalentador sobre esta prohibición, diciendo que "esta política puede tener sus propias consecuencias negativas". ¿Cuáles podrían ser estas consecuencias negativas?p

O, como sugirió @whuber, ¿este enfoque debería ser defendido generalmente como un paradigma de investigación cuantitativa? Y si no, ¿Pórque no?

PD. Tenga en cuenta que mi pregunta no es sobre la prohibición en sí ; Se trata del enfoque sugerido. Tampoco estoy preguntando sobre la inferencia frecuentista vs. bayesiana. La Editorial también es bastante negativa sobre los métodos bayesianos; por lo que se trata esencialmente de usar estadísticas versus no usar estadísticas en absoluto.


Otras discusiones: reddit , Gelman .

ameba
fuente
14
Hay un mapeo uno a uno entre los valores p y los intervalos de confianza en los modelos de regresión lineal, por lo que no veo una razón sólida por la que prohibir los valores p pero mantener los intervalos de confianza tendría mucho sentido. Pero prohibir tanto los valores p como los intervalos de confianza deja una brecha en la descripción de los resultados ... Me pregunto si permiten informar errores estándar (eso sería otra medida del mismo grupo de mapeo uno a uno).
Richard Hardy
77
Todo podría ser mal utilizado, así que prohibir cosas en esta condición es, bueno ... extraño. No soy fanático de los valores p, pero esto parece un enfoque bastante ingenuo del problema. Una cosa es alentador para usar cosas adecuadas, pero prohibir las cosas no parece una forma adecuada de lidiar con el problema ...
Tim
12
Gran idea. El uso de estadísticas simplemente oculta la naturaleza no científica de este campo.
Aksakal
44
Esto parece una reacción exagerada a la frustración por el mal uso de los valores de p. Sería mucho más feliz con la prohibición del mal uso de los valores de p en lugar de los valores de p en general.
TrynnaDoStat
8
El cuarto elemento de su lista sugiere que no requieren estimaciones puntuales, lo que sería inferencia, pero los tamaños del efecto se informan simplemente como estadísticas descriptivas. (Sin embargo, algunas líneas más abajo en el editorial, "alentamos el uso de tamaños de muestra más grandes de lo que es típico en mucha investigación de psicología, porque a medida que aumenta el tamaño de la muestra, las estadísticas descriptivas se vuelven cada vez más estables y el error de muestreo es un problema menor". Espero que el editorial de 2016
pida

Respuestas:

23

La primera oración del editorial actual de 2015 al que se vincula el OP, dice:

La Editorial de Psicología Social Básica y Aplicada (BASP) 2014 * enfatizó * que el procedimiento de prueba de significación de hipótesis nula (NHSTP) no es válido ...

(mi énfasis)

En otras palabras, para los editores es un hecho científico ya comprobado que la "prueba de significación de hipótesis nulas" no es válida, y el editorial de 2014 solo enfatizó eso, mientras que el editorial actual de 2015 solo implementa este hecho.

El mal uso (incluso malicioso) de NHSTP está bien discutido y documentado. Y no es desconocido en la historia de la humanidad que "las cosas están prohibidas" porque se descubrió que, después de todo lo dicho y hecho, fueron mal utilizados más que bien (¿no deberíamos probar eso estadísticamente?). Puede ser una "segunda mejor solución", reducir lo que en promedio (estadísticas inferenciales) ha tenido pérdidas, en lugar de ganancias, por lo que predecimos (estadísticas inferenciales) que será perjudicial también en el futuro.

Pero el celo revelado detrás de la redacción de la primera oración anterior hace que esto parezca, exactamente, como un enfoque fanático en lugar de una decisión fría de cortar la mano que tiende a robar en lugar de ofrecer. Si uno lee el editorial de un año de antigüedad mencionado en la cita anterior (DOI: 10.1080 / 01973533.2014.865505), verá que esto es solo parte de un nuevo editor de las políticas de la revista.

Desplazándose por el editorial, escriben

... Por el contrario, creemos que la barra p <.05 es demasiado fácil de pasar y, a veces, sirve como excusa para una investigación de menor calidad.

Por lo tanto, parece que su conclusión relacionada con su disciplina es que las hipótesis nulas se rechazan "con demasiada frecuencia", por lo que los supuestos hallazgos pueden adquirir una significación estadística espuria. Este no es el mismo argumento que el dicho "inválido" en la primera oración.

Entonces, para responder a la pregunta, es obvio que para los editores de la revista, su decisión no solo es sabia sino que ya se está implementando tarde: parecen pensar que eliminan qué parte de las estadísticas se ha vuelto perjudicial, manteniendo el partes beneficiosas: no parecen creer que haya algo aquí que deba reemplazarse con algo "equivalente".

Epistemológicamente, esta es una instancia en la que los estudiosos de una ciencia social se retractan parcialmente de un intento de hacer que su disciplina sea más objetiva en sus métodos y resultados mediante el uso de métodos cuantitativos, porque llegaron a la conclusión (¿cómo?) Que, al final , el intento creó "más mal que bien". Diría que este es un asunto muy importante, en principio posible que haya sucedido, y que requeriría años de trabajo para demostrarlo "más allá de toda duda razonable" y realmente ayudar a su disciplina. Pero solo uno o dos editoriales y documentos publicados probablemente (estadísticas inferenciales) simplemente encenderán una guerra civil.

La frase final del editorial de 2015 dice:

Esperamos y anticipamos que prohibir el NHSTP tendrá el efecto de aumentar la calidad de los manuscritos enviados al liberar a los autores de la estructura atónita del pensamiento NHSTP, eliminando así un obstáculo importante para el pensamiento creativo. El NHSTP ha dominado la psicología durante décadas; Esperamos que al instituir la primera prohibición del NHSTP, demostremos que la psicología no necesita la muleta del NHSTP, y que otras revistas hacen lo mismo.

Alecos Papadopoulos
fuente
55
Sí ... tenemos que tener cuidado al escribir respuestas irónicas o sardónicas en este sitio: ¡podrían ser (completamente) mal entendidas!
whuber
44
@ naught101 ... eso no sería muy diplomático. Tenga en cuenta que la forma en que se condena al NHSTP les ahorra a los psicólogos que lo han usado en todas estas décadas. Si se escribiera de la manera que usted propone, se parecería mucho más a un ataque directo a sus colegas como científicos. Tal como está ahora, esencialmente el texto implica que los psicólogos llenos de buenas intenciones han sido desafortunadamente engañados al usar el enfoque, por "alguien", que abusó de su "poder de autoridad científica" en el asunto ... Quizás por malvados estadísticos impulsados ​​por científicos ¿imperialismo?
Alecos Papadopoulos
44
Un mal trabajador culpa a sus herramientas.
naught101
3
@BrianDHall Sugeriría buscar más recursos autorizados sobre los problemas relacionados con NHSTP (este sitio incluido), en lugar de los trabajos específicos del autor sobre el tema. El asunto es difícil y sutil: ya desde su comentario, uno debe discutir primero la semántica en torno a "aceptar" y "afirmar" ...
Alecos Papadopoulos
66
@ naught101: Si nota que el trabajador no puede manejar la motosierra correctamente, no puede culpar a la herramienta. Pero aún así se lo quitarías al trabajador, para evitar más daños ;-)
nikie
19

Siento que prohibir las pruebas de hipótesis es una gran idea, excepto por unas pocas hipótesis selectas de "existencia", por ejemplo, probar la hipótesis nula de que no existe una percepción extrasensorial en la que todo lo que uno tendría que demostrar para tener evidencia de que ESP existe es no aleatoriedad . Pero creo que la revista perdió el punto de que el principal impulsor de la investigación deficiente en psicología es el uso de un umbral en los valores deSe ha demostrado en psicología y en la mayoría de los otros campos que una gran cantidad de juegos llega a . Esto incluye la sustitución de hipótesis, la eliminación de observaciones y el subconjunto de datos. Son los umbrales los que deberían prohibirse primero.PP<0.05

La prohibición de los intervalos de confianza también es exagerada, pero no por las razones que otros han declarado. Los intervalos de confianza son útiles solo si uno los malinterpreta como intervalos bayesianos creíbles (para antecedentes adecuados sin información). Pero siguen siendo útiles. El hecho de que su interpretación frecuente frecuenta no conduce a nada más que confusión implica que necesitamos "salir de Dodge" e ir a la escuela bayesiana o de probabilidad. Pero se pueden obtener resultados útiles malinterpretando los viejos límites de confianza.

Es una pena que los editores de la revista malinterpretaron las estadísticas bayesianas y no saben de la existencia de una inferencia de probabilidad pura. Lo que están buscando puede ser facilitado por las distribuciones posteriores bayesianas utilizando antecedentes ligeramente escépticos.

Frank Harrell
fuente
+1, gracias. Permítanme aclarar sobre los intervalos de confianza. Los intervalos de confianza están relacionados con errores estándar, por lo que la sugerencia es probablemente dejar de usarlos también. Consideremos el caso más simple: algún valor se mide en un grupo de sujetos / objetos; supongamos que la media es 3. Por lo que yo entiendo, esta revista sugiere informarlo simplemente como 3. Pero, ¿no le gustaría ver también un error estándar, por ejemplo, ? Esto, por supuesto, significa que el intervalo de confianza del 95% es , lo que también significa que , por lo que todo está relacionado. No estoy seguro de cómo sugiere informarlo. n3±0.53±1p<0.05
ameba dice Reinstate Monica
44
Creo que los errores estándar están demasiado simplificados (porque suponen distribuciones simétricas) pero son medidas útiles de precisión, como el error cuadrático medio. Puede pensar en un intervalo de precisión basado en el error cuadrático medio sin prever la cobertura de probabilidad. Por lo tanto, no veo dónde algo de esta discusión implica quitar el énfasis a los errores estándar. Y no estaba sugiriendo que dejáramos de usar CL. Pero la dificultad con los CL proviene principalmente de intentos de interpretaciones de probabilidad.
Frank Harrell
Hmmm Interesante. Para mí, parece que hay un paso tan pequeño del error estándar al IC (¡un factor constante!), Que tratarlos de manera diferente sería extraño. Pero quizás es un punto semántico; Supongo que lo que quiere decir es que la gente piensa en los errores estándar y los IC de manera diferente y tiende a confundirse más con los IC. Me pregunto qué dice esta política particular de la revista sobre los errores estándar (la Editorial no los menciona explícitamente).
ameba dice Reinstate Monica
2
En situaciones simétricas, el error estándar es un bloque de construcción para un intervalo de confianza. Pero en muchos casos el intervalo de confianza correcto es asimétrico, por lo que no puede basarse en absoluto en un error estándar. Algunas variedades de bootstrap y back-transforming son dos enfoques de este tipo. Los intervalos de confianza de probabilidad de perfil vienen especialmente a la mente aquí.
Frank Harrell
@ Frank Harrell - En cuanto a la "inferencia de probabilidad pura", estoy de acuerdo en que un énfasis hacia el resumen de la probabilidad de los datos sin embellecerlos con umbrales parece ser la respuesta que los editores estaban buscando. El libro "Probabilidad" de AWF Edwards (1972) habla directamente de la preocupación del editor: "Podemos diferir la consideración de estos argumentos (por ejemplo, pruebas de significación) hasta capítulos posteriores, y pasar inmediatamente a la descripción de un procedimiento, basado en el concepto de Probabilidad de Fisher , que no está abierto a ninguno de estos objetos que puedan nivelarse en pruebas de significación ".
John Mark
13

Veo este enfoque como un intento de abordar la incapacidad de la psicología social para replicar muchos 'hallazgos significativos' publicados anteriormente.

Sus desventajas son:

  1. que no aborda muchos de los factores que conducen a efectos espurios. P.ej,

    • A) Las personas aún pueden echar un vistazo a sus datos y dejar de ejecutar sus estudios cuando un tamaño del efecto les parece lo suficientemente grande como para ser de interés.

    • B) Los grandes tamaños de efectos seguirán teniendo un gran poder en las evaluaciones retrospectivas de poder.

    • C) La gente aún buscará efectos interesantes y grandes (probando un montón de hipótesis en un experimento y luego reportando el que apareció) o

    • D) pretender que se esperaba un efecto extraño inesperado todo el tiempo.

    ¿No deberían hacerse esfuerzos para abordar estos problemas primero?

  2. Como un campo que avanza, hará una revisión de los hallazgos pasados ​​bastante horrible. No hay forma de evaluar cuantitativamente la credibilidad de los diferentes estudios. Si todas las revistas implementaron este enfoque, tendrás un grupo de científicos sociales que dicen que hay evidencia de X cuando no está totalmente claro cuán creíble es X y los científicos discuten sobre cómo interpretar un efecto publicado o discuten sobre si es importante o vale la pena hablando sobre. ¿No es este el punto de tener estadísticas? Proporcionar una forma consistente de evaluar los números. En mi opinión, este nuevo enfoque causaría un desastre si se implementara ampliamente.

  3. Este cambio no alienta a los investigadores a presentar los resultados de los estudios con tamaños de efectos pequeños, por lo que realmente no aborda el efecto del cajón de archivos (¿o van a publicar hallazgos con grandes n independientemente del tamaño del efecto?). Si publicamos todos los resultados de estudios cuidadosamente diseñados, a pesar de que la credibilidad de los resultados de los estudios individuales puede ser incierta, los metanálisis y las revisiones de los estudios que proporcionaron análisis estadísticos harían un trabajo mucho mejor para identificar la verdad.

captain_ahab
fuente
2
@captain_ahab Con respecto al punto 3, debemos mencionar que el editorial anterior (2014) del Editor alentó explícitamente la presentación de estudios de "efecto nulo".
Alecos Papadopoulos
1
Parece que no puedo encontrar un comentario en el editorial que discuta ningún criterio para la publicación, excepto por la necesidad de tener tamaños de muestra más grandes de lo normal (para mí no está claro cómo planean identificar n aceptables sin estadísticas inferenciales). Para mí no hay énfasis en este editorial de que no les importa cuál es el tamaño del efecto. Me parece que seguirán buscando efectos interesantes e historias interesantes, lo que creo que es el mayor problema en el trabajo de las ciencias sociales (es decir, la búsqueda post-hoc de efectos e historias interesantes).
captain_ahab
2
Lo que parece una mejor solución es que todos los científicos deben registrar la hipótesis, el enfoque racional básico, el poder y el análisis de un estudio en un lugar PÚBLICO ANTES de ejecutar el estudio. Y luego limitarse a publicar ese estudio de la manera prescrita. Si se encuentra un efecto interesante inesperado, deben iniciar sesión públicamente y luego ejecutar un nuevo estudio que examine ese efecto. Este enfoque mientras se controlan los falsos positivos también permitiría a los científicos demostrar su productividad sin publicar nuevos efectos.
captain_ahab
7

Me encontré con una cita maravillosa que casi argumenta a favor del mismo punto, pero no del todo, ya que es un párrafo inicial en un libro de texto que trata principalmente sobre estadísticas frecuentistas y pruebas de hipótesis.

Los no estadísticos, como el autor, sostienen que, si se hacen buenos experimentos, las estadísticas no son necesarias. Ellos tienen toda la razón. [...] El inconveniente, por supuesto, es que hacer buenos experimentos es difícil. La mayoría de las personas necesitan toda la ayuda que puedan obtener para evitar que se hagan el ridículo al afirmar que su teoría favorita se fundamenta en observaciones que no hacen nada por el estilo. Y la función principal de esa sección de estadísticas que se ocupa de las pruebas de importancia es evitar que las personas se engañen a sí mismas. Desde este punto de vista, la función de las pruebas de significación es evitar que las personas publiquen experimentos, no alentarlos. Idealmente, de hecho, las pruebas de significación nunca deberían aparecer en forma impresa, habiéndose utilizado, si es que lo han hecho, en las etapas preliminares para detectar experimentos inadecuados,

- David Colquhoun, Conferencias sobre bioestadística , 1971

ameba dice Reinstate Monica
fuente
1
Su publicación es realmente un comentario, en lugar de una respuesta, por lo que me abstengo de votarla, pero deseo agradecerle por compartir la cita. Hay tantos malentendidos evidentes en este pasaje que tomaría un gran esfuerzo (por no decir espacio) señalarlos y desacreditarlos a todos. En una palabra, sin embargo, el contador de estas afirmaciones es "eficiencia". Si todos tuvieran tiempo y presupuesto ilimitados, al menos podríamos aspirar a realizar "buenos experimentos". Pero cuando los recursos son limitados, sería insensato (además de costoso) realizar solo experimentos "finales, ... claros".
whuber
2
Gracias por tu comentario, @whuber; Estoy de acuerdo con lo que está diciendo. Aún así, debo agregar que me parece atractivo decir que los datos idealmente experimentales deberían ser tan convincentes como para hacer redundantes las pruebas formales de hipótesis. ¡Este no es un ideal inalcanzable! En mi campo (donde los valores de p se utilizan mucho), me parece que los mejores trabajos son convincentes sin ellos: por ejemplo, debido a que presentan una secuencia de varios experimentos apoyándose unos a otros, que en su conjunto, obviamente, no puede ser una casualidad estadística. Re comentar: fue demasiado largo para un comentario, y pensé que estaba bien como respuesta de CW.
ameba dice Reinstate Monica
Sí, entiendo por qué tuvo que publicarse como respuesta y, por lo tanto, no votó para incluirlo en un comentario (lo que cortaría la última parte de la cita). Estoy de acuerdo en que el ideal no es inalcanzable en casos particulares . También estoy de acuerdo en que es un buen ideal a tener en cuenta. Pero como guía de cómo diseñar experimentos (que es, en general, una disciplina de asignación de recursos), podría ser un error terrible. (Esto es ciertamente discutible). La sugerencia de que un "buen" experimento nunca requeriría métodos estadísticos es, sin embargo, uno que no resiste ni siquiera un examen superficial.
whuber
1
Quizás una forma de leer que es decir que la prueba de significación inicial que sugirió que una sustancia estimula una cierta respuesta fisiológica ya no es relevante para el momento en que publica sus investigaciones sobre los efectos de diferentes tipos de inhibidores en la curva de dosis-respuesta.
Scortchi - Restablece a Monica