El 25 de febrero de 2015, la revista Basic and Applied Social Psychology emitió un editorial que prohíbe los valores y los intervalos de confianza de todos los trabajos futuros.
Específicamente, dicen (el formato y el énfasis son míos):
[...] antes de la publicación, los autores deberán eliminar todos los vestigios del NHSTP [procedimiento de prueba de significación de hipótesis nula] ( valores , valores , valores , declaraciones sobre diferencias "significativas" o falta de ellas , y así).
De manera análoga a cómo el NHSTP no proporciona la probabilidad de la hipótesis nula, que es necesaria para proporcionar un caso sólido para rechazarla, los intervalos de confianza no proporcionan un caso sólido para concluir que el parámetro de interés de la población es probable que esté dentro de lo establecido intervalo. Por lo tanto, los intervalos de confianza también están prohibidos en BASP.
[...] con respecto a los procedimientos bayesianos, nos reservamos el derecho de emitir juicios caso por caso y, por lo tanto, los procedimientos bayesianos no son obligatorios ni están prohibidos en BASP.
[...] ¿Se requieren procedimientos estadísticos inferenciales? - No [...] Sin embargo, BASP requerirá estadísticas descriptivas sólidas, incluidos los tamaños del efecto.
No discutamos los problemas y el mal uso de los valores aquí; ya hay muchas discusiones excelentes sobre CV que se pueden encontrar navegando por la etiqueta de valor p . La crítica de los valores menudo va acompañada de un consejo para informar los intervalos de confianza para los parámetros de interés. Por ejemplo, en esta respuesta muy bien argumentada, @gung sugiere informar los tamaños de los efectos con intervalos de confianza a su alrededor. Pero este diario también prohíbe los intervalos de confianza.
¿Cuáles son las ventajas y desventajas de este enfoque para presentar datos y resultados experimentales en comparación con el enfoque "tradicional" con valores , intervalos de confianza y dicotomía significativa / insignificante? La reacción a esta prohibición parece ser mayormente negativa; Entonces, ¿cuáles son las desventajas? La Asociación Americana de Estadística incluso ha publicado un breve comentario desalentador sobre esta prohibición, diciendo que "esta política puede tener sus propias consecuencias negativas". ¿Cuáles podrían ser estas consecuencias negativas?
O, como sugirió @whuber, ¿este enfoque debería ser defendido generalmente como un paradigma de investigación cuantitativa? Y si no, ¿Pórque no?
PD. Tenga en cuenta que mi pregunta no es sobre la prohibición en sí ; Se trata del enfoque sugerido. Tampoco estoy preguntando sobre la inferencia frecuentista vs. bayesiana. La Editorial también es bastante negativa sobre los métodos bayesianos; por lo que se trata esencialmente de usar estadísticas versus no usar estadísticas en absoluto.
Respuestas:
La primera oración del editorial actual de 2015 al que se vincula el OP, dice:
(mi énfasis)
En otras palabras, para los editores es un hecho científico ya comprobado que la "prueba de significación de hipótesis nulas" no es válida, y el editorial de 2014 solo enfatizó eso, mientras que el editorial actual de 2015 solo implementa este hecho.
El mal uso (incluso malicioso) de NHSTP está bien discutido y documentado. Y no es desconocido en la historia de la humanidad que "las cosas están prohibidas" porque se descubrió que, después de todo lo dicho y hecho, fueron mal utilizados más que bien (¿no deberíamos probar eso estadísticamente?). Puede ser una "segunda mejor solución", reducir lo que en promedio (estadísticas inferenciales) ha tenido pérdidas, en lugar de ganancias, por lo que predecimos (estadísticas inferenciales) que será perjudicial también en el futuro.
Pero el celo revelado detrás de la redacción de la primera oración anterior hace que esto parezca, exactamente, como un enfoque fanático en lugar de una decisión fría de cortar la mano que tiende a robar en lugar de ofrecer. Si uno lee el editorial de un año de antigüedad mencionado en la cita anterior (DOI: 10.1080 / 01973533.2014.865505), verá que esto es solo parte de un nuevo editor de las políticas de la revista.
Desplazándose por el editorial, escriben
Por lo tanto, parece que su conclusión relacionada con su disciplina es que las hipótesis nulas se rechazan "con demasiada frecuencia", por lo que los supuestos hallazgos pueden adquirir una significación estadística espuria. Este no es el mismo argumento que el dicho "inválido" en la primera oración.
Entonces, para responder a la pregunta, es obvio que para los editores de la revista, su decisión no solo es sabia sino que ya se está implementando tarde: parecen pensar que eliminan qué parte de las estadísticas se ha vuelto perjudicial, manteniendo el partes beneficiosas: no parecen creer que haya algo aquí que deba reemplazarse con algo "equivalente".
Epistemológicamente, esta es una instancia en la que los estudiosos de una ciencia social se retractan parcialmente de un intento de hacer que su disciplina sea más objetiva en sus métodos y resultados mediante el uso de métodos cuantitativos, porque llegaron a la conclusión (¿cómo?) Que, al final , el intento creó "más mal que bien". Diría que este es un asunto muy importante, en principio posible que haya sucedido, y que requeriría años de trabajo para demostrarlo "más allá de toda duda razonable" y realmente ayudar a su disciplina. Pero solo uno o dos editoriales y documentos publicados probablemente (estadísticas inferenciales) simplemente encenderán una guerra civil.
La frase final del editorial de 2015 dice:
fuente
Siento que prohibir las pruebas de hipótesis es una gran idea, excepto por unas pocas hipótesis selectas de "existencia", por ejemplo, probar la hipótesis nula de que no existe una percepción extrasensorial en la que todo lo que uno tendría que demostrar para tener evidencia de que ESP existe es no aleatoriedad . Pero creo que la revista perdió el punto de que el principal impulsor de la investigación deficiente en psicología es el uso de un umbral en los valores deSe ha demostrado en psicología y en la mayoría de los otros campos que una gran cantidad de juegos llega a . Esto incluye la sustitución de hipótesis, la eliminación de observaciones y el subconjunto de datos. Son los umbrales los que deberían prohibirse primero.P P<0.05
La prohibición de los intervalos de confianza también es exagerada, pero no por las razones que otros han declarado. Los intervalos de confianza son útiles solo si uno los malinterpreta como intervalos bayesianos creíbles (para antecedentes adecuados sin información). Pero siguen siendo útiles. El hecho de que su interpretación frecuente frecuenta no conduce a nada más que confusión implica que necesitamos "salir de Dodge" e ir a la escuela bayesiana o de probabilidad. Pero se pueden obtener resultados útiles malinterpretando los viejos límites de confianza.
Es una pena que los editores de la revista malinterpretaron las estadísticas bayesianas y no saben de la existencia de una inferencia de probabilidad pura. Lo que están buscando puede ser facilitado por las distribuciones posteriores bayesianas utilizando antecedentes ligeramente escépticos.
fuente
Veo este enfoque como un intento de abordar la incapacidad de la psicología social para replicar muchos 'hallazgos significativos' publicados anteriormente.
Sus desventajas son:
que no aborda muchos de los factores que conducen a efectos espurios. P.ej,
A) Las personas aún pueden echar un vistazo a sus datos y dejar de ejecutar sus estudios cuando un tamaño del efecto les parece lo suficientemente grande como para ser de interés.
B) Los grandes tamaños de efectos seguirán teniendo un gran poder en las evaluaciones retrospectivas de poder.
C) La gente aún buscará efectos interesantes y grandes (probando un montón de hipótesis en un experimento y luego reportando el que apareció) o
D) pretender que se esperaba un efecto extraño inesperado todo el tiempo.
¿No deberían hacerse esfuerzos para abordar estos problemas primero?
Como un campo que avanza, hará una revisión de los hallazgos pasados bastante horrible. No hay forma de evaluar cuantitativamente la credibilidad de los diferentes estudios. Si todas las revistas implementaron este enfoque, tendrás un grupo de científicos sociales que dicen que hay evidencia de X cuando no está totalmente claro cuán creíble es X y los científicos discuten sobre cómo interpretar un efecto publicado o discuten sobre si es importante o vale la pena hablando sobre. ¿No es este el punto de tener estadísticas? Proporcionar una forma consistente de evaluar los números. En mi opinión, este nuevo enfoque causaría un desastre si se implementara ampliamente.
Este cambio no alienta a los investigadores a presentar los resultados de los estudios con tamaños de efectos pequeños, por lo que realmente no aborda el efecto del cajón de archivos (¿o van a publicar hallazgos con grandes n independientemente del tamaño del efecto?). Si publicamos todos los resultados de estudios cuidadosamente diseñados, a pesar de que la credibilidad de los resultados de los estudios individuales puede ser incierta, los metanálisis y las revisiones de los estudios que proporcionaron análisis estadísticos harían un trabajo mucho mejor para identificar la verdad.
fuente
Me encontré con una cita maravillosa que casi argumenta a favor del mismo punto, pero no del todo, ya que es un párrafo inicial en un libro de texto que trata principalmente sobre estadísticas frecuentistas y pruebas de hipótesis.
fuente