ASA analiza las limitaciones de los valores : ¿cuáles son las alternativas?

100

Ya tenemos múltiples hilos etiquetados como valores p que revelan muchos malentendidos sobre ellos. Hace diez meses teníamos un hilo sobre una revista psicológica que "prohibía" los valores $p$ , ahora la Asociación Americana de Estadística (2016) dice que con nuestro análisis "no deberíamos terminar con el cálculo de un valor ". $p$

La Asociación Americana de Estadística (ASA, por sus siglas en inglés) cree que la comunidad científica podría beneficiarse de una declaración formal que aclare varios principios ampliamente acordados que subyacen al uso y la interpretación adecuados del valor . $p$

El comité enumera otros enfoques como posibles alternativas o suplementos a los valores : $p$

En vista de los malos usos y conceptos erróneos prevalentes sobre los valores , algunos estadísticos prefieren complementar o incluso reemplazar los valores con otros enfoques. Estos incluyen métodos que enfatizan la estimación sobre las pruebas, como la confianza, la credibilidad o los intervalos de predicción; Métodos bayesianos; medidas alternativas de evidencia, tales como razones de probabilidad o factores de Bayes; y otros enfoques como el modelado teórico de decisiones y las tasas de descubrimiento falso. Todas estas medidas y enfoques se basan en supuestos adicionales, pero pueden abordar más directamente el tamaño de un efecto (y su incertidumbre asociada) o si la hipótesis es correcta. $p$ $p$

Así que imaginemos la realidad de los valores post- . ASA enumera algunos métodos que se pueden usar en lugar de los valores , pero ¿por qué son mejores? ¿Cuál de ellos puede ser un reemplazo en la vida real para un investigador que utilizó valores durante toda su vida? Me imagino que este tipo de preguntas será aparecer en post- -valores realidad, así que tal vez vamos a tratar de estar un paso por delante de ellos. ¿Cuál es la alternativa razonable que se puede aplicar de fábrica? ¿Por qué este enfoque debería convencer a su investigador principal, editor o lectores? $p$ $p$ $p$ $p$

Como sugiere esta entrada de blog de seguimiento , los valores son inmejorables en su simplicidad: $p$

El valor p requiere solo un modelo estadístico para mantener el comportamiento de una estadística bajo la hipótesis nula. Incluso si se usa un modelo de hipótesis alternativa para elegir una estadística “buena” (que se usaría para construir el valor p), este modelo alternativo no tiene que ser correcto para que el valor p sea válido y útil (es decir: controla el error tipo I en el nivel deseado mientras ofrece algo de potencia para detectar un efecto real). Por el contrario, otros métodos estadísticos (maravillosos y útiles), como las razones de probabilidad, la estimación del tamaño del efecto, los intervalos de confianza o los métodos bayesianos, todos necesitan que los modelos asumidos se mantengan en un rango más amplio de situaciones, no solo bajo la nula probada.

¿Lo son, o tal vez no es cierto y podemos reemplazarlos fácilmente?

Lo sé, esto es amplio, pero la pregunta principal es simple: ¿cuál es la mejor (y por qué), alternativa de la vida real a los valores que se pueden usar como reemplazo? $p$

ASA (2016). Declaración de ASA sobre significancia estadística y valores $P$ El estadístico estadounidense. (en prensa)

hypothesis-testing bayesian p-value frequentist Tim
fuente

3

¡Con el objetivo de convertirse en una pregunta clásica +1! El enfoque bayesiano, porque nos permite responder (al menos subjetivamente) a la pregunta que a menudo nos interesa, a saber: "A la luz de la evidencia (datos), ¿cuál es la probabilidad de que la hipótesis sea cierta?"

Christoph Hanck

99

La " realidad del valor " tiene un bonito anillo distópico.

p

$p$

Marc Claesen

44

Vale la pena leer los documentos de discusión publicados junto con la declaración ASA, ya que algunos de ellos tienen sugerencias sobre lo que podría reemplazar los valores p. Contenido Suplementario

Seth

2

He publicado una pregunta relacionada basada en otra parte del informe de ASA, una de sus advertencias sobre los posibles abusos de los valores de p: ¿Cuánto sabemos sobre el pirateo de p?

Silverfish

1

Como comentario a mi propia pregunta, hay un buen hilo que trata un tema similar: stats.stackexchange.com/questions/17897/…

Tim

100

Centraré esta respuesta en la pregunta específica de cuáles son las alternativas a los valores . $p$

Hay 21 documentos de discusión publicados junto con la declaración de ASA (como Materiales suplementarios): por Naomi Altman, Douglas Altman, Daniel J. Benjamin, Yoav Benjamini, Jim Berger, Don Berry, John Carlin, George Cobb, Andrew Gelman, Steve Goodman, Sander Groenlandia, John Ioannidis, Joseph Horowitz, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Michele Millar, Charles Poole, Ken Rothman, Stephen Senn, Dalene Stangl, Philip Stark y Steve Ziliak (algunos de ellos escribieron juntos ; Enumero todo para futuras búsquedas). Estas personas probablemente cubren todas las opiniones existentes sobre los valores y la inferencia estadística. $p$

He revisado los 21 documentos.

Desafortunadamente, la mayoría de ellos no discute ninguna alternativa real, a pesar de que la mayoría trata sobre las limitaciones, malentendidos y otros problemas con los valores (para una defensa de los valores , vea Benjamini, Mayo y Senn). Esto ya sugiere que las alternativas, si las hay, no son fáciles de encontrar y / o defender. $p$ $p$

Así que echemos un vistazo a la lista de "otros enfoques" que figuran en la declaración ASA en sí (como se cita en su pregunta):

[Otros enfoques] incluyen métodos que enfatizan la estimación sobre las pruebas, como la confianza, la credibilidad o los intervalos de predicción; Métodos bayesianos; medidas alternativas de evidencia, tales como razones de probabilidad o factores de Bayes; y otros enfoques como el modelado teórico de decisiones y las tasas de descubrimiento falso.

Intervalos de confianza

Los intervalos de confianza son una herramienta frecuente que va de la mano con los valores ; casi siempre es una buena idea informar un intervalo de confianza (o algún equivalente, p. ej., error estándar media de la media) junto con el valor . $p$ $\pm$ $p$

Algunas personas (no entre los que disputan ASA) sugieren que los intervalos de confianza deberían reemplazar los valores . Uno de los defensores más directos de este enfoque es Geoff Cumming, que lo llama nuevas estadísticas (un nombre que me parece espantoso). Vea, por ejemplo, esta publicación de blog de Ulrich Schimmack para una crítica detallada: Una revisión crítica de las nuevas estadísticas de Cumming (2014): reventa de viejas estadísticas como nuevas estadísticas . Consulte también No podemos permitirnos estudiar el tamaño del efecto en la publicación de blog de laboratorio de Uri Simonsohn para un punto relacionado. $p$

Vea también este hilo (y mi respuesta allí) sobre la sugerencia similar de Norm Matloff, donde sostengo que cuando se informan los CI, a uno todavía le gustaría que también se informaran los valores : ¿Cuál es un buen ejemplo convincente en el que los valores p ¿Son útiles? $p$

Sin embargo, algunas otras personas (que tampoco están entre los disputadores de ASA) argumentan que los intervalos de confianza, al ser una herramienta frecuente, son tan equivocados como los valores y también deben eliminarse. Ver, por ejemplo, Morey et al. 2015, La falacia de colocar la confianza en los intervalos de confianza vinculados por @Tim aquí en los comentarios. Este es un debate muy antiguo. $p$
Métodos bayesianos

(No me gusta cómo la declaración ASA formula la lista. Los intervalos creíbles y los factores de Bayes se enumeran por separado de los "métodos bayesianos", pero obviamente son herramientas bayesianas. Así que los cuento juntos aquí).
- Existe una literatura enorme y muy obstinada sobre el debate bayesiano vs. frecuentista. Vea, por ejemplo, este hilo reciente para algunas reflexiones: ¿ Cuándo (si alguna vez) es un enfoque frecuentista sustancialmente mejor que un bayesiano? El análisis bayesiano tiene sentido si uno tiene buenos antecedentes informativos, y todos estarían felices de calcular e informar o lugar de $p(\theta|\text{data})$ $p(H_0:\theta=0|\text{data})$ $p(\text{data at least as extreme}|H_0)$ —Pero, por desgracia, la gente generalmente no tiene buenos antecedentes. Un experimentador registra 20 ratas haciendo algo en una condición y 20 ratas haciendo lo mismo en otra condición; La predicción es que el rendimiento de las ratas anteriores superará el rendimiento de las últimas ratas, pero nadie estaría dispuesto ni sería capaz de establecer un previo claro sobre las diferencias de rendimiento. (Pero vea la respuesta de @ FrankHarrell donde defiende el uso de "antecedentes escépticos").
- Los bayesianos acérrimos sugieren usar métodos bayesianos incluso si uno no tiene antecedentes informativos. Un ejemplo reciente es Krushke, 2012, la estimación bayesiana reemplaza a la prueba $t$ , humildemente abreviada como MEJOR. La idea es utilizar un modelo bayesiano con antecedentes no informativos débiles para calcular el posterior para el efecto de interés (como, por ejemplo, una diferencia de grupo). La diferencia práctica con el razonamiento frecuentista generalmente parece ser menor, y hasta donde puedo ver, este enfoque sigue siendo impopular. Ver ¿Qué es un "previo no informativo"? ¿Podemos tener uno que realmente no tenga información? para la discusión de lo que es "no informativo" (respuesta: no existe tal cosa, de ahí la controversia).
- Un enfoque alternativo, volviendo a Harold Jeffreys, se basa en pruebas bayesianas (en oposición a la estimación bayesiana ) y utiliza factores de Bayes. Uno de los defensores más elocuentes y prolíficos es Eric-Jan Wagenmakers, quien ha publicado mucho sobre este tema en los últimos años. Vale la pena destacar dos características de este enfoque. Primero, vea Wetzels et al., 2012, Una prueba de hipótesis bayesiana predeterminada para diseños ANOVA para una ilustración de cuán fuerte puede depender el resultado de dicha prueba bayesiana de la elección específica de la hipótesis alternativa $H_1$ y la distribución de parámetros ("anterior") que plantea. En segundo lugar, una vez que se elige un previo "razonable" (Wagenmakers anuncia los llamados anteriores "predeterminados" de Jeffreys), los factores de Bayes resultantes a menudo resultan ser bastante consistentes con los valores estándar , ver, por ejemplo, esta figura de esta preimpresión de Marsman & Wagenmakers : $p$
  
  Entonces, mientras Wagenmakers et al. siga insistiendo en que los valores son profundamente defectuosos y que los factores de Bayes son el camino a seguir, uno no puede dejar de preguntarse ... (Para ser justos, el punto de Wetzels et al. 2011 es que para valores de cercanos a factores de Bayes solamente indican pruebas muy débiles contra el nulo; pero tenga en cuenta que esto puede tratarse fácilmente en un paradigma frecuentista simplemente usando un más estricto , algo que mucha gente defiende de todos modos). $p$ $p$ $0.05$ $\alpha$
  
  Uno de los documentos más populares de Wagenmakers et al. en defensa de los factores de Bayes es 2011, por qué los psicólogos deben cambiar la forma en que analizan sus datos: el caso de psi donde argumenta que el infame documento de Bem sobre la predicción del futuro no habría llegado a conclusiones erróneas si solo hubieran utilizado factores de Bayes de valores . Vea esta publicación de blog reflexiva de Ulrich Schimmack para obtener un contraargumento detallado (y convincente en mi humilde opinión): Por qué los psicólogos no deberían cambiar la forma en que analizan sus datos: El diablo está en el Prior predeterminado . $p$
  
  Consulte también la publicación de blog La prueba bayesiana predeterminada tiene prejuicios contra pequeños efectos de Uri Simonsohn.
- Para completar, menciono que Wagenmakers 2007, una solución práctica a los problemas generalizados de los valores $p$ sugirió utilizar BIC como una aproximación al factor Bayes para reemplazar los valores . BIC no depende de lo anterior y, por lo tanto, a pesar de su nombre, no es realmente bayesiano; No estoy seguro de qué pensar sobre esta propuesta. Parece que más recientemente Wagenmakers está más a favor de las pruebas bayesianas con antecedentes poco informativos de Jeffreys, ver arriba. $p$
Para más información sobre la estimación de Bayes frente a las pruebas bayesianas, consulte Estimación de parámetros bayesianos o pruebas de hipótesis bayesianas. y enlaces en el mismo.
Factores mínimos de Bayes

Entre los disputadores de ASA, esto lo sugieren explícitamente Benjamin & Berger y Valen Johnson (los únicos dos documentos que tratan de sugerir una alternativa concreta). Sus sugerencias específicas son un poco diferentes, pero son similares en espíritu.
- Las ideas de Berger se remontan a Berger & Sellke 1987 y hay varios documentos de Berger, Sellke y colaboradores hasta el año pasado que explican este trabajo. La idea es que debajo de una espiga y una losa anterior donde el punto nulo hipótesis obtiene probabilidad y todos los demás valores de obtener probabilidad extienden simétricamente alrededor de ("alternativa local"), luego la posterior mínima sobre todas las alternativas locales, es decir, el factor Bayes mínimo , es mucho más alto que el valor . Esta es la base de la afirmación (muy controvertida) de que $\mu=0$ $0.5$ $\mu$ $0.5$ $0$ $p(H_0)$ $p$ $p$ valores "exageran la evidencia" contra el nulo. La sugerencia es utilizar un límite inferior en el factor Bayes a favor del valor nulo en lugar del valor ; bajo algunos supuestos generales, este límite inferior se da por , es decir, el valor se multiplica efectivamente por que es un factor de alrededor de a para el común rango de valores . Este enfoque también ha sido respaldado por Steven Goodman. $p$ $-ep\log(p)$ $p$ $-e\log(p)$ $10$ $20$ $p$
  
  Actualización posterior: vea una bonita caricatura que explica estas ideas de una manera simple.
  
  Actualización posterior: vea Held & Ott, 2018, On -Values and Bayes Factors $p$ para una revisión exhaustiva y un análisis más detallado de la conversión de los valores a factores mínimos de Bayes. Aquí hay una tabla desde allí: $p$
- Valen Johnson sugirió algo similar en su artículo de PNAS 2013 ; su sugerencia se reduce aproximadamente a multiplicar los valores por que es alrededor de a . $p$ $\sqrt{-4\pi\log(p)}$ $5$ $10$
Para una breve crítica del artículo de Johnson, vea la respuesta de Andrew Gelman y @ Xi'an en PNAS. Para el contraargumento a Berger & Sellke 1987, ver Casella & Berger 1987 (¡diferente Berger!). Entre los documentos de discusión de la APA, Stephen Senn argumenta explícitamente en contra de cualquiera de estos enfoques:

Las probabilidades de error no son probabilidades posteriores. Ciertamente, hay mucho más en el análisis estadístico que los valores pero deben dejarse solos en lugar de deformarse de alguna manera para convertirse en probabilidades bayesianas posteriores de segunda clase. $P$

Véanse también las referencias en el artículo de Senn, incluidas las del blog de Mayo.
La declaración ASA enumera el "modelado teórico de decisiones y las tasas de descubrimiento falso" como otra alternativa. No tengo idea de qué están hablando, y me alegré de ver esto en el documento de discusión de Stark:

La sección "otros enfoques" ignora el hecho de que los supuestos de algunos de esos métodos son idénticos a los de los valores . De hecho, algunos de los métodos usan valores como entrada (por ejemplo, la tasa de descubrimiento falso). $p$ $p$

Soy muy escéptico de que haya algo que pueda reemplazar los valores en la práctica científica real, de modo que los problemas que a menudo se asocian con los valores (crisis de replicación, hackeo , etc.) desaparecerían. Cualquier procedimiento de toma fija, por ejemplo, una bayesiano, puede probablemente ser "hackeado" de la misma manera como -valores pueden ser -hacked (por alguna discusión y demostración de esto ver esta entrada del blog 2014 por Uri Simonsohn ). $p$ $p$ $p$ $p$ $p$

Para citar el documento de discusión de Andrew Gelman:

En resumen, estoy de acuerdo con la mayoría de las afirmaciones de la ASA sobre los valores pero creo que los problemas son más profundos y que la solución no es reformar los valores o reemplazarlos con algún otro resumen o umbral estadístico, sino más bien avanzar hacia una mayor aceptación de la incertidumbre y abrazar la variación. $p$ $p$

Y de Stephen Senn:

En resumen, el problema es menor con los valores per se pero con hacer un ídolo de ellos. Sustituir a otro dios falso no ayudará. $P$

Y así es como Cohen lo puso en su conocido y altamente citado artículo de 1994 (La cita de 3.5k) de 1994 La Tierra es redonda ( ) $p<0.05$ donde argumentó fuertemente en contra de los valores de : $p$

[...] no busque una alternativa mágica al NHST, algún otro ritual mecánico objetivo para reemplazarlo. No existe

ameba
fuente

1

@amoeba gracias, este es un gran resumen! Estoy de acuerdo con su escepticismo: este hilo surgió en parte porque lo comparto. En este momento dejo el hilo abierto, sin una respuesta aceptada, ya que tal vez alguien pueda proporcionar ejemplos y argumentos convincentes de que existe alguna alternativa buena y verdadera.

Tim

1

@amoeba con respecto a Wagenmakers y BIC, es bueno compararlo con la crítica, por ejemplo, por Gelman: andrewgelman.com/2008/10/23/i_hate_bic_blah

Tim

2

Esta es una respuesta realmente impresionante que merece estar entre las respuestas más votadas en CV. Puedo agregar otra recompensa en algún momento después de la de Tim.

Gung

Gracias, @gung, estoy feliz de escuchar eso, significa mucho de ti. Sin embargo, debo decir que solo estoy superficialmente familiarizado con las pruebas bayesianas y no tengo experiencia práctica con ellas. Entonces, esta respuesta proporciona un resumen de lo que he estado leyendo, pero en realidad no es una opinión experta.

ameba

1

No, no necesita un previo informativo para que Bayes funcione bien. Como Spiegelhalter ha demostrado muy bien, los antecedentes escépticos tienen un papel importante y son fáciles de usar. Las probabilidades bayesianas posteriores tienen grandes ventajas.

Frank Harrell

27

Aquí están mis dos centavos.

Creo que en algún momento, muchos científicos aplicados declararon el siguiente "teorema":

Teorema 1: $p\text{-value}<0.05\Leftrightarrow \text{my hypothesis is true}.$

y la mayoría de las malas prácticas provienen de aquí.

El valor y la inducción científica $p$

Solía trabajar con personas que usan estadísticas sin entenderlo realmente y aquí hay algunas de las cosas que veo:

ejecutar muchas posibles pruebas / reparametrizaciones (sin mirar una vez la distribución de los datos) hasta encontrar la "buena": la que da ; $p<0.05$
probar diferentes procesos previos (p. ej., en imágenes médicas) para obtener los datos a analizar hasta obtener el que da ; $p<0.05$
alcance aplicando la prueba t de una cola en la dirección positiva para los datos con efecto positivo y en la dirección negativa para los datos con efecto negativo (!!). $0.05$

Todo esto lo hacen científicos bien versados y honestos que no tienen una fuerte sensación de engaño. Por qué ? En mi humilde opinión, por el teorema 1.

En un momento dado, el científico aplicado puede creer firmemente en su hipótesis. Incluso sospecho que creen que saben que son verdaderas y el hecho es que en muchas situaciones han visto datos de años, han pensado en ellos mientras trabajan, caminan, duermen ... y son los mejores para decir algo sobre la respuesta a esta pregunta El hecho es que, en su opinión (lo siento, creo que me veo un poco arrogante aquí), según el teorema 1, si la hipótesis es cierta, el valor debe ser inferior a ; No importa cuál sea la cantidad de datos, cómo se distribuyen, la hipótesis alternativa, el efecto de tamaño, la calidad de la adquisición de datos. Si el valor no es $p$ $0.05$ $p$ $<0.05$ y la hipótesis es cierta, entonces algo no es correcto: el preprocesamiento, la elección de la prueba, la distribución, el protocolo de adquisición ... por lo que los cambiamos ... el valor es la clave fundamental de la inducción científica. $p$ $<0.05$

Hasta este punto, estoy de acuerdo con las dos respuestas anteriores de que los intervalos de confianza o los intervalos creíbles hacen que la respuesta estadística sea más adecuada para la discusión y la interpretación. Si bien el valor es difícil de interpretar (en mi humilde opinión) y finaliza la discusión, las estimaciones de intervalo pueden servir como una inducción científica ilustrada por estadísticas objetivas pero lideradas por argumentos expertos. $p$

El valor y la hipótesis alternativa $p$

Otra consecuencia de Th.1 es que si el valor de entonces la hipótesis alternativa es falsa. De nuevo, esto es algo que encuentro muchas veces: $p$ $>0.05$

intente comparar (solo porque tenemos los datos) una hipótesis del tipo : tome al azar 10 puntos de datos para cada uno de los dos grupos, calcule el valor para . Encuentre , observe en alguna parte del cerebro que no hay diferencia entre los dos grupos. $H_0: \mu_1 \ne \mu_2$ $p$ $H_0$ $p=0.2$

Un problema principal con el valor es que la alternativa nunca se menciona, aunque creo que en muchos casos esto podría ayudar mucho. Un ejemplo típico es el punto 4., donde le propuse a mi colega calcular la relación posterior para vs. y obtener algo como 3 (lo sé la cifra es ridículamente baja). El investigador me pregunta si significa que la probabilidad de que sea 3 veces mayor que la de $p$ $p(\mu_1>\mu_2|x)$ $p(\mu_1<\mu_2|x)$ $\mu_1>\mu_2$ $\mu_2>\mu_1$ . Le respondí que esta es una forma de interpretarlo y que ella lo encuentra increíble y que debería mirar más datos y escribir un artículo ... Mi punto no es que este "3" la ayude a comprender que hay algo en los datos. (de nuevo, 3 es claramente anedóctico) pero subraya que ella malinterpreta el valor p como "valor p> 0.05 no significa nada interesante / grupos equivalentes". Entonces, en mi opinión, siempre al menos discutir las hipótesis alternativas (es) es obligatorio, permite evitar la simplificación, da elementos para el debate.

Otro caso relacionado es cuando los expertos quieren:

prueba . Para eso prueban y rechazan luego concluyen usando el hecho de que las estimaciones de ML están ordenadas. $\mu_1>\mu_2>\mu_3$ $\mu_1=\mu_2=\mu_3$ $\mu_1>\mu_2>\mu_3$

Mencionar la hipótesis alternativa es la única solución para resolver este caso.

Por lo tanto, el uso de probabilidades posteriores, el factor de Bayes o la razón de probabilidad junto con intervalos de confianza / credibilidad parece reducir los principales problemas involucrados.

La interpretación errónea común de los intervalos de valor / confianza es un defecto relativamente menor (en la práctica) $p$

Si bien soy un entusiasta bayesiano, realmente creo que la interpretación errónea común del valor y CI (es decir, el valor no es la probabilidad de que la hipótesis nula sea falsa y el CI no es el intervalo que contiene el valor del parámetro con 95 % de probabilidad) no es la principal preocupación para esta pregunta (aunque estoy seguro de que este es un punto importante desde un punto de vista filosófico). El punto de vista bayesiano / frecuente tiene ambas respuestas pertinentes para ayudar al profesional en esta "crisis". $p$ $p$

Mi conclusión de dos centavos

Usar intervalos creíbles y factores de Bayes o probabilidades posteriores es lo que trato de hacer en mi práctica con expertos (pero también estoy entusiasmado con la razón de probabilidad de CI +). Llegué a las estadísticas hace unos años principalmente por autoaprendizaje desde la web (¡muchas gracias a Cross Validated!) Y crecí con las numerosas agitaciones en torno a los valores . No sé si mi práctica es buena, pero es lo que pragmáticamente encuentro como un buen compromiso entre ser eficiente y hacer mi trabajo correctamente. $p$

peuhp
fuente

Tal vez podría editar su ejemplo para que sea más claro ya que, por ahora, ¿qué estaba calculando, cuáles eran los datos y de dónde provenían los números?

Tim

@Tim. Tks para el feedbak. ¿A qué ejemplo te refieres?

peuhp

"trate de comparar (solo porque tenemos los datos) una hipótesis: tome 10 y 10 datos, calcule el valor p. Encuentre p = 0.2 ...."

Tim

1

Tampoco creo que "conocer" su hipótesis sea cierta incluso si los datos parecen sugerir lo contrario es necesariamente algo malo. Al parecer, así es como Gregor Mendel sintió cuando había algo mal con sus experimentos, porque tenía una intuición tan fuerte que sus teorías eran correctas.

dsaxton

@dsaxton Totalmente de acuerdo con usted. Tal vez no sea tan claro, pero esto es una cosa que trato de ilustrar en mi primer punto: el valor p no es la clave fundamental de la inducción científica (aunque parece ser para cierta audiencia). Es una medición estadística de evidencia a través de una cierta cantidad de datos, en ciertas condiciones. Y en un caso en el que tiene demasiadas razones externas para pensar que la hipoteca es verdadera, pero cuando los datos proporcionan el valor p "bueno", se pueden discutir otras cosas como lo mencionó adecuadamente. Trataré de aclararlo en mi respuesta.

peuhp

24

Las únicas razones por las que sigo usando los valores son $P$

Hay más software disponible para los métodos más frecuentes que los métodos bayesianos.
Actualmente, algunos análisis bayesianos tardan mucho en ejecutarse.
Los métodos bayesianos requieren más reflexión y más inversión de tiempo. No me importa la parte del pensamiento, pero a menudo el tiempo es corto, por lo que tomamos atajos.
El bootstrap es una técnica cotidiana muy flexible y útil que está más conectada con el mundo frecuentista que con el bayesiano.

$P$ valores , análogos a la sensibilidad y especificidad altamente problemáticas como medidas de precisión, son altamente deficientes en mi humilde opinión. El problema con estas tres medidas es que invierten el flujo de tiempo e información. Cuando cambia una pregunta de "cuál es la probabilidad de obtener evidencia como esta si el acusado es inocente" a "cuál es la probabilidad de culpabilidad del acusado basado en la evidencia", las cosas se vuelven más coherentes y menos arbitrarias. El razonamiento en el tiempo inverso hace que tengas que considerar "¿cómo llegamos aquí?" en oposición a "¿cuál es la evidencia ahora?". valores requieren considerar lo que pudo haber sucedido en lugar de lo que sucedió . Lo que podría haber ocurrido $P$ hace que uno tenga que hacer ajustes arbitrarios de multiplicidad, incluso ajustando las miradas de datos que podrían haber tenido un impacto pero que en realidad no lo hicieron.

Cuando los valores combinan con umbrales de decisión altamente arbitrarios, las cosas empeoran. Los umbrales casi siempre invitan a los juegos. $P$

Excepto por los modelos lineales gaussianos y la distribución exponencial, casi todo lo que hacemos con la inferencia frecuentista es aproximado (un buen ejemplo es el modelo logístico binario que causa problemas porque su función de probabilidad logarítmica es muy no cuadrática). Con la inferencia bayesiana, todo es exacto dentro del error de simulación (y siempre se pueden hacer más simulaciones para obtener probabilidades posteriores / intervalos creíbles).

He escrito un informe más detallado de mi pensamiento y evolución en http://www.fharrell.com/2017/02/my-journey-from-frequentist-to-bayesian.html

Frank Harrell
fuente

3

(+1) ¿Cómo propone que manejemos las preguntas más mundanas como "¿este tratamiento tiene algún efecto?" donde lo único que nos puede interesar es una simple respuesta sí / no. ¿Deberíamos eliminar los valores en estas situaciones?

p

$p$

dsaxton

2

Frank, no veo exactamente cómo responde esto a la pregunta sobre cuáles son las alternativas a los valores ; ¿puedes quizás aclarar? Imagine una aplicación típica de una prueba t: por ejemplo, un experimentador llega a usted con algunas medidas de rendimiento de 40 ratas, con 20 animales experimentales y 20 animales de control. Quieren saber si la manipulación experimental cambia el rendimiento (en una dirección prevista). Por lo general, realizarían una prueba t o una prueba de ranksum e informarían un valor p (junto con las medias, las DE, quizás el intervalo de confianza para la diferencia de grupo, etc.). ¿Qué sugerirías hacer en su lugar?

p

$p$

ameba

3

Mi enfoque favorito sería utilizar un modelo semiparamétrico bayesiano, por ejemplo, la regresión logística ordinal de probabilidades proporcionales bayesianas, luego obtener un intervalo creíble y probabilidades posteriores para el efecto de interés. Esa es una generalización de la prueba de Wilcoxon. Si quisiera ir paramétrico, usaría la prueba bayesiana de la extensión Box & Tiao que permite una distribución previa del grado de no normalidad.

t

$t$

Frank Harrell

1

Frank, gracias. No estoy muy familiarizado con las pruebas bayesianas (y no he oído hablar de Box & Tiao antes), pero mi impresión general es que el factor Bayes que se obtiene de una prueba bayesiana puede depender en gran medida de la elección específica de un no informativo antes de que entra. Y estas elecciones pueden ser difíciles de motivar. Supongo que lo mismo ocurre con los intervalos creíbles: dependerán en gran medida de la elección de un previo poco informativo. ¿No es verdad? Si es así, ¿cómo debería uno lidiar con eso?

ameba

2

Sí, aunque no uso factores de Bayes. El enfoque frecuentista también elige un previo, uno que ignora todos los demás conocimientos sobre el tema. Prefiero el enfoque escéptico anterior de Spiegelhalter. En un mundo ideal, dejarás que tus escépticos proporcionen lo anterior.

Frank Harrell

6

Un brillante pronosticador Scott Armstrong de Wharton publicó un artículo hace casi 10 años titulado Significance Tests Harm Progress in Forecasting en la revista internacional de predicción de una revista que él cofundó. A pesar de que esto está en el pronóstico, podría generalizarse a cualquier análisis de datos o toma de decisiones. En el artículo afirma que:

"Las pruebas de significación estadística perjudican el progreso científico. Los esfuerzos para encontrar excepciones a esta conclusión, hasta la fecha, no han dado resultado".

Esta es una lectura excelente para cualquier persona interesada en la visión antitética de las pruebas de significación y los valores de P.

La razón por la que me gusta este artículo es porque Armstrong ofrece alternativas a las pruebas de significación que son sucintas y podrían entenderse fácilmente, especialmente para un no estadístico como yo. Esto es mucho mejor en mi opinión que el artículo ASA citado en la pregunta:

Todo lo cual sigo adoptando y desde entonces dejé de usar pruebas de significación o de mirar valores de P, excepto cuando hago estudios experimentales aleatorios o cuasi experimentos. Debo agregar que los experimentos aleatorios son muy raros en la práctica, excepto en la industria farmacéutica / ciencias de la vida y en algunos campos de la ingeniería.

pronosticador
fuente

44

¿Qué quiere decir que "los experimentos aleatorios son muy raros en la práctica, excepto en la industria farmacéutica y en algunos campos de la ingeniería"? Los experimentos aleatorios están en todas partes en biología y psicología.

ameba

Lo edité para incluir las ciencias de la vida.

pronosticador

2

De acuerdo, pero diciendo eso rand. Exp. son "muy raros", excepto en medicina y ciencias de la vida y la psicología básicamente dice que son "muy comunes". Así que no estoy seguro de tu punto.

ameba

6

En este hilo, ya hay una buena cantidad de discusión esclarecedora sobre este tema. Pero déjame preguntarte: "¿Alternativas a qué exactamente?" Lo condenatorio de los valores p es que se ven obligados a vivir entre dos mundos: inferencia teórica de decisiones y estadísticas libres de distribución. Si está buscando una alternativa a "p <0.05" como regla teórica de decisión para dicotomizar los estudios como positivo / negativo o significativo / no significativo, entonces le digo: la premisa de la pregunta es defectuosa. Puede idear y encontrar muchas alternativas de marca para la inferencia basada en el valor que tienen exactamente las mismas deficiencias lógicas. $p$

Señalaré que la forma en que realizamos las pruebas modernas de ninguna manera concuerda con la teoría y las perspectivas de Fisher y Neyman-Pearson, quienes contribuyeron en gran medida a los métodos modernos. La sugerencia original de Fisher era que los científicos deberían comparar cualitativamente el valor con el poder del estudio y sacar conclusiones allí. $p$ . Todavía creo que este es un enfoque adecuado, que deja la cuestión de la aplicabilidad científica de los hallazgos en manos de esos expertos en contenido. Ahora, el error que encontramos en las aplicaciones modernas no es en absoluto un error de las estadísticas como ciencia. También está en juego la pesca, la extrapolación y la exageración. De hecho, si (por ejemplo) un cardiólogo debe mentir y afirmar que un medicamento que reduce la presión arterial promedio 0.1 mmHg es "clínicamente significativo", ninguna estadística nos protegerá de ese tipo de deshonestidad.

Necesitamos una inferencia estadística teórica de fin de decisión. Deberíamos esforzarnos por pensar más allá de la hipótesis. La brecha creciente entre la utilidad clínica y la investigación impulsada por hipótesis compromete la integridad científica. El estudio "significativo" es extremadamente sugerente, pero rara vez promete hallazgos clínicamente significativos.

Esto es evidente si inspeccionamos los atributos de la inferencia impulsada por hipótesis:

La hipótesis nula establecida es artificial, no está de acuerdo con el conocimiento actual y desafía la razón o la expectativa.
Las hipótesis pueden ser tangenciales al punto que el autor está tratando de hacer. Las estadísticas rara vez se alinean con gran parte de la discusión que sigue en los artículos, y los autores hacen afirmaciones de gran alcance de que, por ejemplo, su estudio de observación tiene implicaciones para las políticas públicas y la divulgación.
Las hipótesis tienden a ser incompletas en el sentido de que no definen adecuadamente la población de interés y tienden a generar una generalización excesiva.

Para mí, la alternativa es un enfoque metaanalítico, al menos cualitativo. Todos los resultados deben investigarse rigurosamente contra otros hallazgos y diferencias "similares" descritos con mucho cuidado, especialmente los criterios de inclusión / exclusión, las unidades o escalas utilizadas para exposiciones / resultados, así como los tamaños de los efectos y los intervalos de incertidumbre (que se resumen mejor con IC del 95% )

También debemos realizar ensayos confirmatorios independientes. Muchas personas se dejan influenciar por un ensayo aparentemente significativo, pero sin replicación no podemos confiar en que el estudio se haya realizado éticamente. Muchos han hecho carreras científicas con la falsificación de evidencia.

AdamO
fuente

"La sugerencia original de Fisher era que los científicos deberían comparar cualitativamente el valor p con el poder del estudio y sacar conclusiones allí". Me encanta este punto --- ¿tiene alguna referencia que pueda citar donde Fisher dijo esto? Sería un gran paso adelante si los científicos pasaran de una dicotomía simple de p <0.05 a una dicotomía solo un poco menos simple: "Si p <0.05 Y el poder fue alto, tenemos evidencia razonablemente sólida. Si p> 0.05 OR el poder era bajo, retendremos el juicio sobre esta hipótesis hasta que obtengamos más datos ".

civilstat

6

Lo que se prefiere y por qué debe depender del campo de estudio. Hace unos 30 años, comenzaron a aparecer artículos en revistas médicas que sugerían que los valores deberían reemplazarse por estimaciones con intervalos de confianza. El razonamiento básico fue que los valores simplemente le dicen que el efecto estaba allí, mientras que la estimación con su intervalo de confianza le dice qué tan grande fue y con qué precisión se ha estimado. El intervalo de confianza es particularmente importante cuando el valor no alcanza el nivel convencional de significancia porque permite al lector saber si esto probablemente se deba a que realmente no hay diferencia o al estudio inadecuado para encontrar una diferencia clínicamente significativa. $p$ $p$ $p$

Langman, MJS, titulado Hacia la estimación y los intervalos de confianza, y Gardner MJ y Altman, DG, titulado Intervalos de confianza en lugar de valores {P}: estimación en lugar de pruebas de hipótesis.

mdewey
fuente

2

En realidad, los CI no muestran el tamaño y la precisión del efecto, verifique, por ejemplo, Morey et al (2015) "La falacia de poner confianza en los intervalos de confianza" Psychonomic Bulletin & Review: learnbayes.org/papers/confidenceIntervalsFallacy

Tim

8

@Tim, buen papel, no lo he visto antes; Me gustó el ejemplo del submarino. Gracias por el enlace. Pero uno debería decir que está escrito por verdaderos partidarios bayesianos: "Los intervalos no bayesianos tienen propiedades indeseables, incluso extrañas, lo que llevaría a cualquier analista razonable a rechazarlos como un medio para sacar inferencias". Cualquier analista razonable! Impresionante arrogancia.

ameba

1

@amoeba está de acuerdo, solo estoy dando un contraejemplo, ya que, para mí, no es tan obvio que las alternativas sean tan claras y directas como puede parecer a primera vista.

Tim

44

Aunque interesante, no encontré el ejemplo del submarino tan convincente. Ningún estadista pensante razonaría como lo hace el del ejemplo. No deja de pensar y aplica un método a ciegas a todas las situaciones solo porque es útil en otras.

dsaxton

2

@amoeba: En esa cita en particular, "Los intervalos no bayesianos" se refiere específicamente a los intervalos discutidos en ese ejemplo, no todos los intervalos justificados por la lógica no bayesiana. Vea aquí más contexto: stats.stackexchange.com/questions/204530/...

richarddmorey

1

Mi elección sería continuar usando los valores de p, pero simplemente agregando intervalos de confianza / creíbles, y posiblemente para los intervalos de predicción de resultados primarios. Hay un libro muy bueno de Douglas Altman (Estadísticas con confianza, Wiley), y gracias a los enfoques boostrap y MCMC, siempre puedes construir intervalos razonablemente robustos.

Joe_74
fuente

66

Creo que realmente no responde la pregunta principal que es "¿por qué son mejores?" / "¿Por qué este enfoque debería convencer a su investigador principal, editor o lectores?". ¿Puedes desarrollar tu elección?

peuhp

1. Eso simplemente permite la práctica actual. 2. Hay una tendencia a hacer "pruebas de significación de puerta trasera" con el CI de todos modos, 3. Las pruebas de significancia (con valores p o CI) conducen a una baja tasa de reproducibilidad (ver artículos de Tim Lash). 4. No se puede molestar a los investigadores para preespecificar un límite o umbral de efecto clínicamente significativo.

AdamO

1

$p$

desarrollar un modelo más sofisticado que sea capaz de simular resultados en una población objetivo
Identificar y medir los atributos de una población objetivo en la que se podría implementar una decisión, tratamiento o política propuesta
estimar a modo de simulación una pérdida esperada en unidades brutas de una cantidad objetivo, como años de vida, años de vida ajustados por calidad, dólares, producción de cultivos, etc., y evaluar la incertidumbre de esa estimación.

Por supuesto, esto no excluye las pruebas normales de significación de hipótesis, pero subraya que los hallazgos estadísticamente significativos son pasos intermedios muy tempranos en el camino hacia el descubrimiento real y deberíamos esperar que los investigadores hagan mucho más con sus hallazgos.

AdamO
fuente

ASA analiza las limitaciones de los valores : ¿cuáles son las alternativas?

Respuestas:

El valor y la inducción científicappp

El valor y la hipótesis alternativappp

La interpretación errónea común de los intervalos de valor / confianza es un defecto relativamente menor (en la práctica)ppp

Mi conclusión de dos centavos

El valor y la inducción científica $p$

El valor y la hipótesis alternativa $p$

La interpretación errónea común de los intervalos de valor / confianza es un defecto relativamente menor (en la práctica) $p$