¿Es el valor p esencialmente inútil y peligroso de usar?

36

Este artículo " The Odds, Continually Updates" del NY Times me llamó la atención. Para ser breve, afirma que

[Las estadísticas bayesianas] están demostrando ser especialmente útiles para abordar problemas complejos, incluidas búsquedas como la que la Guardia Costera usó en 2013 para encontrar al pescador desaparecido, John Aldridge (aunque no, hasta ahora, en la búsqueda del vuelo 370 de Malaysia Airlines). ......, las estadísticas bayesianas están recorriendo todo, desde la física hasta la investigación del cáncer, la ecología y la psicología ...

En el artículo, también hay algunas críticas sobre el valor p del frecuentista, por ejemplo:

Los resultados generalmente se consideran "estadísticamente significativos" si el valor p es inferior al 5 por ciento. Pero hay un peligro en esta tradición, dijo Andrew Gelman, profesor de estadística en Columbia. Incluso si los científicos siempre hicieron los cálculos correctamente, y no lo hacen, argumenta, aceptar todo con un valor p del 5 por ciento significa que uno de cada 20 resultados "estadísticamente significativos" no es más que ruido aleatorio.

Además de lo anterior, quizás el artículo más famoso que critica el valor p es este: "Método científico: errores estadísticos" por Regina Nuzzo de Nature , en el que se han discutido muchos temas científicos planteados por el enfoque del valor p, como las preocupaciones de reproducibilidad, piratería de valor p, etc.

Los valores de P, el 'estándar de oro' de la validez estadística, no son tan confiables como muchos científicos suponen. ...... Quizás la peor falacia es el tipo de autoengaño por el cual el psicólogo Uri Simonsohn de la Universidad de Pennsylvania y sus colegas han popularizado el término piratería P; También se conoce como dragado de datos, espionaje, pesca, persecución de significado y doble inmersión. "Hackear P", dice Simonsohn, "está probando varias cosas hasta que obtenga el resultado deseado", incluso inconscientemente. ...... "Ese hallazgo parece haberse obtenido a través de p-hacking, los autores descartaron una de las condiciones para que el valor p general sea menor a .05", y "Ella es una p-hacker, ella siempre monitorea los datos mientras se recopilan ".

Otra cosa es una trama interesante como la siguiente desde aquí , con el comentario sobre la trama:

No importa cuán pequeño sea su efecto, siempre puede hacer el trabajo duro de recopilar datos para pasar el umbral de p <.05. Mientras el efecto que está estudiando no sea inexistente, los valores p solo miden cuánto esfuerzo ha puesto en recopilar datos.

ingrese la descripción de la imagen aquí

Con todo lo anterior, mis preguntas son:

  1. ¿Qué significa precisamente el argumento de Andrew Gelman, en la cita del segundo bloque? ¿Por qué interpretó el valor p del 5 por ciento como "uno de cada 20 resultados estadísticamente significativos observan ruido aleatorio"? No estoy convencido ya que para mí el valor p se usa para hacer inferencia en un solo estudio. Su punto parece estar relacionado con las pruebas múltiples.

    Actualización: Consulte el blog de Andrew Gelman sobre esto: ¡ No, no dije eso! (Créditos a @Scortchi, @whuber).

  2. Dadas las críticas sobre el valor p, y también dado que hay muchos criterios de información, como AIC, BIC, Malp's para evaluar la importancia de un modelo (por lo tanto, variables), ¿no deberíamos usar el valor p para la selección de variables en ¿todos menos usan esos criterios de selección de modelo?Cp

  3. ¿Hay alguna buena guía práctica de usar el valor p para el análisis estadístico que pueda conducir a resultados de investigación más confiables?
  4. ¿Sería el marco de modelado bayesiano una mejor manera de perseguir, como defienden algunos estadísticos? Específicamente, ¿sería más probable que el enfoque bayesiano resuelva el hallazgo falso o manipule los problemas de datos? Aquí tampoco estoy convencido, ya que lo anterior es muy subjetivo en el enfoque bayesiano. ¿Existen estudios prácticos y bien conocidos que muestren que el enfoque bayesiano es mejor que el valor p de los frecuentistas, o al menos en algunos casos particulares?

    Actualización: Me interesaría especialmente si hay casos en los que el enfoque bayesiano es más confiable que el enfoque del valor p de los frecuentistas. Por "confiable", quiero decir que es menos probable que el enfoque bayesiano manipule los datos para obtener los resultados deseados. ¿Alguna sugerencia?


Actualización 6/9/2015

Acabo de notar la noticia y pensé que sería bueno ponerla aquí para su discusión.

Revista de psicología prohíbe los valores de P

Una controvertida prueba estadística finalmente ha llegado a su fin, al menos en una revista. A principios de este mes, los editores de Basic and Applied Social Psychology (BASP) anunciaron que la revista ya no publicaría artículos que contengan valores de P porque las estadísticas se utilizaron con demasiada frecuencia para respaldar investigaciones de menor calidad.

Junto con un artículo reciente, "El voluble valor de P genera resultados irreproducibles" de Nature , sobre el valor de P.

Actualización 5/8/2016

En marzo, la Asociación Estadounidense de Estadística (ASA, por sus siglas en inglés) emitió declaraciones sobre la significación estadística y los valores p, "... La declaración ASA está destinada a dirigir la investigación en una 'era p <0.05'".

Esta declaración contiene 6 principios que abordan el mal uso del valor p:

  1. Los valores P pueden indicar cuán incompatibles son los datos con un modelo estadístico especificado.
  2. Los valores P no miden la probabilidad de que la hipótesis estudiada sea verdadera, o la probabilidad de que los datos se hayan producido solo por azar.
  3. Las conclusiones científicas y las decisiones comerciales o políticas no deben basarse solo en si un valor p supera un umbral específico.
  4. La inferencia adecuada requiere informes completos y transparencia.
  5. Un valor p, o significancia estadística, no mide el tamaño de un efecto o la importancia de un resultado.
  6. Por sí mismo, un valor p no proporciona una buena medida de evidencia con respecto a un modelo o hipótesis.

Detalles: "La declaración de ASA sobre valores p: contexto, proceso y propósito" .

Aaron Zeng
fuente
11
0.050.05
10
@whuber: Tienes razón: ¡ No, no dije eso! .
Scortchi - Restablece a Monica
44
Buen descubrimiento, @Scortchi! Para el registro, en caso de que el enlace alguna vez salga mal, Gelman rechaza enfáticamente la caracterización del NY Times (aunque con mucho tacto) y escribe "aceptar todo con un valor p del 5 por ciento puede conducir a hallazgos espurios, casos en los que se observa" "patrón estadísticamente significativo" en los datos no refleja un patrón correspondiente en la población, mucho más del 5 por ciento de las veces ".
whuber
3
En referencia a su comentario "Siempre y cuando el efecto que está estudiando no exista", ese es el punto de los estudios que involucran valores p: determinar si el efecto que está estudiando está realmente presente o si las peculiaridades en el Los datos que ha recopilado se deben al azar. Disminuir el valor de p al aumentar el tamaño de la muestra es completamente matemático y, de hecho, la única opción. De ninguna manera estás "pirateando" el valor p. Desde un punto de vista intuitivo, tiene sentido que poner más esfuerzo en recopilar datos se traduzca en una mayor confianza en las conclusiones que extraiga de ellos.
David Webb el
1
@DavidWebb De acuerdo. Si el tamaño del efecto es pequeño, está bien y será más fácil decir qué tan grande o pequeño es el efecto con más datos. Si puede obtener más datos, debería hacerlo.
Desty

Respuestas:

25

Aquí hay algunos pensamientos:

  1. 80%100/118.7584%
  2. Los criterios de selección de modelos, como el AIC, pueden verse como una forma de seleccionar un apropiado p
  3. Una buena guía para ajustar modelos de tal manera que no invalide su p
  4. No me opongo dogmáticamente al uso de métodos bayesianos, pero no creo que resuelvan este problema. Por ejemplo, puede seguir recopilando datos hasta que el intervalo creíble ya no incluya el valor que desea rechazar. Por lo tanto, tienes un 'hackeo de intervalos creíble'. A mi entender, el problema es que muchos profesionales no están intrínsecamente interesados ​​en los análisis estadísticos que utilizan, por lo que utilizarán el método que se les requiera de una manera irreflexiva y mecánica. Para obtener más información sobre mi perspectiva aquí, puede ser útil leer mi respuesta a: Tamaño del efecto como hipótesis para la prueba de significación .
gung - Restablece a Monica
fuente
10
(+1) Una manera fácil de hackear un intervalo creíble es adoptar justo antes :-). Por supuesto, ningún profesional competente haría esto (Gelman enfatiza el uso de evaluaciones de sensibilidad, hiperprecios no informativos, etc.) pero, de nuevo, ningún usuario competente de pruebas de hipótesis haría piratería de valores p, ¿verdad? Por otro lado, en un análisis bayesiano podría ser más difícil ocultar lo que uno está haciendo, suponiendo que lo anterior esté claramente revelado, en comparación con todos los análisis indocumentados que pueden estar involucrados en la piratería del valor p.
whuber
1
@whuber, eso es cierto, pero creo que podemos dejar de lado cualquier problema con lo inapropiado o subjetivo del anterior. Si el verdadero efecto no es exactamente 0, con suficientes datos, el intervalo creíble eventualmente no incluirá 0, al igual que p será <.05 (cf, la última cita), por lo que puede seguir recopilando datos hasta que obtenga el resultado que desea independientemente del anterior.
gung - Restablece a Monica
44
Buenos puntos. Recuerdo una pregunta reciente sobre la predicción de fallas en 10,000 productos después de observar que no hay fallas en 100,000 de ellos. La respuesta es bastante sensible a lo anterior porque las fallas son muy raras. Este puede ser el tipo de situación excepcional que "prueba la regla"; muestra que en realidad puede ser impracticable recopilar datos suficientes para obtener el resultado deseado. ¡Eso es exactamente cuando algunos clientes comienzan a implorar al estadístico que "haga su magia" para lograr el resultado deseado! Probablemente muchos lectores hayan sentido esa presión antes ...
whuber
1
@gung, en ensayos clínicos prácticos, siempre hay criterios de detención en diferentes fases para reclutar más sujetos para experimentos. En ese sentido, ¿sería menos probable que el enfoque bayesiano manipule el intervalo creíble, por lo tanto, las conclusiones de la investigación?
Aaron Zeng
2
@AaronZeng, me parece que los criterios explícitos de detención se aplican igualmente a las perspectivas frequentista y bayesiana. No veo ninguna ventaja / desventaja neta aquí.
gung - Restablecer Monica
8

Para mí, una de las cosas más interesantes sobre la controversia de p-hacking es que toda la historia de p <= 0.05 como el estándar "una vez en una luna azul" para la significación estadística, como Joseph Kaldane señaló en un artículo de JASA sobre estadísticas forenses allá por los años 90, no se basa en absoluto en ninguna teoría estadística. Es una convención, simple heurística y regla general que comenzó con RA Fisher y desde entonces ha sido reificada o consagrada a su actual estado "incuestionable". Bayesiano o no, hace mucho tiempo que es necesario desafiar este estándar métrico o al menos darle el escepticismo que merece.

Dicho esto, mi interpretación del punto de Gelman es que, como es bien sabido, el proceso de revisión por pares recompensa la significación estadística positiva y castiga resultados insignificantes al no publicar esos documentos. Esto es independiente de si publicar o no un hallazgo insignificante tendría un impacto potencialmente grande en el pensamiento y la teorización de un dominio dado. Gelman, Simonshohn y otros han señalado reiteradamente el abuso del nivel de significancia de 0.05 en investigaciones revisadas y publicadas por pares al presentar ejemplos de hallazgos ridículos pero estadísticamente significativos en investigaciones paranormales, sociales y psicológicas. Uno de los más atroces fue el hallazgo estadísticamente significativo de que las mujeres embarazadas tenían más probabilidades de usar vestidos rojos. Gelman sostiene que, en ausencia de desafíos lógicos para los resultados estadísticos,explicación potencialmente sin sentido. Aquí, se refiere al riesgo laboral de la industria con argumentos excesivamente técnicos y abstrusos que hacen poco o nada para avanzar en un debate entre un público lego.

Este es un punto que Gary King hace con vehemencia cuando prácticamente ruega a los científicos políticos cuantitativos (y, por extensión, todos los cuantos) que detengan los informes mecanicistas y técnicos como "este resultado fue significativo en un nivel p <= 0.05" y avanzó hacia interpretaciones más sustantivas . Aquí hay una cita de un artículo de él,

(1) transmitir estimaciones numéricamente precisas de las cantidades de mayor interés sustantivo, (2) incluir medidas razonables de incertidumbre acerca de esas estimaciones, y (3) requieren poco conocimiento especializado para comprender. La siguiente declaración simple satisface nuestros criterios: "En igualdad de condiciones, un año adicional de educación aumentaría su ingreso anual en 1,500 dólares en promedio, más o menos alrededor de 500 dólares". Cualquier estudiante inteligente de secundaria entendería esa oración, sin importar cuán sofisticado sea el modelo estadístico y lo poderoso que las computadoras lo usen para producirlo.

El punto de vista de King está muy bien tomado y traza la dirección que debe tomar el debate.

Aprovechar al máximo los análisis estadísticos: mejorar la interpretación y la presentación , King, Tomz y Wittenberg, 2002, Am Jour de Poli Sci .

Mike Hunter
fuente
2
+1 Gracias por esta contribución legible, informativa y reflexiva al hilo.
whuber
@whuber Gracias por las amables palabras. El tiempo dirá si otros participantes están de acuerdo o no.
Mike Hunter
2
Puede que me engañen, pero me gusta pensar que algunos (si no la mayoría) de nuestros votantes activos no votan sobre la base de un acuerdo o desacuerdo, sino sobre si una publicación responde a la pregunta original de una manera clara y autorizada. . Después de todo, el texto de desplazamiento sobre el ícono de votación dice "Esta respuesta es útil", no "Estoy de acuerdo con este tipo". (Esto no debe confundirse con votar en nuestro meta sitio, lo que significa un grado de acuerdo). Las numerosas insignias de deportividad otorgadas ofrecen cierta evidencia de esta impresión .
whuber
@Whuber El matiz que señala está debidamente anotado.
Mike Hunter
@whuber este hilo fue la fuente de mi uso de la palabra engañada en nuestro chat el otro día.
Mike Hunter
5

Estos son algunos de mis pensamientos con respecto a la Pregunta 3 después de leer todos los comentarios y respuestas perspicaces.

Quizás una guía práctica en el análisis estadístico para evitar la piratería del valor p es, en cambio, observar el tamaño de efecto significativo / significativo científicamente (o, biológicamente, clínicamente, etc.).

θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ el tamaño del efecto predefinido para reclamar una significación significativa.

Además, para evitar el uso de un tamaño de muestra demasiado grande para detectar el efecto, también se debe tener en cuenta el tamaño de muestra requerido. Es decir, deberíamos limitar el tamaño máximo de muestra utilizado para el experimento.

Para resumir,

  1. Necesitamos predefinir un umbral para que el tamaño del efecto significativo declare significancia;
  2. Necesitamos predefinir un umbral para el tamaño de la muestra utilizada en el experimento para cuantificar cuán detectable es el tamaño significativo del efecto;

Con lo anterior, tal vez podamos evitar un efecto "significativo" menor reclamado por un gran tamaño de muestra.


[Actualización 6/9/2015]

Con respecto a la Pregunta 3, aquí hay algunas sugerencias basadas en el artículo reciente de la naturaleza: "El voluble valor de P genera resultados irreproducibles" como mencioné en la parte de la Pregunta.

  1. Informe las estimaciones del tamaño del efecto y su precisión, es decir, el intervalo de confianza del 95%, ya que esa información más informativa responde exactamente preguntas como cuán grande es la diferencia o cuán fuerte es la relación o asociación;
  2. Coloque las estimaciones del tamaño del efecto y los IC del 95% en el contexto de los estudios / preguntas científicas específicos y concéntrese en su relevancia para responder esas preguntas y descontar el voluble valor de P;
  3. Reemplace el análisis de potencia con " planificación de precisión " para determinar el tamaño de muestra requerido para estimar el tamaño del efecto para alcanzar un grado definido de precisión.

[Fin de la actualización 6/9/2015]

Aaron Zeng
fuente
44
H0:θ=δ entonces estás argumentando a favor de la prueba de equivalencia , lo que creo que es algo bueno en muchas situaciones. (Por lo general, las pruebas de hipótesis no se presentan como la segunda situación, porque hay resultados potenciales que no son nulos o alternativos).
Andy W
@AndyW, gracias por los comentarios. He cambiado mi respuesta en consecuencia. ¿Suena eso una mejor opción?
Aaron Zeng
2
+1 para la referencia a ese artículo de Nature. Sin embargo, contiene cierta información errónea sorprendente, como la interpretación bayesiana (sin previo aviso) de los valores p: "Como ejemplo, si un estudio obtiene P = 0.03, hay un 90% de posibilidades de que un estudio replicado devuelva un valor P en alguna parte entre el amplio rango de 0-0.6 (intervalos de predicción del 90%), mientras que las posibilidades de P <0.05 son solo del 56% ". Me pregunto qué distribución previa están asumiendo los autores, y ¿por qué eso es relevante?
whuber
@AndyW y Aaron Zeng, aún mejor es combinar los resultados de ambas pruebas de diferencia y las pruebas de equivalencia. De esa manera, uno coloca el tamaño del efecto relevante y el poder estadístico explícitamente en las conclusiones que saca (vea la sección sobre pruebas de relevancia).
Alexis
3

En el uso contemporáneo, el valor p se refiere a la probabilidad acumulativa de que los datos, dada la hipótesis nula, sean iguales o mayores que algún umbral. Es decirPAGS(reEl |H0 0)α. pienso queH0 0tiende a ser una hipótesis de "no efecto", generalmente representada por una comparación de la probabilidad de un resultado aleatorio satisfactoriamente improbable en cierto número de ensayos. Dependiendo del campo, varía de 5% a 0.1% o menos. Sin embargo,H0 0 no tiene que ser una comparación al azar.

  1. Implica que los resultados 1/20 pueden rechazar el valor nulo cuando no deberían tenerlo. Si la ciencia basara su conclusión en experimentos individuales, entonces la afirmación sería defendible. De lo contrario, si los experimentos fueran repetibles, implicaría que 19/20 no sería rechazado. La moraleja de la historia es que los experimentos deben ser repetibles.

  2. La ciencia es una tradición basada en la "objetividad", por lo que la "probabilidad objetiva" atrae naturalmente. Recuerde que se supone que los experimentos demuestran un alto grado de control que a menudo emplea diseño de bloques y asignación al azar para controlar factores fuera del estudio. Por lo tanto, la comparación con el azar tiene sentido porque se supone que todos los demás factores deben controlarse, excepto los que están en estudio. Estas técnicas tuvieron mucho éxito en la agricultura y la industria antes de ser portadas a la ciencia.

  3. No estoy seguro de si la falta de información fue realmente el problema. Es notable que para muchos en las ciencias no matemáticas, la estadística es solo una casilla para marcar.

  4. Sugeriría una lectura general sobre la teoría de la decisión que une los dos marcos. Simplemente se reduce a usar tanta información como usted tenga. Las estadísticas frecuentes suponen que los parámetros en los modelos tienen valores desconocidos de distribuciones fijas. Los bayesianos suponen que los parámetros en los modelos provienen de distribuciones condicionadas por lo que sabemos. Si hay suficiente información para formar una información previa y suficiente para actualizarla a una posterior precisa, entonces eso es genial. Si no lo hay, puede terminar con peores resultados.

Emir
fuente
1

Reproducibilidad de resultados de pruebas estadísticas.

Este es un ejercicio corto y simple para evaluar la reproducibilidad de las decisiones basadas en pruebas estadísticas.

Considere una hipótesis nula H0 con un conjunto de hipótesis alternativas que contienen H1 y H2. Configure el procedimiento de prueba de hipótesis estadística en un nivel de significancia de 0.05 para tener una potencia de 0.8, si H1 es verdadero. Además, suponga que la potencia para H2 es 0.5. Para evaluar la reproducibilidad del resultado de la prueba, se considera el experimento de ejecutar el procedimiento de prueba dos veces. Comenzando con la situación, donde H0 es verdadera, las probabilidades para los resultados del experimento conjunto se muestran en la Tabla 1. La probabilidad de no poder reproducir decisiones es 0.095.

Tabla 1. Frecuencias, si H0 es verdadero

Frmiqtuminortedoy.oF.remidoyosyoonorteRmijmidot.H0 0Rmitunayonorte.H0 0Rmijmidot.H0 00.00250,0475Rmitunayonorte.H0 00,04750,9025

Las frecuencias cambian a medida que cambia el verdadero estado de la naturaleza. Suponiendo que H1 es cierto, H0 puede ser rechazado según lo diseñado con una potencia de 0.8. Las frecuencias resultantes para los diferentes resultados del experimento conjunto se muestran en la Tabla 2. La probabilidad de no poder reproducir decisiones es 0.32.

Tabla 2. Frecuencias, si H1 es verdadero

Frmiqtuminortedoy.oF.remidoyosyoonorteRmijmidot.H0 0Rmitunayonorte.H0 0Rmijmidot.H0 00,640,16Rmitunayonorte.H0 00,160,04

Assuming H2 is true, H0 will be rejected with a probability of 0.5. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 3. The probability of not being able to reproduce decisions is 0.5.

Table 3. Frequencies, if H2 is true

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

The test procedure was designed to control type I errors (the rejection of the null hypothesis even though it is true) with a probability of 0.05 and limit type II errors (no rejection of the null hypothesis even though it is wrong and H1 is true) to 0.2. For both cases, with either H0 or H1 assumed to be true, this leads to non-negligible frequencies, 0.095 and 0.32, respectively, of "non-reproducible", "contradictory" decisions, if the same experiment is repeated twice. The situation gets worse with a frequency up to 0.5 for "non-reproducible", "contradictory" decisions, if the true state of nature is between the null- and the alternative hypothesis used to design the experiment.

The situation can also get better - if type 1 errors are controlled more strictly, or if the true state of nature is far away from the null, which results in a power to reject the null that is close to 1.

Thus, if you want more reproducible decisions, increase the significance level and the power of your tests. Not very astonishing ...

user36160
fuente
(+1) But you can't set the p-value to 5% before the experiment - think you mean "significance level".
Scortchi - Reinstate Monica
Thank you. Same thing in the last sentence: "decrease the significance levels and increase the power"
Scortchi - Reinstate Monica
I think the biggest issue with p values is that people confuse them with substantive significance. So if p < .05 it means that the discovered effect size is large enough to matter. I get asked at work to generate [substantively] significant effects by generating p values.
user54285