La abundancia de valores de P en ausencia de una hipótesis

28

Estoy en epidemiología. No soy estadístico, pero trato de realizar los análisis yo mismo, aunque a menudo encuentro dificultades. Hice mi primer análisis hace unos 2 años. Los valores de P se incluyeron en todas partes en mis análisis (simplemente hice lo que otros investigadores estaban haciendo) desde tablas descriptivas hasta análisis de regresión. Poco a poco, los estadísticos que trabajan en mi departamento me persuadieron de omitir todos (!) Los valores p, excepto de donde realmente tengo una hipótesis.

El problema es que los valores de p son abundantes en las publicaciones de investigación médica. Es convencional incluir valores de p en demasiadas líneas; datos descriptivos de medias, medianas o lo que sea que generalmente acompañe a los valores de p (prueba t de estudiantes, Chi-cuadrado, etc.).

Recientemente envié un artículo a una revista y me negué (cortésmente) a agregar valores p a mi tabla descriptiva "de referencia". El documento fue finalmente rechazado.

Para ejemplificar, vea la figura a continuación; es la tabla descriptiva del último artículo publicado en una respetada revista de medicina interna .: ingrese la descripción de la imagen aquí

Los estadísticos están principalmente (si no siempre) involucrados en la revisión de estos manuscritos. Entonces, un laico como yo espera no encontrar ningún valor de p donde no haya hipótesis. Pero son abundantes, pero la razón de esto sigue siendo difícil para mí. Me cuesta creer que sea ignorancia.

Me doy cuenta de que esta es una pregunta estadística límite. Pero estoy buscando la razón detrás de este fenómeno.

Adam Robinsson
fuente
12
Un valor p sin hipótesis es inherentemente defectuoso. ¿Qué significa un valor p incluso cuando no tienes una hipótesis?
jameselmore
3
¿Quizás podría dar algunos ejemplos de personas que usan valores p sin ninguna hipótesis? Esto no está claro.
ameba dice Reinstate Monica
44
@amoeba "" El problema es que los valores p están en todas partes en todas las revistas médicas. Es convencional incluir valores de p en cada línea donde hay medias, medianas o proporciones descritas. "" Tienden a ser simples pruebas exactas de Fisher o pruebas de chi-cuadrado para las diferencias, preguntando si alguna fila de una tabla de resumen tiene una diferencia significativa . La hipótesis implícita es que cada fila importa.
Karl
2
Sospecho que una fuerza importante es que los valores p dan una impresión engañosa de finalidad a un reclamo dado. Los editores de estas revistas deberían amar esto, ya que significa que poseen información que será valiosa para el futuro previsible. La cultura concurrente de no financiar o proponer estudios de replicación también ayuda a minimizar la presencia de resultados conflictivos controvertidos. Me pregunto qué sucederá si las personas finalmente se dan cuenta de que la información que poseen consiste principalmente en "actividad sin sentido" (término de @ glen_b). Incluso si hay cosas útiles mezcladas ... las heurísticas le dicen que evite.
Livid
1
[at] jameselmore: estoy haciendo la misma pregunta; No tiene sentido, pero se aplica todos los días. [at] ameba: elegí al azar una de las revistas que leí, leí el último artículo publicado y encontré esto: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: exactamente, gracias. @Momo: He hecho un esfuerzo ahora para mejorar la formulación de la pregunta. Creo que esta es una pregunta importante y agradezco su sugerencia. [at] Livid: gracias por este comentario. De hecho, muchos investigadores podrían haber entendido mal el punto completo de los valores de p.
Adam Robinsson

Respuestas:

29

Claramente, no necesito decirte qué es un valor p, o por qué confiar demasiado en ellos es un problema; aparentemente ya entiendes esas cosas bastante bien.

Con la publicación, tienes dos presiones competitivas.

El primero, y uno por el que debe presionar en cada oportunidad razonable, es hacer lo que tenga sentido.

La segunda, en última instancia, es la necesidad de publicar realmente. Hay poco beneficio si nadie ve sus buenos esfuerzos para reformar una práctica terrible.

Entonces, en lugar de evitarlo por completo:

  • hazlo con tan poca actividad tan inútil como puedas salirte con la tuya que todavía lo publica

  • tal vez incluya una mención de este reciente artículo sobre métodos de la Naturaleza [1] si cree que ayudará, o quizás mejor una o más de las otras referencias. Al menos debería ayudar a establecer que existe cierta oposición a la primacía de los valores p.

  • considerar otras revistas, si otra fuera adecuada

¿Es esto lo mismo en otras disciplinas?

El problema del exceso de uso de los valores de p se produce en una serie de disciplinas (esto puede incluso ser un problema cuando no es una hipótesis), pero es mucho menos común en unos que en otros. Algunas disciplinas tienen problemas con p-value-itis, y los problemas que causan pueden conducir a reacciones exageradas [2] (y en menor medida, [1], y al menos en algunos lugares, algunos de los otros también).

Creo que hay una variedad de razones para ello, pero la excesiva dependencia de los valores p parece adquirir un impulso propio: hay algo sobre decir "significativo" y rechazar un valor nulo que la gente parece encontrar muy atractivo; varias disciplinas (p. ej., ver [3] [4] [5] [6] [7] [8] [9] [10] [11]) han estado luchando (con diversos grados de éxito) contra el problema de la excesiva dependencia de valores p (especialmente = 0.05) durante muchos años, y he hecho muchos tipos diferentes de sugerencias, no todas con las que estoy de acuerdo, pero incluyo una variedad de puntos de vista para dar una idea de las diferentes cosas que las personas han tenido que decir.α

Algunos abogan por centrarse en los intervalos de confianza, algunos abogan por mirar los tamaños de los efectos, algunos abogan por los métodos bayesianos, algunos valores p más pequeños, algunos simplemente evitan el uso de valores p de formas particulares, etc. En su lugar, hay muchos puntos de vista diferentes sobre qué hacer, pero entre ellos hay una gran cantidad de material sobre problemas para confiar en los valores p, al menos de la forma en que se hace con bastante frecuencia.

Ver esas referencias para muchas más referencias a su vez. Esto es solo una muestra: se pueden encontrar muchas docenas más de referencias. Algunos autores dan razones por las cuales piensan que los valores p son frecuentes.

Algunas de estas referencias pueden ser útiles si desea discutir el punto con un editor.

[1] Halsey LG, Curran-Everett D., Vowler SL y Drummond GB (2015),
"El voluble valor P genera resultados irreproducibles",
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / journal / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow, D. y Marks, M. (2015),
Editorial,
Psicología social básica y aplicada , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Cosas que he aprendido (hasta ahora),
Psicólogo estadounidense , 45 (12), 1304-1312.

[4] Cohen, J. (1994),
La tierra es redonda (p <.05),
American Psychologist , 49 (12), 997–1003.

[5] Valen E. Johnson (2013),
Estándares revisados ​​para evidencia estadística PNAS , vol. 110, no. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
Qué creer: métodos bayesianos para el análisis de datos,
Tendencias en ciencias cognitivas 14 (7), 293-300

[7] Ioannidis, J. (2005)
Por qué los hallazgos de investigación más publicados son falsos,
PLoS Med. Ago; 2 (8): e124.
doi: 10.1371 / journal.pmed.0020124

[8] Gelman, A. (2013), Valores P y práctica estadística,
Epidemiology vol. 24 , N ° 1, enero, 69-72

[9] Gelman, A. (2013),
"El problema con los valores p es cómo se usan",
(Discusión de "En defensa de los valores P", por Paul Murtaugh, para Ecología )
http no publicado : // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Errores estadísticos: los valores de P, el 'estándar de oro' de la validez estadística, no son tan confiables como muchos científicos suponen,
News and Comment,
Nature , vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Una solución práctica a los problemas generalizados de los valores de p,
Psychonomic Bulletin & Review 14 (5), 779-804

Glen_b -Reinstate a Monica
fuente
77
+1. Leí este artículo de Nature Methods [1] otra semana y no estoy seguro de que me guste mucho. En esencia, argumentan que los valores p pueden ser muy variables en pruebas de baja potencia (ver también "danza de valores p" en youtube), algo que por supuesto es cierto y que debe enfatizarse. Concluyen que los valores p son "malos" (el título suena bastante duro) y que las personas deben usar intervalos de confianza que son "buenos". ¡Pero, por supuesto, los intervalos de confianza también son muy variables en baja potencia! La situación en su Figura 6 (izquierda) no me parece mucho mejor que en la Figura 2.
ameba dice Reinstate Monica
2
@amoeba No diré que no estoy de acuerdo contigo, hay muchas cosas con las que no estoy de acuerdo; Sin embargo, hay algunos puntos que pueden ser útiles para el OP. En realidad, me has recordado un cambio que pretendía hacer pero que olvidé.
Glen_b -Reinstate Monica
3
Sí, sin embargo, estoy de acuerdo con la utilidad potencial, especialmente porque Nature Methods es lo suficientemente respetable como para que las personas puedan ser convencidas por su "autoridad". Solo quería advertir a OP que no diera todo por sentado (sus matemáticas están bien, estoy hablando de conclusiones / interpretación aquí).
ameba dice Reinstate Monica
1
También interesante en este contexto es Wilkinson y el Grupo de trabajo sobre inferencia estadística, Métodos estadísticos en revistas de psicología, American Psychologist , vol. 54, N ° 8, 594-604, 1999.
A. Donda
Glen_b, publiqué una pregunta sobre una de las afirmaciones de extraños en el documento "Fickle P": stats.stackexchange.com/questions/250269 : agradecería mucho tu visión.
ameba dice Reinstate Monica
10

El valor p, o más generalmente, la prueba de significación de hipótesis nula (NHST), contiene cada vez menos valor. Tanto es así que se ha comenzado a prohibir en las revistas.

La mayoría de la gente no entiende lo que el valor p realmente nos dice y por qué nos lo dice, a pesar de que se usa en todas partes.

PAGS(DatosEl |H0 0)PAGS(H0 0El |Datos)

H0 0H0 0

Stoched
fuente
1
Agregaría que P (H0 | datos) solo es significativo si H0 es significativo. Los estudios deben diseñarse e informarse para descartar otras explicaciones poco interesantes de los resultados (sesgo, abandonos, diferencias iniciales) más allá del azar. Además, incluso un ECA cegado perfecto con un tamaño de efecto sustancial solo le dice que se midió algo interesante. Averiguar si midió lo que realmente le preocupa es otro problema pasado por alto que a menudo se encuentra junto con la obsesión del valor p.
Livid
8

¿Es esto lo mismo en otras disciplinas? ¿Cuál es la razón de la obsesión con los valores p?

Greenwald y col. (1996) intentan abordar esta cuestión con respecto a la psicología. En cuanto a la aplicación de NHST a las diferencias de línea de base, presumiblemente los editores decidirán (correcta o incorrectamente) que las diferencias de línea de base "no significativas" no pueden explicar los resultados, mientras que las "significativas" pueden explicar los resultados. Esto es similar a la "Razón 1" ofrecida por Greenwald et al. :

¿Por qué NHT sigue siendo popular?

"¿Por qué el NHT no sucumbe a las críticas? Por falta de una mejor respuesta, es tentador atribuir la persistencia del NHT a la falta de carácter de los científicos conductuales. ser como la renuencia de un bebedor a renunciar al hábito de un cóctel previo a la cena ... "

Razón I: HT proporciona un resultado dicotómico

"Debido a la adopción generalizada de la convención de que p <.05 se traduce como" estadísticamente significativo ", el NHT puede usarse para dar una respuesta dicotómica (rechazar o no rechazar) a una pregunta sobre una hipótesis nula. Esto a menudo puede considerarse como una respuesta útil para preguntas teóricas que se expresan en términos de una dirección de predicción en lugar de en términos del valor esperado de un parámetro ... "

Razón 2: Valor de p como traducción significativa de lenguaje común para estadísticas de prueba

"A diferencia de cualquier cosa que pueda percibirse tan directamente de los valores t, F o r (con su df asociado), la medida de sorpresa del valor ap simplemente se captura por el número de ceros consecutivos a la derecha de su punto decimal ..."

Razón 3: el valor p proporciona una medida de confianza "en la replicabilidad de los rechazos de hipótesis nulas

"[U] a diferencia de un tamaño del efecto (o un intervalo de confianza), el valor p resultante de NHT está relacionado monotónicamente con una estimación de la replicabilidad de un hallazgo no nulo. En esta afirmación, la replicabilidad (que se define más formalmente a continuación) se pretende solo en su sentido NHT de repetir la conclusión de rechazo-no rechazo y no en su sentido de estimación de proximidad entre estimaciones puntuales o de intervalo ".

Tamaños de efectos y valores de p: ¿Qué se debe informar y qué se debe replicar? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS Y DONALD GUTHRIE. Psicofisiología, 33 (1996). 175-183. Prensa de la Universidad de Cambridge. Impreso en los Estados Unidos. Copyright O 1996 Sociedad de Investigación Psicofisiológica

Lívido
fuente
Gracias por estos importantes comentarios, que definitivamente usaré para discutir con los revisores la próxima vez.
Adam Robinsson
6

Los valores P brindan información sobre las diferencias entre dos grupos de resultados ("tratamiento" versus "control", "A" frente a "B", etc.) que se toman de dos poblaciones. La naturaleza de la diferencia se formaliza en el enunciado de hipótesis, por ejemplo, "la media de A es mayor que la media de B". Los valores p bajos sugieren que las diferencias no se deben a una variación aleatoria, mientras que los valores p altos sugieren que las diferencias en las dos muestras no se pueden distinguir de las diferencias que podrían surgir simplemente de la variación aleatoria. Lo que es "bajo" o "alto" para un valor p ha sido históricamente una cuestión de convención y gusto más que establecido por una lógica rigurosa o análisis de evidencia.

Un requisito previo para usar valores p es que los dos grupos de resultados son realmente comparables, es decir, que la única fuente de diferencia entre ellos está relacionada con la variable que está evaluando. Como ejemplo exagerado, imagine que tiene estadísticas sobre dos enfermedades en dos períodos de tiempo: A: mortalidad por cólera entre hombres en las cárceles británicas 1920-1930, y B: infección por malaria en Nigeria 1960-1970. Calcular un valor p de estos dos conjuntos de datos sería bastante absurdo. Ahora, si A: mortalidad por cólera entre hombres en prisiones británicas que no reciben tratamiento versus B: mortalidad por cólera entre hombres en prisiones británicas tratadas con rehidratación, entonces tiene la base para una hipótesis estadística sólida.

En la mayoría de los casos, esto se logra mediante un diseño cuidadoso del experimento, un diseño cuidadoso de la encuesta, o una cuidadosa recolección de datos históricos, etc. Además, las diferencias entre los dos resultados deben formalizarse en declaraciones de hipótesis que involucren estadísticas de muestra, a menudo medias de muestra, pero también podrían ser variaciones de muestra u otras estadísticas de muestra. También es posible crear declaraciones de hipótesis que comparen las dos distribuciones de muestra en su conjunto, utilizando el dominio estocástico. Estos son raros.

La controversia sobre los valores p se centra en "¿qué es realmente significativo" para la investigación? Aquí es donde entran los tamaños del efecto. Básicamente, el tamaño del efecto es la magnitud de la diferencia entre los dos grupos. Es posible tener una alta significación estadística (valor p bajo -> no debido a una variación aleatoria) pero también un tamaño de efecto bajo (muy poca diferencia en magnitud). Cuando los tamaños de los efectos son muy grandes, entonces permitir valores p algo altos puede estar bien.

La mayoría de las disciplinas ahora se están moviendo con mucha fuerza hacia los tamaños de los efectos de informes y reducen o minimizan el papel de los valores p. También fomentan estadísticas más descriptivas sobre las distribuciones de muestra. Algunos enfoques, incluidas las estadísticas bayesianas, eliminan todos los valores p.


Mi respuesta es condensada y simplificada. Hay muchos artículos sobre este tema que puede consultar para obtener más detalles, justificaciones y detalles, incluidos estos:

MrMeritology
fuente
@MerMeritology gracias por proporcionar estas referencias importantes. ¡Los leeré lo antes posible!
Adam Robinsson
6

"Entonces, un laico como yo espera no encontrar ningún valor p donde no haya hipótesis".

Implícitamente, el OP dice que en la tabla específica que presenta, no hay hipótesis que acompañen a los valores p informados. Solo para aclarar esta pequeña confusión, ciertamente hay hipótesis nulas, pero son más bien ... indirectamente mencionadas (para la economía del espacio, supongo).

El "valor p" es una probabilidad condicional, por ejemplo, para una prueba de "cola derecha",

p-valPAGS(Tt(S)H0 0)=1-FTEl |H0 0(t(S)H0 0)

TFTEl |H0 0(tH0 0)TH0 0t(S)TTH0 0TH0 0H0 0

Entonces, un valor p ni siquiera se puede calcular si no hay una hipótesis nula , y cada vez que vemos un valor p informado, en algún lugar hay una hipótesis nula al acecho.

En la tabla presentada en la pregunta leemos

"Todas las pruebas de diferencias entre los terciles WHR ..."

La hipótesis nula está "oculta" en esta frase: es "No hay diferencia entre los tertiles WHR", (cualquiera que sea el "tertil WΗR") expresado en su forma matemática, que aquí parece ser una diferencia de dos magnitudes que se igualan a cero.

Alecos Papadopoulos
fuente
Estoy de acuerdo en que podría haber hipótesis detrás de estos análisis. Sin embargo, aquellos que elaboran directrices para trabajos de investigación (por ejemplo, declaración STROBE) deben abordar la abundancia de valores p. Creo que el valor p debería reservarse para la hipótesis principal de un artículo (que rara vez es más de uno). Sin embargo, no puedo decir que no estoy de acuerdo contigo =)
Adam Robinsson
1
@ AdamRobinsson Hmmm ... No estoy tan seguro. Tal enfoque "reservado" inflaría (aún más) la importancia que realmente tiene una prueba de valor p para llegar a una conclusión. Para mí, es solo un resultado más que debe combinarse con muchos otros aspectos, resultados, información fuera de la muestra, lógica, etc. Por otro lado, si los valores p están dispersos por todo el lugar, es Es más fácil darse cuenta de que no son el criterio definitivo para llegar a conclusiones.
Alecos Papadopoulos
Alecos Leí algo diferente en la tabla, que se refiere a los terciles WHR (es decir, relación cintura-cadera) en lugar de WRT, mientras que los terciles son valores que dividen una distribución en 3 partes en el mismo sentido que los cuartiles son valores que se dividen en 4 partes y los deciles son de diez partes.
Glen_b -Reinstalar Monica
@Glen_b Gracias, eso fue solo un error de mi parte. Arreglado.
Alecos Papadopoulos
2
Ver, por ejemplo, aquí . Pero probablemente no aquí .
Glen_b -Reinstalar Monica
2

Sentí curiosidad y leí el artículo que OP dio como ejemplo: la obesidad abdominal aumenta el riesgo de fractura de cadera . No soy un investigador médico y normalmente no leo artículos de medicina.

pags

pagspags

pagspagspags

pags

Parece que la pregunta se refiere específicamente a esas tablas descriptivas. Si es así, esta es una práctica extraña (¿pero en su mayoría inofensiva?) En revistas médicas, que sobrevive debido a la tradición.


pagsnorte=43000

ameba dice Reinstate Monica
fuente
@amoeba Seleccioné un artículo en rando; fue el último artículo publicado en epidemiología en esa revista. Estoy seguro de que si hubiera buscado un poco más, podría haber proporcionado un artículo con muchos más valores de p sin sentido. Como habrás notado, hay una p-valueitis, pero según tu respuesta y las otras respuestas anteriores y posteriores, parece que la comunidad de investigadores está abordando esto.
Adam Robinsson
@ Adam, me gusta su pregunta (+1) y la respuesta de Glen_b (+1), pero si este documento "seleccionado al azar" es representativo, entonces la mayoría de los puntos que Glen_b hizo y la mayoría de los documentos a los que se vinculó no se aplican ni se refieren la situación en la investigación médica sobre la que estaba preguntando. Si no es representativo, entonces, por supuesto, no puedo juzgar.
ameba dice Reinstate Monica
De hecho, he recibido una inmensa ayuda de sus respuestas varias veces. Hice el juicio basado en mi comprensión de este problema. Creo que todas las respuestas proporcionadas son útiles y responden colectivamente a la pregunta.
Adam Robinsson
1

El nivel de revisión estadística por pares no es tan alto como uno podría pensar por mi experiencia. Para todos los trabajos aplicados en los que he trabajado, todos los comentarios estadísticos provienen de expertos en el campo aplicado y no de estadísticos. Para las revistas "principales", aunque existe un mayor escrutinio, no es raro ver resultados que tienen fallas graves. Creo que esto se debe en parte a que el campo de las estadísticas puede ser difícil (como se puede ver por los desacuerdos entre muchas de sus grandes mentes).

Segundo, los lectores en un campo esperan ver las cosas de cierta manera. En una experiencia reciente, tracé las probabilidades de un modelo, pero esto fue derribado porque mi colaborador adivinó correctamente que sus lectores se sentirían más cómodos con un diagrama de barras de datos sin procesar. En resumen, muchos lectores esperan ver valores p junto con una tabla de características de referencia.

Sin relación con su pregunta directa, pero quizás relevante: los valores p se utilizan en casi todos los textos utilizando métodos frecuentas o de probabilidad. Los autores a menudo han hecho enormes contribuciones y han pensado profundamente en las estadísticas. Aunque abusados ​​por los experimentadores, seguramente tienen un lugar en las estadísticas.

julio
fuente
Gracias por este comentario. Podría llevar tu declaración aún más lejos; Creo que una proporción increíblemente grande de hallazgos publicados contiene fallas estadísticas por varias razones. Mi supervisor a menudo dice "el proceso de revisión se basa en la palabra de un caballero" Creo que es bastante gracioso.
Adam Robinsson
1

Tengo que leer artículos médicos a menudo y siento que el péndulo parece estar oscilando de un extremo a otro, en lugar de permanecer en la zona central equilibrada.

El siguiente enfoque parece funcionar bien. Si el valor de P es pequeño, es poco probable que la diferencia observada sea por casualidad. Deberíamos, por lo tanto, observar la magnitud de la diferencia y decidir si tiene algún significado práctico. Se producen valores de P muy pequeños con tamaños de muestra grandes incluso con diferencias muy pequeñas que pueden no tener relevancia práctica.

No incluir valores de P en la tabla de datos de referencia puede ser desventajoso. Entonces, si en un estudio hay dos grupos con edades medias de 54 y 59 años, quiero saber si esta diferencia puede ser solo por casualidad. Si P es pequeño, entonces pienso si esta diferencia de 5 años en 2 grupos puede afectar los resultados del estudio. Si P no es pequeño, no tengo que abordar esta pregunta.

El problema ocurre si uno se basa únicamente en el valor P y no verifica la magnitud de la diferencia (por ejemplo, un cambio porcentual simple). Algunos piensan que los valores de P deben omitirse totalmente para que solo quede la diferencia y se vea. Una solución equilibrada sería enfatizar la evaluación de ambos y no simplemente desechar el valor P, que tiene un significado limitado pero 'significativo'. También es probable que el tamaño del efecto se correlacione estrechamente con el valor P (al igual que los intervalos de confianza) y también es poco probable que desplace completamente los valores P del panorama estadístico. Como se menciona en el siguiente artículo, existen muchas virtudes de las pruebas de hipótesis nulas por las cuales sigue siendo popular:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS Y DONALD GUTHRIE Tamaños de efectos y valores de p: ¿Qué se debe informar y qué se debe replicar? Psicofisiología, 33 (1996). 175-183.

rnso
fuente