¿Los tamaños de los efectos son realmente superiores a los valores p?

14

Se pone mucho énfasis en confiar e informar los tamaños de los efectos en lugar de los valores p en la investigación aplicada (por ejemplo, citas más abajo).

Pero, ¿no es cierto que un tamaño de efecto como un valor p es una variable aleatoria y, como tal, puede variar de una muestra a otra cuando se repite el mismo experimento? En otras palabras, me pregunto qué características estadísticas (por ejemplo, el tamaño del efecto es menos variable de una muestra a otra que el valor p) hacen que los tamaños del efecto sean mejores índices de medición de evidencia que los valores p.

Sin embargo, debo mencionar un hecho importante que separa un valor p de un tamaño de efecto. Es decir, un tamaño del efecto es algo que se debe estimar porque tiene un parámetro de población, pero un valor p no es nada que se pueda estimar porque no tiene ningún parámetro de población.

Para mí, el tamaño del efecto es simplemente una métrica que en ciertas áreas de investigación (por ejemplo, la investigación en humanos) ayuda a transformar los hallazgos empíricos que provienen de diversas herramientas de medición desarrolladas por los investigadores en una métrica común (es justo decir que usar esta métrica la investigación en humanos puede encajar mejor El club de investigación cuantitativa).

Quizás si tomamos una proporción simple como tamaño del efecto, lo siguiente (en R) es lo que muestra la supremacía de los tamaños del efecto sobre los valores p. (el valor p cambia pero el tamaño del efecto no)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Tenga en cuenta que la mayoría de los tamaños de efectos están linealmente relacionados con una estadística de prueba. Por lo tanto, es un paso fácil hacer pruebas de hipótesis nulas utilizando tamaños de efectos.

Por ejemplo, la estadística t resultante de un diseño anterior y posterior se puede convertir fácilmente al tamaño del efecto d de Cohen correspondiente. Como tal, la distribución de d de Cohen es simplemente la versión de ubicación de escala de at distribution.

Las citas:

Debido a que los valores p son índices confusos, en teoría 100 estudios con tamaños de muestra variables y 100 tamaños de efectos diferentes podrían tener el mismo valor p, y 100 estudios con el mismo tamaño de efecto único podrían tener 100 valores diferentes para el valor p .

o

El valor p es una variable aleatoria que varía de una muestra a otra. . . . En consecuencia, ¿no es apropiado comparar los valores de p de dos experimentos distintos, o de pruebas en dos variables medidas en el mismo experimento, y declarar que uno es más significativo que el otro?

Citas:

Thompson, B. (2006). Fundamentos de las estadísticas de comportamiento: un enfoque basado en la percepción. Nueva York, NY: Guilford Press.

Good, PI y Hardin, JW (2003). Errores comunes en las estadísticas (y cómo evitarlos). Nueva York: Wiley.

rnorouzian
fuente
12
No saco las mismas conclusiones de las citas (que los tamaños del efecto son "superiores" o deberían informarse en lugar de los valores p). Soy consciente de que algunas personas han reaccionado de forma exagerada al hacer declaraciones como esa (como la prohibición BASP de los valores p). No es una situación de uno u otro: es un caso de señalar que los valores p y los tamaños de los efectos dan diferentes tipos de información útil. Por lo general, uno no debe ser examinado sin considerarlo en el contexto del otro.
whuber
1
Personalmente, creo que informar una estimación junto con un intervalo de confianza es suficiente. Da el tamaño del efecto (significación práctica) y la prueba de hipótesis (significación estadística) al mismo tiempo.
Jirapat Samranvedhya
1
Si los valores de p o los tamaños de los efectos son "superiores" depende de su perspectiva. El primero proviene de la tradición NHST de Fisher, mientras que el segundo proviene de la tradición Neyman-Pearson. En algunos campos (ciencias biológicas, humanidades), los tamaños de los efectos tienden a ser muy pequeños, lo que hace que los valores de p sean atractivos. Por el contrario, como otros señalan, los valores p pueden ser 'forzados' más pequeños a través de cambios en el diseño, como el aumento de N.
HEITZ
3
¿Es un destornillador superior a un martillo?
kjetil b halvorsen
¿Es una tuerca superior a un perno?
Sextus Empiricus

Respuestas:

21

El consejo para proporcionar tamaños de efectos en lugar de valores P se basa en una dicotomía falsa y es una tontería. ¿Por qué no presentar ambos?

Las conclusiones científicas deben basarse en una evaluación racional de la evidencia y la teoría disponibles. Los valores de P y los tamaños de efecto observados solos o juntos no son suficientes.

Ninguno de los pasajes citados que proporciona es útil. Por supuesto, los valores P varían de un experimento a otro, la fuerza de la evidencia en los datos varía de un experimento a otro. El valor P es solo una extracción numérica de esa evidencia a través del modelo estadístico. Dada la naturaleza del valor P, rara vez es relevante para fines analíticos comparar un valor P con otro, así que quizás eso es lo que el autor de la cita intenta transmitir.

Si desea comparar los valores de P, entonces probablemente debería haber realizado una prueba de significación en una disposición diferente de los datos para responder de manera sensata a la pregunta de interés. Vea estas preguntas: valores p para valores p? y Si la media de un grupo difiere de cero pero el otro no, ¿podemos concluir que los grupos son diferentes?

Entonces, la respuesta a su pregunta es compleja. No encuentro que las respuestas dicotómicas a los datos basadas en valores P o tamaños de efectos sean útiles, entonces ¿son los tamaños de efectos superiores a los valores P? Sí, no, a veces, tal vez, y depende de su propósito.

Michael Lew
fuente
Creo que sería preferible presentar el tamaño del efecto y su intervalo de confianza, siempre que el analista pueda indicar correctamente qué tamaño de efecto significativo es para el estudio en cuestión. El intervalo de confianza, a diferencia del valor p, le da al lector una idea tanto de la precisión de la estimación como de su extremidad.
AdamO
1
@AdamO Sí, estoy muy de acuerdo, pero el valor P tiene dos cosas que ofrecer y no debe omitirse. Es un índice de la fuerza de la evidencia contra el nulo, algo que solo puede obtenerse de un intervalo de confianza por un ojo muy experimentado, y un valor P exacto no invita directamente a la dicotomía de adentro / afuera que el intervalo de confianza hace . Por supuesto, una función de probabilidad ofrece ventajas sobre ambos.
Michael Lew
14

En el contexto de la investigación aplicada, los tamaños de los efectos son necesarios para que los lectores interpreten el significado práctico (en oposición al significado estadístico) de los hallazgos. En general, los valores p son mucho más sensibles al tamaño de la muestra que los tamaños del efecto. Si un experimento mide un tamaño de efecto con precisión (es decir, está lo suficientemente cerca del parámetro de población que está estimando) pero produce un valor p no significativo, entonces, si todo es igual, aumentar el tamaño de la muestra dará como resultado el mismo tamaño de efecto pero Un valor p más bajo. Esto se puede demostrar con análisis de potencia o simulaciones.

A la luz de esto, es posible lograr valores p altamente significativos para tamaños de efectos que no tienen importancia práctica. En contraste, los diseños de estudio con baja potencia pueden producir valores p no significativos para tamaños de efectos de gran importancia práctica.

Es difícil discutir los conceptos de significación estadística frente al tamaño del efecto sin una aplicación específica del mundo real. Como ejemplo, considere un experimento que evalúa el efecto de un nuevo método de estudio en el promedio de calificaciones (GPA) de los estudiantes. Yo diría que un tamaño de efecto de 0.01 puntos de calificación tiene poca importancia práctica (es decir, 2.50 en comparación con 2.51). Suponiendo un tamaño de muestra de 2,000 estudiantes en ambos grupos de tratamiento y control, y una desviación estándar de la población de 0.5 puntos de calificación:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

muestra de tratamiento media = 2.51

muestra de control media = 2.50

tamaño del efecto = 2.51 - 2.50 = 0.01

p = 0,53

Aumentar el tamaño de la muestra a 20,000 estudiantes y mantener todo lo demás constante produce un valor p significativo:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

muestra de tratamiento media = 2.51

muestra de control media = 2.50

tamaño del efecto = 2.51 - 2.50 = 0.01

p = 0.044

¡Obviamente no es algo trivial aumentar el tamaño de la muestra en un orden de magnitud! Sin embargo, creo que todos podemos estar de acuerdo en que la mejora práctica que ofrece este método de estudio es insignificante. Si confiamos únicamente en el valor p, entonces podríamos creer lo contrario en el caso n = 20,000.

Personalmente abogo por informar tanto los valores p como los tamaños de los efectos. ¡Y puntos de bonificación para estadísticas T o F, grados de libertad y diagnósticos del modelo!

Darren James
fuente
2
Darren, muestra lo que quieres decir exactamente en R o algo así como PO.
usuario138773
77
@Darrent James No hay importancia práctica en una diferencia entre p = 0.065 y p = 0.043 más allá de la desafortunada suposición de que p = 0.05 es una línea brillante que debe respetarse. Ningún valor P representa evidencia convincente a favor o en contra de nada por sí mismo.
Michael Lew
@Michael Lew Sí, estoy de acuerdo!
Darren James
1
James, dado tu código y explicaciones, parece que has entendido completamente mal el punto del OP. ¡Tu código R también está mal! Porque NO has configurado el var.equal = TRUEtiempo mientras tus sds son iguales. Con estos antecedentes, no estoy seguro de por qué incluso publicaste una respuesta como esta. ¡OP está haciendo una pregunta que no tiene una respuesta fácil al menos en este momento!
user138773
1
He agregado var.equal = TRUE al código. Pero es innecesario en este caso. Los mismos valores p se obtienen tanto con var.equal = TRUE como con el var.equal = FALSE predeterminado.
Darren James el
5

Actualmente trabajo en el campo de la ciencia de datos, y antes trabajaba en investigación educativa. Mientras que en cada "carrera" he colaborado con personas que no provenían de un fondo formal en estadística, y donde el énfasis de la significación estadística (y práctica) se coloca en gran medida en el valor p . Aprendí a incluir y enfatizar los tamaños de los efectos en mis análisis porque hay una diferencia entre la significación estadística y la significación práctica.

En general, las personas con las que trabajé se preocuparon por una cosa "¿nuestro programa / función tiene un impacto, sí o no?". Para una pregunta como esta, puede hacer algo tan simple como una prueba t e informarles "sí, su programa / función hace la diferencia". Pero, ¿qué tan grande o pequeña es esta "diferencia"?

Primero, antes de comenzar a profundizar en este tema, me gustaría resumir a qué nos referimos cuando hablamos de los tamaños del efecto

El tamaño del efecto es simplemente una forma de cuantificar el tamaño de la diferencia entre dos grupos. [...] Es particularmente valioso para cuantificar la efectividad de una intervención particular, en relación con alguna comparación. Nos permite ir más allá de lo simplista: "¿ Funciona o no?" a los mucho más sofisticados, '¿Qué tan bien funciona en una variedad de contextos?' Además, al poner énfasis en el aspecto más importante de una intervención, el tamaño del efecto, en lugar de su significación estadística (que combina el tamaño del efecto y el tamaño de la muestra), promueve un enfoque más científico para la acumulación de conocimiento. Por estas razones, el tamaño del efecto es una herramienta importante para informar e interpretar la efectividad.

Es el tamaño del efecto, estúpido: qué tamaño del efecto es y por qué es importante

α

¿Por qué no es suficiente el valor P?

La significación estadística es la probabilidad de que la diferencia observada entre dos grupos se deba al azar. Si el valor P es mayor que el nivel alfa elegido (p. Ej., 0,05), se supone que cualquier diferencia observada se explica por la variabilidad del muestreo. Con una muestra suficientemente grande, una prueba estadística casi siempre demostrará una diferencia significativa, a menos que no haya ningún efecto, es decir, cuando el tamaño del efecto sea exactamente cero; Sin embargo, las diferencias muy pequeñas, incluso si son significativas, a menudo no tienen sentido. Por lo tanto, informar solo el valor P significativo para un análisis no es adecuado para que los lectores comprendan completamente los resultados.

Y para corroborar los comentarios de @ DarrenJames con respecto a muestras de gran tamaño

Por ejemplo, si el tamaño de una muestra es de 10 000, es probable que se encuentre un valor de P significativo incluso cuando la diferencia en los resultados entre los grupos es insignificante y puede no justificar una intervención costosa o que requiere mucho tiempo sobre otra. El nivel de significación por sí solo no predice el tamaño del efecto. A diferencia de las pruebas de significación, el tamaño del efecto es independiente del tamaño de la muestra. La significación estadística, por otro lado, depende tanto del tamaño de la muestra como del tamaño del efecto. Por esta razón, los valores de P se consideran confusos debido a su dependencia del tamaño de la muestra. A veces, un resultado estadísticamente significativo significa solo que se utilizó un gran tamaño de muestra. [Existe una opinión errónea de que este comportamiento representa un sesgo contra la hipótesis nula.¿Por qué las pruebas de hipótesis frecuentistas se sesgan hacia el rechazo de la hipótesis nula con muestras suficientemente grandes? ]

Uso del tamaño del efecto o por qué el valor P no es suficiente

Informe tanto el valor P como los tamaños del efecto

Ahora, para responder a la pregunta, ¿los tamaños de los efectos son superiores a los valores p ? Yo diría que cada uno de ellos sirve como componentes de importancia en el análisis estadístico que no se puede comparar en tales términos, y se deben informar juntos. El valor p es una estadística para indicar significación estadística (diferencia de la distribución nula), donde el tamaño del efecto pone en palabras cuánta diferencia hay.

Como ejemplo, digamos que su supervisor, Bob, que no es muy amigable con las estadísticas, está interesado en ver si hubo una relación significativa entre peso (peso) y mpg (millas por galón). Comienzas el análisis con hipótesis

H0 0:βmetropagsol=0 0 vs HUN:βmetropagsol0 0

α=0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summaryβmetropagsol0 0

Por lo tanto, pudo concluir que los resultados fueron estadísticamente significativos y comunicar la importancia en términos prácticos.

Espero que esto haya sido útil para responder a su pregunta.

Jon
fuente
Jon, gracias, hay MUCHAS áreas grises de las que esperaba escuchar más, pero no lo hice. En muchas situaciones, los tamaños de los efectos y los valores p no están de acuerdo. Muchos confían en los tamaños de los efectos en tales situaciones que quería saber por qué. Esperaba escuchar más sobre simulaciones que pudieran mostrar puntos importantes. Con respecto al asunto que mencionó, es decir, que el tamaño del efecto puede ser pequeño pero no exactamente cero; Los métodos de prueba de equivalencia han estado vigentes durante varios años. Me gusta aún más la prueba de equivalencia bayesiana. De todos modos, probablemente no hice mi pregunta con suficiente claridad. - Gracias
rnorouzian
Por cierto, un colega comentó que el código R de Daren está mal, parece que tiene razón. No ha puesto var.equal = TRUE.
rnorouzian
* En muchas situaciones, los tamaños de los efectos y los valores p no están de acuerdo. * - ¿Puede proporcionar más información sobre esto? ¿Un ejemplo? Con respecto al asunto que mencionó, es decir, que el tamaño del efecto puede ser pequeño pero no exactamente cero , esta situación puede resultar en un gran tamaño de muestra. Por lo tanto, si el tamaño del efecto es casi cero, entonces la variable de interés puede no tener un impacto significativo en el resultado, o la relación puede especificarse incorrectamente (por ejemplo, lineal versus no lineal).
Jon
Solo prueba esta herramienta . También vea este documento . Parece que tendré que hacer otra pregunta más adelante usando algún código para mayor claridad. -- Gracias.
rnorouzian
@rnorouzian, está bien, ejecuté tu código. ¿Cual es tu punto?
Jon
4

La utilidad de los tamaños de los efectos en relación con los valores p (así como otras métricas de inferencia estadística) se debate habitualmente en mi campo, la psicología, y el debate es actualmente "más candente" de lo normal por razones que son relevantes para su pregunta. Y aunque estoy seguro de que la psicología no es necesariamente el campo científico estadísticamente más sofisticado, ha discutido, estudiado, y en ocasiones demostrado, las limitaciones de varios enfoques de inferencia estadística, o al menos cómo están limitadas por el uso humano. Las respuestas ya publicadas incluyen buenas ideas, pero en caso de que esté interesado en una lista más extensa (y referencias) de razones a favor y en contra de cada una, consulte a continuación.

¿Por qué los valores p no son deseables?

  • Como observa Darren James (y muestra su simulación), los valores p dependen en gran medida de la cantidad de observaciones que tenga (ver Kirk, 2003)
  • Como señala Jon, los valores p representan la probabilidad condicional de observar datos como extremos o más extremos dado que la hipótesis nula es verdadera. Como la mayoría de los investigadores preferirían tener probabilidades de la hipótesis de investigación, y / o la hipótesis nula, los valores p no hablan de las probabilidades en las que los investigadores están más interesados (es decir, de la hipótesis nula o de investigación, ver Dienes, 2008)
  • Muchos de los que usan valores p no entienden lo que significan / no significan (Schmidt y Hunter, 1997). La referencia de Michael Lew al artículo de Gelman y Stern (2006) subraya aún más los malentendidos de los investigadores sobre lo que uno puede (o no puede) interpretar a partir de los valores p. Y como lodemuestrauna historia relativamente reciente en FiveThirtyEight , este sigue siendo el caso.
  • Los valores p no son buenos para predecir valores p posteriores (Cumming, 2008)
  • Los valores p a menudo se informan erróneamente (más a menudo inflan la importancia), y el informe erróneo está relacionado con la falta de voluntad para compartir datos (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
  • Los valores p pueden ser (e históricamente, han sido) distorsionados activamente a través de la flexibilidad analítica y, por lo tanto, no son confiables (John et al., 2012; Simmons et al., 2011)
  • Los valores p son desproporcionadamente significativos, ya que los sistemas académicos parecen recompensar a los científicos por la significación estadística sobre la precisión científica (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

¿Por qué son deseables los tamaños de efecto?

Tenga en cuenta que estoy interpretando que su pregunta se refiere específicamente a tamaños de efectos estandarizados, ya que usted dice que permiten a los investigadores transformar sus hallazgos "EN UNA métrica COMÚN".

  • Como indican Jon y Darren James, los tamaños de los efectos indican la magnitud de un efecto, independientemente del número de observaciones (American Psychological Association 2010; Cumming, 2014) en lugar de tomar decisiones dicotómicas de si un efecto está ahí o no.
  • Los tamaños de los efectos son valiosos porque hacen posibles los metanálisis y el metanálisis impulsa el conocimiento acumulativo (Borenstein et al., 2009; Chan y Arvey, 2012)
  • Los tamaños del efecto ayudan a facilitar la planificación del tamaño de la muestra a través del análisis de poder a priori y, por lo tanto, la asignación eficiente de recursos en la investigación (Cohen, 1992)

¿Por qué son deseables los valores p?

Aunque se adoptan con menos frecuencia, los valores p tienen una serie de ventajas. Algunos son conocidos y de larga data, mientras que otros son relativamente nuevos.

  • Los valores P proporcionan un índice conveniente y familiar de la fuerza de la evidencia contra la hipótesis nula del modelo estadístico.

  • Cuando se calculan correctamente, los valores p proporcionan un medio para tomar decisiones dicotómicas (que a veces son necesarias), y los valores p ayudan a mantener las tasas de error falso positivo a largo plazo en un nivel aceptable (Dienes, 2008; Sakaluk, 2016) [ No es estrictamente correcto decir que los valores P son necesarios para las decisiones dicotómicas. De hecho, se usan ampliamente de esa manera, pero Neyman & Pearson usaron 'regiones críticas' en el espacio de estadísticas de prueba para ese propósito. Ver esta pregunta y sus respuestas]

  • Los valores p se pueden utilizar para facilitar una planificación del tamaño de la muestra continuamente eficiente (no solo un análisis de potencia de una sola vez) (Lakens, 2014)
  • Los valores p se pueden utilizar para facilitar el metanálisis y evaluar el valor probatorio (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Vea esta publicación de blog para una discusión accesible de cómo las distribuciones de valores p se pueden usar de esta manera, así como esta publicación de CV para una discusión relacionada.
  • Los valores p se pueden usar de manera forense para determinar si se han utilizado prácticas de investigación cuestionables y qué tan replicables podrían ser los resultados (Schimmack, 2014; ver también la aplicación de Schönbrodt, 2015)

¿Por qué los tamaños del efecto son indeseables (o sobrevalorados)?

Quizás la posición más contraintuitiva para muchos; ¿Por qué los informes de tamaños de efectos estandarizados serían indeseables o, como mínimo, sobrevalorados?

  • En algunos casos, los tamaños de efectos estandarizados no son todo lo que están hechos para ser (por ejemplo, Groenlandia, Schlesselman y Criqui, 1986). Baguely (2009), en particular, tiene una buena descripción de algunas de las razones por las cuales los tamaños de efectos brutos / no estandarizados pueden ser más deseables.
  • A pesar de su utilidad para el análisis de potencia a priori, los tamaños de los efectos no se usan de manera confiable para facilitar una planificación eficiente del tamaño de la muestra (Maxwell, 2004)
  • Incluso cuando los tamaños de los efectos se utilizan en la planificación del tamaño de la muestra, porque se inflan a través del sesgo de publicación (Rosenthal, 1979) los tamaños de los efectos publicados son de utilidad cuestionable para una planificación confiable del tamaño de la muestra (Simonsohn, 2013)
  • Las estimaciones del tamaño del efecto pueden ser, y han sido, mal calculadas sistémicamente en el software estadístico (Levine y Hullet, 2002)
  • Los tamaños del efecto se extraen por error (y probablemente se informan erróneamente), lo que socava la credibilidad de los metanálisis (Gøtzsche et al., 2007)
  • Por último, corregir el sesgo de publicación en los tamaños del efecto sigue siendo ineficaz (ver Carter et al., 2017), lo que, si cree que existe sesgo de publicación, hace que los metanálisis sean menos impactantes.

Resumen

Haciéndose eco de la observación hecha por Michael Lew, los valores p y los tamaños del efecto son solo dos piezas de evidencia estadística; Hay otros que vale la pena considerar también. Pero al igual que los valores p y los tamaños de los efectos, otras métricas de valor probatorio también han compartido problemas únicos. Los investigadores comúnmente aplican mal y malinterpretan los intervalos de confianza (por ejemplo, Hoekstra et al., 2014; Morey et al., 2016), por ejemplo, y el resultado de los análisis bayesianos puede distorsionarse por los investigadores, al igual que cuando se usan valores p (por ejemplo, Simonsohn , 2014).

Todas las métricas de evidencia han ganado y todas deben tener premios.

Referencias

Asociacion Americana de Psicologia. (2010) Manual de publicación de la Asociación Americana de Psicología (6ª edición). Washington, DC: Asociación Americana de Psicología.

Baguley, T. (2009). Tamaño del efecto estandarizado o simple: ¿Qué se debe informar? British Journal of Psychology, 100 (3), 603-617.

Bakker, M. y Wicherts, JM (2011). El (mal) informe de resultados estadísticos en revistas de psicología. Métodos de investigación del comportamiento, 43 (3), 666-678.

Borenstein, M., Hedges, LV, Higgins, J. y Rothstein, HR (2009). Introducción al metanálisis. West Sussex, Reino Unido: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM y Hilgard, J. (12 de agosto de 2017). Corrección de sesgos en psicología: una comparación de los métodos metaanalíticos. Recuperado de osf.io/preprints/psyarxiv/9h3nu

Chan, ME y Arvey, RD (2012). Metaanálisis y desarrollo del conocimiento. Perspectivas sobre la ciencia psicológica, 7 (1), 79-92.

Cohen, J. (1992). Una cartilla de poder. Boletín psicológico, 112 (1), 155-159. 

Cumming, G. (2008). Replicación e intervalos p: los valores p predicen el futuro solo vagamente, pero los intervalos de confianza son mucho mejores. Perspectivas sobre la ciencia psicológica, 3, 286–300.

Dienes, D. (2008). Entender la psicología como ciencia: una introducción a la inferencia científica y estadística. Nueva York, NY: Palgrave MacMillan.

Fanelli, D. (2010). Los resultados "positivos" aumentan en la jerarquía de las ciencias. PloS one, 5 (4), e10068.

Gelman, A. y Stern, H. (2006). La diferencia entre "significativo" y "no significativo" no es estadísticamente significativa en sí misma. El estadístico estadounidense, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K. y Tendal, B. (2007). Errores de extracción de datos en metanálisis que utilizan diferencias de medias estandarizadas. JAMA, 298 (4), 430-437.

Groenlandia, S., Schlesselman, JJ y Criqui, MH (1986). La falacia de emplear coeficientes de regresión estandarizados y correlaciones como medidas de efecto. American Journal of Epidemiology, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN y Wagenmakers, EJ (2014). Mala interpretación robusta de los intervalos de confianza. Boletín y revisión psiconómica, 21 (5), 1157-1164.

John, LK, Loewenstein, G. y Prelec, D. (2012). Medición de la prevalencia de prácticas de investigación cuestionables con incentivos para decir la verdad. PsychologicalSscience, 23 (5), 524-532.

Kirk, RE (2003). La importancia de la magnitud del efecto. En SF Davis (Ed.), Manual de métodos de investigación en psicología experimental (págs. 83-105). Malden, MA: Blackwell.

Lakens, D. (2014). Realizar estudios de alta potencia de manera eficiente con análisis secuenciales. European Journal of Social Psychology, 44 (7), 701-710.

Levine, TR y Hullett, CR (2002). Eta al cuadrado, parcial al cuadrado y mal informe del tamaño del efecto en la investigación de la comunicación. Human Communication Research, 28 (4), 612-625.

Maxwell, SE (2004). La persistencia de estudios de baja potencia en investigación psicológica: causas, consecuencias y remedios. Métodos psicológicos, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD y Wagenmakers, EJ (2016). La falacia de poner confianza en los intervalos de confianza. Boletín y revisión psiconómica, 23 (1), 103-123.

Nosek, BA, Spies, JR y Motyl, M. (2012). Utopía científica: II. Reestructuración de incentivos y prácticas para promover la verdad sobre la publicabilidad. Perspectives on Psychological Science, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S. y Wicherts, JM (2016). La prevalencia de errores de informes estadísticos en psicología (1985-2013). Métodos de investigación del comportamiento, 48 (4), 1205-1226.

Rosenthal, R. (1979). El problema del cajón de archivos y la tolerancia para resultados nulos. Boletín psicológico, 86 (3), 638-641.

Sakaluk, JK (2016). Exploración pequeña, confirmación grande: un sistema alternativo a las nuevas estadísticas para avanzar en la investigación psicológica acumulativa y replicable. Revista de Psicología Social Experimental, 66, 47-54.

Schimmack, U. (2014). Cuantificación de la integridad de la investigación estadística: el índice de replicabilidad. Recuperado de http://www.r-index.org 

Schmidt, FL y Hunter, JE (1997). Ocho objeciones comunes pero falsas a la interrupción de las pruebas de significación en el análisis de datos de investigación En LL Harlow, SA Mulaik y JH Steiger (Eds.), ¿Qué pasaría si no hubiera pruebas de significación? (págs. 37-64). Mahwah, Nueva Jersey: Erlbaum.

Schönbrodt, FD (2015). p-checker: analizador de valor p para todos. Recuperado de http://shinyapps.org/apps/p-checker/

Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Ciencia psicológica, 22 (11), 1359-1366.

Simonsohn, U. (2013). La insensatez de potenciar las réplicas en función del tamaño del efecto observado. Recuperado de http://datacolada.org/4

Simonsohn, U. (2014). Hackeo posterior. Recuperado de http://datacolada.org/13 .

Simonsohn, U., Nelson, LD y Simmons, JP (2014). Curva P: una clave para el cajón de archivos. Revista de psicología experimental: general, 143 (2), 534-547.

Simonsohn, U., Nelson, LD y Simmons, JP (2014). Curva P y tamaño del efecto: corrección del sesgo de publicación utilizando solo resultados significativos. Perspectives on Psychological Science, 9 (6), 666-681.

Wicherts, JM, Bakker, M. y Molenaar, D. (2011). La disposición a compartir datos de investigación está relacionada con la solidez de la evidencia y la calidad del informe de resultados estadísticos. PloS one, 6 (11), e26828.

jsakaluk
fuente
2
Muy buena colección de ideas y referencias. Debería ser útil para aquellos que desean profundizar un poco más, pero tenga en cuenta que muchos de los puntos tienen preguntas y respuestas relevantes en este sitio. Los enlaces a esos también ayudarían.
Michael Lew
@MichaelLew Gracias. Veré sobre agregar algunos enlaces cuando tenga tiempo más tarde; me llevó la mayor parte de la tarde redactar esta respuesta y reunir las referencias. Con respecto a su edición, creo que su punto está bien tomado, pero tal vez más de una adición, en lugar de una corrección. Dije que los valores p proporcionan un medio para tomar decisiones dicotómicas (no es que sean "obligatorias", o la única forma de hacerlo). Estoy de acuerdo en que las regiones críticas de NP son otra forma, pero respondí al OP en el contexto de lo que permiten los valores p frente a los tamaños de efectos estandarizados.
jsakaluk
1
jsakaluk, sí, puedo ver que habrías dedicado mucho tiempo a la respuesta y es muy útil y digno de tu esfuerzo. Edité el ítem sobre las ventajas de los valores P porque usted escribió "Cuando se usa correctamente" pueden ser dicotomizados, mientras que la realidad es que tal uso ignora gran parte de la información que está codificada en el valor P y, por lo tanto, podría decirse que (y en mi opinión) un uso incorrecto. No quería subvertir su intención, así que cambié "usado" por "calculado".
Michael Lew
3

Desde la perspectiva de un epidemiólogo, sobre por qué prefiero los tamaños del efecto sobre los valores p (aunque, como algunas personas han notado, es una falsa dicotomía):

  1. El tamaño del efecto me dice lo que realmente quiero, el valor p solo me dice si es distinguible de nulo. Un riesgo relativo de 1.0001, 1.5, 5 y 50 podría tener el mismo valor p asociado con ellos, pero significar cosas muy diferentes en términos de lo que podríamos hacer a nivel de población.
  2. Confiar en un valor p refuerza la noción de que la prueba de hipótesis basada en la significación es la evidencia final. Considere las siguientes dos declaraciones: "Los médicos que sonríen a los pacientes no se asociaron significativamente con un resultado adverso durante su estadía en el hospital". vs. "Los pacientes a quienes el médico les sonrió tenían un 50% menos de probabilidades de tener un resultado adverso (p = 0.086)". ¿Todavía, tal vez, dado que no tiene absolutamente ningún costo, considere sugerir a los médicos que sonrían a sus pacientes?
  3. Trabajo con muchos modelos de simulación estocástica, en los que el tamaño de la muestra es una función de la potencia y la paciencia computacionales, y los valores de p carecen esencialmente de sentido. He logrado obtener p <0.05 resultados para cosas que no tienen absolutamente ninguna relevancia clínica o de salud pública.
Fomite
fuente