Se pone mucho énfasis en confiar e informar los tamaños de los efectos en lugar de los valores p en la investigación aplicada (por ejemplo, citas más abajo).
Pero, ¿no es cierto que un tamaño de efecto como un valor p es una variable aleatoria y, como tal, puede variar de una muestra a otra cuando se repite el mismo experimento? En otras palabras, me pregunto qué características estadísticas (por ejemplo, el tamaño del efecto es menos variable de una muestra a otra que el valor p) hacen que los tamaños del efecto sean mejores índices de medición de evidencia que los valores p.
Sin embargo, debo mencionar un hecho importante que separa un valor p de un tamaño de efecto. Es decir, un tamaño del efecto es algo que se debe estimar porque tiene un parámetro de población, pero un valor p no es nada que se pueda estimar porque no tiene ningún parámetro de población.
Para mí, el tamaño del efecto es simplemente una métrica que en ciertas áreas de investigación (por ejemplo, la investigación en humanos) ayuda a transformar los hallazgos empíricos que provienen de diversas herramientas de medición desarrolladas por los investigadores en una métrica común (es justo decir que usar esta métrica la investigación en humanos puede encajar mejor El club de investigación cuantitativa).
Quizás si tomamos una proporción simple como tamaño del efecto, lo siguiente (en R) es lo que muestra la supremacía de los tamaños del efecto sobre los valores p. (el valor p cambia pero el tamaño del efecto no)
binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55%
binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%
Tenga en cuenta que la mayoría de los tamaños de efectos están linealmente relacionados con una estadística de prueba. Por lo tanto, es un paso fácil hacer pruebas de hipótesis nulas utilizando tamaños de efectos.
Por ejemplo, la estadística t resultante de un diseño anterior y posterior se puede convertir fácilmente al tamaño del efecto d de Cohen correspondiente. Como tal, la distribución de d de Cohen es simplemente la versión de ubicación de escala de at distribution.
Las citas:
Debido a que los valores p son índices confusos, en teoría 100 estudios con tamaños de muestra variables y 100 tamaños de efectos diferentes podrían tener el mismo valor p, y 100 estudios con el mismo tamaño de efecto único podrían tener 100 valores diferentes para el valor p .
o
El valor p es una variable aleatoria que varía de una muestra a otra. . . . En consecuencia, ¿no es apropiado comparar los valores de p de dos experimentos distintos, o de pruebas en dos variables medidas en el mismo experimento, y declarar que uno es más significativo que el otro?
Citas:
Thompson, B. (2006). Fundamentos de las estadísticas de comportamiento: un enfoque basado en la percepción. Nueva York, NY: Guilford Press.
Good, PI y Hardin, JW (2003). Errores comunes en las estadísticas (y cómo evitarlos). Nueva York: Wiley.
Respuestas:
El consejo para proporcionar tamaños de efectos en lugar de valores P se basa en una dicotomía falsa y es una tontería. ¿Por qué no presentar ambos?
Las conclusiones científicas deben basarse en una evaluación racional de la evidencia y la teoría disponibles. Los valores de P y los tamaños de efecto observados solos o juntos no son suficientes.
Ninguno de los pasajes citados que proporciona es útil. Por supuesto, los valores P varían de un experimento a otro, la fuerza de la evidencia en los datos varía de un experimento a otro. El valor P es solo una extracción numérica de esa evidencia a través del modelo estadístico. Dada la naturaleza del valor P, rara vez es relevante para fines analíticos comparar un valor P con otro, así que quizás eso es lo que el autor de la cita intenta transmitir.
Si desea comparar los valores de P, entonces probablemente debería haber realizado una prueba de significación en una disposición diferente de los datos para responder de manera sensata a la pregunta de interés. Vea estas preguntas: valores p para valores p? y Si la media de un grupo difiere de cero pero el otro no, ¿podemos concluir que los grupos son diferentes?
Entonces, la respuesta a su pregunta es compleja. No encuentro que las respuestas dicotómicas a los datos basadas en valores P o tamaños de efectos sean útiles, entonces ¿son los tamaños de efectos superiores a los valores P? Sí, no, a veces, tal vez, y depende de su propósito.
fuente
En el contexto de la investigación aplicada, los tamaños de los efectos son necesarios para que los lectores interpreten el significado práctico (en oposición al significado estadístico) de los hallazgos. En general, los valores p son mucho más sensibles al tamaño de la muestra que los tamaños del efecto. Si un experimento mide un tamaño de efecto con precisión (es decir, está lo suficientemente cerca del parámetro de población que está estimando) pero produce un valor p no significativo, entonces, si todo es igual, aumentar el tamaño de la muestra dará como resultado el mismo tamaño de efecto pero Un valor p más bajo. Esto se puede demostrar con análisis de potencia o simulaciones.
A la luz de esto, es posible lograr valores p altamente significativos para tamaños de efectos que no tienen importancia práctica. En contraste, los diseños de estudio con baja potencia pueden producir valores p no significativos para tamaños de efectos de gran importancia práctica.
Es difícil discutir los conceptos de significación estadística frente al tamaño del efecto sin una aplicación específica del mundo real. Como ejemplo, considere un experimento que evalúa el efecto de un nuevo método de estudio en el promedio de calificaciones (GPA) de los estudiantes. Yo diría que un tamaño de efecto de 0.01 puntos de calificación tiene poca importancia práctica (es decir, 2.50 en comparación con 2.51). Suponiendo un tamaño de muestra de 2,000 estudiantes en ambos grupos de tratamiento y control, y una desviación estándar de la población de 0.5 puntos de calificación:
muestra de tratamiento media = 2.51
muestra de control media = 2.50
tamaño del efecto = 2.51 - 2.50 = 0.01
p = 0,53
Aumentar el tamaño de la muestra a 20,000 estudiantes y mantener todo lo demás constante produce un valor p significativo:
muestra de tratamiento media = 2.51
muestra de control media = 2.50
tamaño del efecto = 2.51 - 2.50 = 0.01
p = 0.044
¡Obviamente no es algo trivial aumentar el tamaño de la muestra en un orden de magnitud! Sin embargo, creo que todos podemos estar de acuerdo en que la mejora práctica que ofrece este método de estudio es insignificante. Si confiamos únicamente en el valor p, entonces podríamos creer lo contrario en el caso n = 20,000.
Personalmente abogo por informar tanto los valores p como los tamaños de los efectos. ¡Y puntos de bonificación para estadísticas T o F, grados de libertad y diagnósticos del modelo!
fuente
var.equal = TRUE
tiempo mientras tussd
s son iguales. Con estos antecedentes, no estoy seguro de por qué incluso publicaste una respuesta como esta. ¡OP está haciendo una pregunta que no tiene una respuesta fácil al menos en este momento!Actualmente trabajo en el campo de la ciencia de datos, y antes trabajaba en investigación educativa. Mientras que en cada "carrera" he colaborado con personas que no provenían de un fondo formal en estadística, y donde el énfasis de la significación estadística (y práctica) se coloca en gran medida en el valor p . Aprendí a incluir y enfatizar los tamaños de los efectos en mis análisis porque hay una diferencia entre la significación estadística y la significación práctica.
En general, las personas con las que trabajé se preocuparon por una cosa "¿nuestro programa / función tiene un impacto, sí o no?". Para una pregunta como esta, puede hacer algo tan simple como una prueba t e informarles "sí, su programa / función hace la diferencia". Pero, ¿qué tan grande o pequeña es esta "diferencia"?
Primero, antes de comenzar a profundizar en este tema, me gustaría resumir a qué nos referimos cuando hablamos de los tamaños del efecto
Es el tamaño del efecto, estúpido: qué tamaño del efecto es y por qué es importante
Y para corroborar los comentarios de @ DarrenJames con respecto a muestras de gran tamaño
Uso del tamaño del efecto o por qué el valor P no es suficiente
Informe tanto el valor P como los tamaños del efecto
Ahora, para responder a la pregunta, ¿los tamaños de los efectos son superiores a los valores p ? Yo diría que cada uno de ellos sirve como componentes de importancia en el análisis estadístico que no se puede comparar en tales términos, y se deben informar juntos. El valor p es una estadística para indicar significación estadística (diferencia de la distribución nula), donde el tamaño del efecto pone en palabras cuánta diferencia hay.
Como ejemplo, digamos que su supervisor, Bob, que no es muy amigable con las estadísticas, está interesado en ver si hubo una relación significativa entre peso (peso) y mpg (millas por galón). Comienzas el análisis con hipótesis
summary
Por lo tanto, pudo concluir que los resultados fueron estadísticamente significativos y comunicar la importancia en términos prácticos.
Espero que esto haya sido útil para responder a su pregunta.
fuente
var.equal = TRUE
.La utilidad de los tamaños de los efectos en relación con los valores p (así como otras métricas de inferencia estadística) se debate habitualmente en mi campo, la psicología, y el debate es actualmente "más candente" de lo normal por razones que son relevantes para su pregunta. Y aunque estoy seguro de que la psicología no es necesariamente el campo científico estadísticamente más sofisticado, ha discutido, estudiado, y en ocasiones demostrado, las limitaciones de varios enfoques de inferencia estadística, o al menos cómo están limitadas por el uso humano. Las respuestas ya publicadas incluyen buenas ideas, pero en caso de que esté interesado en una lista más extensa (y referencias) de razones a favor y en contra de cada una, consulte a continuación.
¿Por qué los valores p no son deseables?
¿Por qué son deseables los tamaños de efecto?
Tenga en cuenta que estoy interpretando que su pregunta se refiere específicamente a tamaños de efectos estandarizados, ya que usted dice que permiten a los investigadores transformar sus hallazgos "EN UNA métrica COMÚN".
¿Por qué son deseables los valores p?
Aunque se adoptan con menos frecuencia, los valores p tienen una serie de ventajas. Algunos son conocidos y de larga data, mientras que otros son relativamente nuevos.
Los valores P proporcionan un índice conveniente y familiar de la fuerza de la evidencia contra la hipótesis nula del modelo estadístico.
Cuando se calculan correctamente, los valores p proporcionan un medio para tomar decisiones dicotómicas (que a veces son necesarias), y los valores p ayudan a mantener las tasas de error falso positivo a largo plazo en un nivel aceptable (Dienes, 2008; Sakaluk, 2016) [ No es estrictamente correcto decir que los valores P son necesarios para las decisiones dicotómicas. De hecho, se usan ampliamente de esa manera, pero Neyman & Pearson usaron 'regiones críticas' en el espacio de estadísticas de prueba para ese propósito. Ver esta pregunta y sus respuestas]
¿Por qué los tamaños del efecto son indeseables (o sobrevalorados)?
Quizás la posición más contraintuitiva para muchos; ¿Por qué los informes de tamaños de efectos estandarizados serían indeseables o, como mínimo, sobrevalorados?
Resumen
Haciéndose eco de la observación hecha por Michael Lew, los valores p y los tamaños del efecto son solo dos piezas de evidencia estadística; Hay otros que vale la pena considerar también. Pero al igual que los valores p y los tamaños de los efectos, otras métricas de valor probatorio también han compartido problemas únicos. Los investigadores comúnmente aplican mal y malinterpretan los intervalos de confianza (por ejemplo, Hoekstra et al., 2014; Morey et al., 2016), por ejemplo, y el resultado de los análisis bayesianos puede distorsionarse por los investigadores, al igual que cuando se usan valores p (por ejemplo, Simonsohn , 2014).
Todas las métricas de evidencia han ganado y todas deben tener premios.
Referencias
Asociacion Americana de Psicologia. (2010) Manual de publicación de la Asociación Americana de Psicología (6ª edición). Washington, DC: Asociación Americana de Psicología.
Baguley, T. (2009). Tamaño del efecto estandarizado o simple: ¿Qué se debe informar? British Journal of Psychology, 100 (3), 603-617.
Bakker, M. y Wicherts, JM (2011). El (mal) informe de resultados estadísticos en revistas de psicología. Métodos de investigación del comportamiento, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J. y Rothstein, HR (2009). Introducción al metanálisis. West Sussex, Reino Unido: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM y Hilgard, J. (12 de agosto de 2017). Corrección de sesgos en psicología: una comparación de los métodos metaanalíticos. Recuperado de osf.io/preprints/psyarxiv/9h3nu
Chan, ME y Arvey, RD (2012). Metaanálisis y desarrollo del conocimiento. Perspectivas sobre la ciencia psicológica, 7 (1), 79-92.
Cohen, J. (1992). Una cartilla de poder. Boletín psicológico, 112 (1), 155-159.
Cumming, G. (2008). Replicación e intervalos p: los valores p predicen el futuro solo vagamente, pero los intervalos de confianza son mucho mejores. Perspectivas sobre la ciencia psicológica, 3, 286–300.
Dienes, D. (2008). Entender la psicología como ciencia: una introducción a la inferencia científica y estadística. Nueva York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Los resultados "positivos" aumentan en la jerarquía de las ciencias. PloS one, 5 (4), e10068.
Gelman, A. y Stern, H. (2006). La diferencia entre "significativo" y "no significativo" no es estadísticamente significativa en sí misma. El estadístico estadounidense, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. y Tendal, B. (2007). Errores de extracción de datos en metanálisis que utilizan diferencias de medias estandarizadas. JAMA, 298 (4), 430-437.
Groenlandia, S., Schlesselman, JJ y Criqui, MH (1986). La falacia de emplear coeficientes de regresión estandarizados y correlaciones como medidas de efecto. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN y Wagenmakers, EJ (2014). Mala interpretación robusta de los intervalos de confianza. Boletín y revisión psiconómica, 21 (5), 1157-1164.
John, LK, Loewenstein, G. y Prelec, D. (2012). Medición de la prevalencia de prácticas de investigación cuestionables con incentivos para decir la verdad. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). La importancia de la magnitud del efecto. En SF Davis (Ed.), Manual de métodos de investigación en psicología experimental (págs. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Realizar estudios de alta potencia de manera eficiente con análisis secuenciales. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR y Hullett, CR (2002). Eta al cuadrado, parcial al cuadrado y mal informe del tamaño del efecto en la investigación de la comunicación. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). La persistencia de estudios de baja potencia en investigación psicológica: causas, consecuencias y remedios. Métodos psicológicos, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD y Wagenmakers, EJ (2016). La falacia de poner confianza en los intervalos de confianza. Boletín y revisión psiconómica, 23 (1), 103-123.
Nosek, BA, Spies, JR y Motyl, M. (2012). Utopía científica: II. Reestructuración de incentivos y prácticas para promover la verdad sobre la publicabilidad. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S. y Wicherts, JM (2016). La prevalencia de errores de informes estadísticos en psicología (1985-2013). Métodos de investigación del comportamiento, 48 (4), 1205-1226.
Rosenthal, R. (1979). El problema del cajón de archivos y la tolerancia para resultados nulos. Boletín psicológico, 86 (3), 638-641.
Sakaluk, JK (2016). Exploración pequeña, confirmación grande: un sistema alternativo a las nuevas estadísticas para avanzar en la investigación psicológica acumulativa y replicable. Revista de Psicología Social Experimental, 66, 47-54.
Schimmack, U. (2014). Cuantificación de la integridad de la investigación estadística: el índice de replicabilidad. Recuperado de http://www.r-index.org
Schmidt, FL y Hunter, JE (1997). Ocho objeciones comunes pero falsas a la interrupción de las pruebas de significación en el análisis de datos de investigación En LL Harlow, SA Mulaik y JH Steiger (Eds.), ¿Qué pasaría si no hubiera pruebas de significación? (págs. 37-64). Mahwah, Nueva Jersey: Erlbaum.
Schönbrodt, FD (2015). p-checker: analizador de valor p para todos. Recuperado de http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Ciencia psicológica, 22 (11), 1359-1366.
Simonsohn, U. (2013). La insensatez de potenciar las réplicas en función del tamaño del efecto observado. Recuperado de http://datacolada.org/4
Simonsohn, U. (2014). Hackeo posterior. Recuperado de http://datacolada.org/13 .
Simonsohn, U., Nelson, LD y Simmons, JP (2014). Curva P: una clave para el cajón de archivos. Revista de psicología experimental: general, 143 (2), 534-547.
Simonsohn, U., Nelson, LD y Simmons, JP (2014). Curva P y tamaño del efecto: corrección del sesgo de publicación utilizando solo resultados significativos. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. y Molenaar, D. (2011). La disposición a compartir datos de investigación está relacionada con la solidez de la evidencia y la calidad del informe de resultados estadísticos. PloS one, 6 (11), e26828.
fuente
Desde la perspectiva de un epidemiólogo, sobre por qué prefiero los tamaños del efecto sobre los valores p (aunque, como algunas personas han notado, es una falsa dicotomía):
fuente