¿Qué es el tamaño del efecto ... y por qué es útil?

18

Tengo antecedentes en estadísticas de nivel de posgrado introductorio (supongo que sé estadística matemática y probabilidad a nivel de pregrado (por ejemplo, Wackerly et al., Probabilidad de Ross), y tengo algún conocimiento de la teoría de la medida).

Recientemente comencé un trabajo haciendo diseño experimental e informes estadísticos en estadísticas educativas, y me colocaron en un proyecto donde básicamente estoy evaluando métricas de responsabilidad para las escuelas y tengo que analizar los datos, proponer cambios, etc. Tenga en cuenta que soy el único uno en mi departamento con experiencia en estadística matemática.

En mi posición, las personas han sugerido fuertemente usar el tamaño del efecto para medir la efectividad de los programas. La única vez que he oído hablar del tamaño del efecto es de mi amigo, que estudió psicología. Mi impresión es que

Tamaño del efecto = \frac{Diferencia de medias}{Desviación Estándar} .

$\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.}$

¿Qué es tan útil sobre esta métrica sobre la prueba de hipótesis tradicional y por qué debería importarme? Para mí, no parece más que una estadística de prueba para una prueba dos muestras . No veo esto útil en absoluto aparte de quizás poner todo en la misma escala (por lo que alguien realmente "normaliza" algo), pero pensé que las estadísticas de prueba (que es lo que me parece el tamaño del efecto) estaban fuera de moda , y se prefieren los valores . $t$ $p$

effect-size group-differences Clarinetista
fuente

Estoy un poco confundido por los "antecedentes de estadísticas de nivel de graduado introductorio"; Los dos primeros términos parecen contradecirse. ¿Puedes aclarar qué incluye eso? ¿Es algo así como el comienzo de las estadísticas de nivel de posgrado o algo más?

Glen_b -Reinstale a Monica el

2

@Glen_b Sí, está comenzando las estadísticas de nivel de posgrado. Suponga que sé estadística matemática y probabilidad a nivel de pregrado (por ejemplo, Wackerly et al., Probabilidad de Ross), y tengo algún conocimiento de la teoría de la medida.

Clarinetista

3

Puedo simpatizar, OP. Viniendo de un fondo matemático / estadístico, a menudo era desconcertante discutir estadísticas con aquellos capacitados en programas de doctorado en sociología o psicología, porque tienen diferentes términos para todo :) y, a veces, tienen ideas rígidas sobre cómo hacer las cosas, independientemente de si la mejor práctica estadística, por ejemplo, tratar de convencer a un obstinado revisor / editor de que el modelado de ecuaciones estructurales no es la solución a todos los problemas, o que la linealidad no siempre es una buena suposición. Sin embargo, ¡aprendí a unirme con esa comunidad bastante bien, después de varios años!

CrockGill

20

Esa es una medida del tamaño del efecto, pero hay muchas otras. Ciertamente no es la estadística de prueba . Su medida del tamaño del efecto a menudo se llama de Cohen (estrictamente hablando, eso es correcto solo si la SD se estima a través de MLE, es decir, sin la corrección de Bessel ); más genéricamente, se llama la "diferencia de medias estandarizada". Quizás esto aclarará que : Es decir, el " $t$ $d$ $t\ne d$

\begin{aligned} re & = \frac{{\bar{X}}_{2} - {\bar{X}}_{1}}{S re} \\ \neq \\ t & = \frac{{\bar{X}}_{2} - {\bar{X}}_{1}}{S mi} \\ t & = \frac{{\bar{X}}_{2} - {\bar{X}}_{1}}{\frac{S re}{\sqrt{norte}}} \end{aligned}

$\begin{align} d &= \frac{\bar x_2 - \bar x_1}{SD} \\[10pt] &\ne \\[10pt] t &= \frac{\bar x_2 - \bar x_1}{SE} \\[10pt] t &= \frac{\bar x_2 - \bar x_1}{\frac{SD}{\sqrt N}} \\ \end{align}$

/ \sqrt{N}

$/\sqrt N$ "falta en la fórmula para la diferencia de medias estandarizada.

En términos más generales, tomar el tamaño de la muestra fuera del valor proporciona información real. Suponiendo que el efecto real no es exactamente a infinitos decimales, puede alcanzar cualquier nivel de significación que desee con suficiente . El valor proporciona información sobre la confianza que podemos tener al rechazar la hipótesis nula, pero lo hace al combinar qué tan grande es el efecto con la cantidad de datos que tiene. Sin duda, es bueno saber si se debe rechazar la hipótesis nula, pero también sería bueno saber si el efecto de la intervención educativa produce grandes beneficios para los niños en edad escolar o es trivial y sólo fue significativo debido a la gran . $0$ $N$ $p$ $N$

gung - Restablece a Monica
fuente

15

Espero que alguien con experiencia en un área más relevante (psicología o educación, por ejemplo) intervenga con una mejor respuesta, pero lo intentaré.

" Tamaño del efecto " es un término con más de un significado, que muchos años atrás llevó a algunas conversaciones confusas hasta que finalmente llegué a esa conclusión. Aquí estamos claramente tratando con la versión de desviación estándar escalada ("¿por cuántas desviaciones estándar cambió eso?")

Parte de la razón para observar ese tipo de "tamaño del efecto" en las áreas temáticas en las que son comunes es que con frecuencia tienen variables cuyos valores particulares no son inherentemente significativos, pero están construidos para intentar medir algo subyacente que es difícil de obtener a.

Por ejemplo, imagine que está tratando de medir la satisfacción laboral (tal vez para un modelo que lo relaciona con algún conjunto de variables independientes, tal vez incluyendo algún tratamiento de interés, por ejemplo). No tiene ninguna forma de obtenerlo directamente, pero podría (por ejemplo) tratar de construir un cuestionario para llegar a diferentes aspectos del mismo, tal vez usando algo como una escala Likert.

Un investigador diferente puede tener un enfoque diferente para medir la satisfacción laboral y, por lo tanto, sus dos conjuntos de mediciones de "Satisfacción" no son directamente comparables, pero si tienen las diversas formas de validez, etc. razonablemente pueden estar midiendo la satisfacción), entonces se espera que tengan efectos de tamaño muy similares; al menos el tamaño del efecto será más comparable.

Glen_b -Reinstate a Monica
fuente

3

hace un muy buen trabajo al presentar la idea de una "construcción" sin tecnicismos. Pero en su trabajo, Clarinetista, necesitará comprender esta idea con cierta profundidad. Recomiendo encarecidamente la fuente original sobre 'validez de constructo', el artículo de 1955 de Cronbach & Meehl en el Psychological Bulletin: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf

David C. Norris

7

La fórmula anterior es cómo calcula la d de Cohen para muestras relacionadas (¿qué es probablemente lo que tiene?), Si no están relacionadas, puede usar la varianza agrupada. Existen diferentes estadísticas que le informarán sobre el tamaño del efecto, pero la d de Cohen es una medida estandarizada que puede variar entre 0 y 3. Si tiene muchas variables diferentes, puede ser bueno tener una medida estandarizada cuando esté pensando en todos juntos Por otro lado, muchas personas prefieren entender el tamaño del efecto en términos de las unidades que se miden. ¿Por qué calcular d cuando ya tienes valores de p? Aquí hay un ejemplo de un conjunto de datos con el que estoy trabajando actualmente. Estoy viendo una intervención conductual realizada en las escuelas, medida utilizando cuestionarios psicológicos validados (que producen datos de Likert). Casi todas mis variables muestran un cambio estadísticamente significativo, tal vez no sea sorprendente ya que tengo una muestra grande (n = ~ 250). Sin embargo, para algunas de las variables, la d de Cohenes bastante minúsculo, digamos 0.12, lo que indica que aunque ciertamente hay un cambio, puede que no sea un cambio clínicamente importante y, por lo tanto, es importante para la discusión e interpretación de lo que está sucediendo en los datos. Este concepto es ampliamente utilizado en psicología y ciencias de la salud, donde los profesionales (o las escuelas, en su caso) deben considerar la utilidad clínica real de los tratamientos (o lo que sea que estén experimentando). Cohen's d nos ayuda a responder preguntas sobre si realmente vale la pena hacer una intervención (independientemente de los valores de p). En ciencias médicas también les gusta considerar el NNT y evaluarlo en términos de la gravedad de la afección en cuestión. Eche un vistazo a este gran recurso de @krstoffr http://rpsychologist.com/d3/cohend/

JUST1N3
fuente

2

$t$ $n$

$p$

CrockGill
fuente

2

De hecho, los valores p ahora están finalmente 'fuera de moda' también: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . La prueba de significación de hipótesis nula (NHST) produce poco más que una descripción del tamaño de la muestra. (*) Cualquier intervención experimental tendrá algún efecto, lo que significa que la hipótesis nula simple de 'sin efecto' siempre es falsa en sentido estricto . Por lo tanto, una prueba 'no significativa' simplemente significa que el tamaño de su muestra no era lo suficientemente grande; una prueba 'significativa' significa que recopiló suficientes datos para 'encontrar' algo.

El "tamaño del efecto" representa un intento de remediar esto, al introducir una medida en la escala natural del problema. En medicina, donde los tratamientos siempre tienen algún efecto (incluso si se trata de un efecto placebo), se introduce la noción de un "efecto clínicamente significativo" para evitar la probabilidad previa del 50% de que se descubra que un "tratamiento" tiene "a ( estadísticamente) efecto positivo significativo '(aunque minúsculo) en un estudio arbitrariamente grande.

Si entiendo la naturaleza de su trabajo, Clarinetista, al final del día, su objetivo legítimo es informar acciones / intervenciones que mejoren la educación en las escuelas bajo su competencia. Por lo tanto, su entorno es una decisión teórica , y los métodos bayesianos son el enfoque más apropiado (y singularmente coherente [1] ).

De hecho, la mejor manera de comprender los métodos frecuentistas es como aproximaciones a los métodos bayesianos . Se puede entender que el tamaño del efecto estimado apunta a una medida de centralidad para la distribución posterior bayesiana , mientras que el valor p puede entenderse como el objetivo de medir una cola de esa parte posterior. Por lo tanto, juntas estas dos cantidades contienen una idea general de la parte posterior bayesiana que constituye la entrada natural a una perspectiva teórica de decisión sobre su problema. (Alternativamente, un intervalo de confianza frecuentista sobre el tamaño del efecto puede entenderse de la misma manera como un posible intervalo creíble ).

En los campos de la psicología y la educación, los métodos bayesianos son bastante populares. Una razón para esto es que es fácil instalar 'construcciones' en modelos bayesianos, como variables latentes. Es posible que desee ver 'el libro del cachorro' de John K. Kruschke , un psicólogo. En educación (donde tienes estudiantes anidados en aulas, anidados en escuelas, anidados en distritos, ...), el modelado jerárquico es inevitable. Y los modelos bayesianos también son excelentes para el modelado jerárquico. En esta cuenta, puede consultar Gelman & Hill [2].

[1]: Robert, Christian P. La elección bayesiana: de los fundamentos teóricos de la decisión a la implementación computacional. 2da ed. Textos Springer en Estadística. Nueva York: Springer, 2007.

[2]: Gelman, Andrew y Jennifer Hill. Análisis de datos mediante regresión y modelos multinivel / jerárquicos. Métodos analíticos para la investigación social. Cambridge; Nueva York: Cambridge University Press, 2007.

Para más información sobre 'coherencia' desde una perspectiva no necesariamente de golpearlo en la cabeza con un ladrillo bayesiano , vea [3].

[3]: Robins, James y Larry Wasserman. "Condicionamiento, probabilidad y coherencia: una revisión de algunos conceptos fundamentales". Revista de la Asociación Americana de Estadística 95, no. 452 (1 de diciembre de 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.

(*) En [4], Meehl azota NHST de manera mucho más elegante, pero no menos abrasiva, que yo:

Dado que la hipótesis nula es casi siempre falsa, las tablas que resumen la investigación en términos de patrones de "diferencias significativas" son poco más que resultados complejos y causalmente ininterpretables de las funciones de poder estadístico.

[4]: Meehl, Paul E. "Riesgos teóricos y asteriscos tabulares: Sir Karl, Sir Ronald y el progreso lento de la psicología blanda". Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf

Y aquí hay una cita relacionada de Tukey: /stats//a/728/41404

David C. Norris
fuente

1

" Cualquier intervención experimental tendrá algún efecto" (mi énfasis) es una declaración bastante fuerte, como lo es el posterior "siempre". En algunos campos de estudio es probablemente una excelente regla de oro, pero creo que hay peligros en ser demasiado radical. También me gustaría sugerir que "[NHST] produce poco más que una descripción de su tamaño de la muestra" es discutible: el p-valor surge de una interacción entre tanto el tamaño de la muestra y el tamaño del efecto.

Silverfish

@Silverfish, gracias por tu respuesta. Te invito a que proporciones un ejemplo en el que mi perspectiva sobre los valores p sería "peligrosa". (Por cierto, puse algunos en cursiva, y usé la frase "en sentido estricto" en anticipación de una queja como la suya. Mi reclamo sigue en pie.) Además, aunque el valor p de hecho "emerge de una interacción" de otros dos factores, uno de ellos (tamaño de muestra) es en gran medida un parámetro de diseño libre, elegido arbitrariamente. Esa elección arbitraria es, por lo tanto, lo que refleja el valor p. Se necesitan claramente dos números; ¿Por qué no los puntos finales de un intervalo de confianza?

David C. Norris

2

Como ejemplo: cualquier instancia en la que razonablemente podríamos esperar que la hipótesis nula sea cierta, o al menos donde no pudiéramos afirmar directamente que estamos seguros de que es falsa sin siquiera molestarnos en realizar un experimento o mirar los datos. No todos los nulos son falsos: considere la investigación en parapsicología, como la telepatía y los experimentos de precognición, pero muchos nulos son verdaderos en campos que podría considerar más "científicamente válidos", como la genómica.

Silverfish

55

-1, hay muchos problemas aquí, OMI. El hecho de que 1 revista menor de psicología prohibiera los valores p no significa que "los valores p ahora estén finalmente 'fuera de moda'". La prohibición ha sido ampliamente criticada (incluida una declaración cortés de la ASA y no ha sido retomada por ninguna otra revista en los meses posteriores. Observo que la revista no requiere un cambio a los métodos bayesianos (lo que considero es su preferencia) , pero solo lo considerará caso por caso.

Gung - Restablece a Monica

3

Sin embargo, en un verdadero experimento, el proceso de aleatorizar unidades rompe las vías endógenas, lo que permite probar una ruta causal directa de X a Y. Es una afirmación metafísica extraña afirmar que todas las variables están conectadas causalmente directamente en ambas direcciones, pero si usted No sostenga esto, es incoherente afirmar que la "hipótesis nula de 'sin efecto' siempre es falsa".

gung - Restablece a Monica

¿Qué es el tamaño del efecto ... y por qué es útil?

Respuestas: