Tengo antecedentes en estadísticas de nivel de posgrado introductorio (supongo que sé estadística matemática y probabilidad a nivel de pregrado (por ejemplo, Wackerly et al., Probabilidad de Ross), y tengo algún conocimiento de la teoría de la medida).
Recientemente comencé un trabajo haciendo diseño experimental e informes estadísticos en estadísticas educativas, y me colocaron en un proyecto donde básicamente estoy evaluando métricas de responsabilidad para las escuelas y tengo que analizar los datos, proponer cambios, etc. Tenga en cuenta que soy el único uno en mi departamento con experiencia en estadística matemática.
En mi posición, las personas han sugerido fuertemente usar el tamaño del efecto para medir la efectividad de los programas. La única vez que he oído hablar del tamaño del efecto es de mi amigo, que estudió psicología. Mi impresión es que
¿Qué es tan útil sobre esta métrica sobre la prueba de hipótesis tradicional y por qué debería importarme? Para mí, no parece más que una estadística de prueba para una prueba dos muestras . No veo esto útil en absoluto aparte de quizás poner todo en la misma escala (por lo que alguien realmente "normaliza" algo), pero pensé que las estadísticas de prueba (que es lo que me parece el tamaño del efecto) estaban fuera de moda , y se prefieren los valores .
fuente
Respuestas:
Esa es una medida del tamaño del efecto, pero hay muchas otras. Ciertamente no es la estadística de prueba . Su medida del tamaño del efecto a menudo se llama de Cohen (estrictamente hablando, eso es correcto solo si la SD se estima a través de MLE, es decir, sin la corrección de Bessel ); más genéricamente, se llama la "diferencia de medias estandarizada". Quizás esto aclarará que : Es decir, el "t re t ≠ d
En términos más generales, tomar el tamaño de la muestra fuera del valor proporciona información real. Suponiendo que el efecto real no es exactamente a infinitos decimales, puede alcanzar cualquier nivel de significación que desee con suficiente . El valor proporciona información sobre la confianza que podemos tener al rechazar la hipótesis nula, pero lo hace al combinar qué tan grande es el efecto con la cantidad de datos que tiene. Sin duda, es bueno saber si se debe rechazar la hipótesis nula, pero también sería bueno saber si el efecto de la intervención educativa produce grandes beneficios para los niños en edad escolar o es trivial y sólo fue significativo debido a la gran .0 0 norte pag norte
fuente
Espero que alguien con experiencia en un área más relevante (psicología o educación, por ejemplo) intervenga con una mejor respuesta, pero lo intentaré.
" Tamaño del efecto " es un término con más de un significado, que muchos años atrás llevó a algunas conversaciones confusas hasta que finalmente llegué a esa conclusión. Aquí estamos claramente tratando con la versión de desviación estándar escalada ("¿por cuántas desviaciones estándar cambió eso?")
Parte de la razón para observar ese tipo de "tamaño del efecto" en las áreas temáticas en las que son comunes es que con frecuencia tienen variables cuyos valores particulares no son inherentemente significativos, pero están construidos para intentar medir algo subyacente que es difícil de obtener a.
Por ejemplo, imagine que está tratando de medir la satisfacción laboral (tal vez para un modelo que lo relaciona con algún conjunto de variables independientes, tal vez incluyendo algún tratamiento de interés, por ejemplo). No tiene ninguna forma de obtenerlo directamente, pero podría (por ejemplo) tratar de construir un cuestionario para llegar a diferentes aspectos del mismo, tal vez usando algo como una escala Likert.
Un investigador diferente puede tener un enfoque diferente para medir la satisfacción laboral y, por lo tanto, sus dos conjuntos de mediciones de "Satisfacción" no son directamente comparables, pero si tienen las diversas formas de validez, etc. razonablemente pueden estar midiendo la satisfacción), entonces se espera que tengan efectos de tamaño muy similares; al menos el tamaño del efecto será más comparable.
fuente
La fórmula anterior es cómo calcula la d de Cohen para muestras relacionadas (¿qué es probablemente lo que tiene?), Si no están relacionadas, puede usar la varianza agrupada. Existen diferentes estadísticas que le informarán sobre el tamaño del efecto, pero la d de Cohen es una medida estandarizada que puede variar entre 0 y 3. Si tiene muchas variables diferentes, puede ser bueno tener una medida estandarizada cuando esté pensando en todos juntos Por otro lado, muchas personas prefieren entender el tamaño del efecto en términos de las unidades que se miden. ¿Por qué calcular d cuando ya tienes valores de p? Aquí hay un ejemplo de un conjunto de datos con el que estoy trabajando actualmente. Estoy viendo una intervención conductual realizada en las escuelas, medida utilizando cuestionarios psicológicos validados (que producen datos de Likert). Casi todas mis variables muestran un cambio estadísticamente significativo, tal vez no sea sorprendente ya que tengo una muestra grande (n = ~ 250). Sin embargo, para algunas de las variables, la d de Cohenes bastante minúsculo, digamos 0.12, lo que indica que aunque ciertamente hay un cambio, puede que no sea un cambio clínicamente importante y, por lo tanto, es importante para la discusión e interpretación de lo que está sucediendo en los datos. Este concepto es ampliamente utilizado en psicología y ciencias de la salud, donde los profesionales (o las escuelas, en su caso) deben considerar la utilidad clínica real de los tratamientos (o lo que sea que estén experimentando). Cohen's d nos ayuda a responder preguntas sobre si realmente vale la pena hacer una intervención (independientemente de los valores de p). En ciencias médicas también les gusta considerar el NNT y evaluarlo en términos de la gravedad de la afección en cuestión. Eche un vistazo a este gran recurso de @krstoffr http://rpsychologist.com/d3/cohend/
fuente
fuente
De hecho, los valores p ahora están finalmente 'fuera de moda' también: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . La prueba de significación de hipótesis nula (NHST) produce poco más que una descripción del tamaño de la muestra. (*) Cualquier intervención experimental tendrá algún efecto, lo que significa que la hipótesis nula simple de 'sin efecto' siempre es falsa en sentido estricto . Por lo tanto, una prueba 'no significativa' simplemente significa que el tamaño de su muestra no era lo suficientemente grande; una prueba 'significativa' significa que recopiló suficientes datos para 'encontrar' algo.
El "tamaño del efecto" representa un intento de remediar esto, al introducir una medida en la escala natural del problema. En medicina, donde los tratamientos siempre tienen algún efecto (incluso si se trata de un efecto placebo), se introduce la noción de un "efecto clínicamente significativo" para evitar la probabilidad previa del 50% de que se descubra que un "tratamiento" tiene "a ( estadísticamente) efecto positivo significativo '(aunque minúsculo) en un estudio arbitrariamente grande.
Si entiendo la naturaleza de su trabajo, Clarinetista, al final del día, su objetivo legítimo es informar acciones / intervenciones que mejoren la educación en las escuelas bajo su competencia. Por lo tanto, su entorno es una decisión teórica , y los métodos bayesianos son el enfoque más apropiado (y singularmente coherente [1] ).
De hecho, la mejor manera de comprender los métodos frecuentistas es como aproximaciones a los métodos bayesianos . Se puede entender que el tamaño del efecto estimado apunta a una medida de centralidad para la distribución posterior bayesiana , mientras que el valor p puede entenderse como el objetivo de medir una cola de esa parte posterior. Por lo tanto, juntas estas dos cantidades contienen una idea general de la parte posterior bayesiana que constituye la entrada natural a una perspectiva teórica de decisión sobre su problema. (Alternativamente, un intervalo de confianza frecuentista sobre el tamaño del efecto puede entenderse de la misma manera como un posible intervalo creíble ).
En los campos de la psicología y la educación, los métodos bayesianos son bastante populares. Una razón para esto es que es fácil instalar 'construcciones' en modelos bayesianos, como variables latentes. Es posible que desee ver 'el libro del cachorro' de John K. Kruschke , un psicólogo. En educación (donde tienes estudiantes anidados en aulas, anidados en escuelas, anidados en distritos, ...), el modelado jerárquico es inevitable. Y los modelos bayesianos también son excelentes para el modelado jerárquico. En esta cuenta, puede consultar Gelman & Hill [2].
[1]: Robert, Christian P. La elección bayesiana: de los fundamentos teóricos de la decisión a la implementación computacional. 2da ed. Textos Springer en Estadística. Nueva York: Springer, 2007.
[2]: Gelman, Andrew y Jennifer Hill. Análisis de datos mediante regresión y modelos multinivel / jerárquicos. Métodos analíticos para la investigación social. Cambridge; Nueva York: Cambridge University Press, 2007.
Para más información sobre 'coherencia' desde una perspectiva no necesariamente de golpearlo en la cabeza con un ladrillo bayesiano , vea [3].
[3]: Robins, James y Larry Wasserman. "Condicionamiento, probabilidad y coherencia: una revisión de algunos conceptos fundamentales". Revista de la Asociación Americana de Estadística 95, no. 452 (1 de diciembre de 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) En [4], Meehl azota NHST de manera mucho más elegante, pero no menos abrasiva, que yo:
[4]: Meehl, Paul E. "Riesgos teóricos y asteriscos tabulares: Sir Karl, Sir Ronald y el progreso lento de la psicología blanda". Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
Y aquí hay una cita relacionada de Tukey: /stats//a/728/41404
fuente