Estoy leyendo Gelman y Carlin "Más allá de los cálculos de potencia: evaluación de errores tipo S (signo) y tipo M (magnitud)" (2014). Estoy tratando de entender la idea principal, la idea principal, pero estoy confundido. ¿Podría alguien ayudarme a destilarme la esencia?
El papel va más o menos así (si lo entendí correctamente).
- Los estudios estadísticos en psicología a menudo están plagados de pequeñas muestras.
- Condicional a un resultado estadísticamente significativo en un estudio dado,
(1) es probable que el tamaño real del efecto se sobreestime severamente y
(2) el signo del efecto puede ser opuesto con alta probabilidad, a menos que el tamaño de la muestra sea lo suficientemente grande. - Lo anterior se muestra usando una suposición previa del tamaño del efecto en la población, y ese efecto generalmente se considera pequeño.
Mi primer problema es, ¿por qué condicionar el resultado estadísticamente significativo? ¿Es para reflejar el sesgo de publicación? Pero ese no parece ser el caso. Entonces, ¿por qué?
Mi segundo problema es, si hago un estudio yo mismo, ¿debería tratar mis resultados de manera diferente a lo que estoy acostumbrado (hago estadísticas frecuentes, no estoy muy familiarizado con Bayesian)? Por ejemplo, tomaría una muestra de datos, estimaría un modelo y registraría una estimación puntual para obtener algún efecto de interés y un límite de confianza a su alrededor. ¿Debo desconfiar ahora de mi resultado? ¿O debería desconfiar si es estadísticamente significativo? ¿Cómo cualquier cambio previo dado eso?
¿Cuál es la conclusión principal (1) para un "productor" de investigación estadística y (2) para un lector de documentos estadísticos aplicados?
Referencias
- Gelman, Andrew y John Carlin. "Más allá de los cálculos de potencia: evaluación de los errores tipo S (signo) y tipo M (magnitud)". Perspectives on Psychological Science 9.6 (2014): 641-651.
PD: Creo que el nuevo elemento para mí aquí es la inclusión de información previa, que no estoy seguro de cómo tratar (proveniente del paradigma frecuentista).
fuente
Respuestas:
Releyé el periódico y esta vez parece mucho más claro. Ahora también los útiles comentarios de @Glen_b y @amoeba tienen mucho sentido.
Toda la discusión se basa en un punto de partida en el que se ha obtenido un resultado estadísticamente significativo. Condicional a eso, tenemos el tamaño del efecto estimado distribuido de manera diferente de lo que estaría ausente el condicionamiento: El documento parece apuntar a dos problemas:
La buena noticia es que ambos problemas pueden abordarse de manera satisfactoria.
Para responder brevemente mis propias dos preguntas:
fuente
Hay otro ángulo de este documento que puede ser útil si ya está aplicando un análisis bayesiano y no le importa la parte de significación estadística.
Suponga que es el CDF posterior de la cantidad (tamaño del efecto) que le interesa estimar. En la situación bayesiana, tomando un poco de libertad con la notación y cambiando para hablar sobre las funciones de densidad de probabilidad, tendrá una función de probabilidad basada en alguna cantidad observable , y en un previo puro de :P β V β
Aquí es probable que sea una cantidad vectorial, en el caso más simple es un vector de múltiples observaciones independientes a partir de las cuales surge el producto habitual de términos de probabilidad, que se convierte en una suma de términos logarítmicos, etc. La longitud de ese vector sería un parametrización del tamaño de la muestra. En otros modelos, digamos donde es Poisson, podría acumularse en el parámetro Poisson, que también expresa una parametrización del tamaño de la muestra.V V p(V|β)
Ahora suponga que hace una hipótesis basada en la revisión de literatura u otros medios. Puede utilizar su supuesto proceso de generación de datos con para generar simulaciones de , que representan qué datos vería si su modelo está bien especificado y es el verdadero tamaño del efecto.βplausible P(V|β) β=βplausible V βplausible
Entonces puedes hacer algo estúpido: da la vuelta y actúa como si esa muestra de la información observada, y extrae un montón de muestras de de la parte posterior general. A partir de estas muestras, puede calcular las estadísticas como se menciona en el documento.V β
Las cantidades del papel vinculado, el error tipo S y la relación de exageración ya representan casi lo mismo. Para ese tamaño de efecto, dadas las opciones de su modelo, le indicarán para un parámetro dado de tamaño de muestra elegido para , cuál es la probabilidad posterior del signo incorrecto y cuál será la relación esperada (en el posterior) entre el tamaño del efecto producido por el modelo y el tamaño de efecto plausible asumido, ya que varía cualquier aspecto de relacionado con el tamaño de la muestra.V V
La parte más difícil es interpretar el "poder" posterior como la probabilidad posterior de que el valor estimado de sea al menos tan grande como el valor hipotético . Esta no es una medida de capacidad para rechazar la hipótesis nula, ya que el tamaño de esta probabilidad no se usaría como una medida de significación en el sentido frecuentista.β βplausible
Realmente no sé cómo llamarlo, excepto para decir que he tenido varias aplicaciones en la práctica en las que es una métrica muy útil para razonar sobre el diseño del estudio. Básicamente, le ofrece una forma de ver cuántos datos necesita proporcionar (suponiendo que sus datos se generen perfectamente a partir de un proceso que utiliza ) para una suposición particular sobre la probabilidad y las formas anteriores para dar como resultado un "suficientemente alto" probabilidad posterior de un efecto de cierto tamaño.βplausible
Donde esto ha sido más útil para mí en la práctica es en situaciones en las que el mismo modelo general necesita aplicarse repetidamente a diferentes conjuntos de datos, pero donde los matices entre los conjuntos de datos podrían justificar el cambio de la distribución previa o el uso de un subconjunto diferente de revisión de literatura para decida cuál es una opción pragmática de , y luego obtenga un diagnóstico aproximado sobre si estos ajustes para diferentes conjuntos de datos darían como resultado un caso en el que necesitará muchos más datos para tener una probabilidad no trivial en la parte posterior concentrado en la parte derecha de la distribución.βplausible
Debe tener cuidado de que nadie haga un mal uso de esta métrica de "poder" como si fuera lo mismo que un cálculo de poder frecuentista, lo cual es bastante difícil. Pero todas estas métricas son bastante útiles para el análisis de diseño prospectivo y retrospectivo, incluso cuando todo el procedimiento de modelado es bayesiano y no se refiere a ningún resultado de significación estadística.
fuente