Contexto
Un grupo de científicos sociales y estadísticos ( Benjamin et al., 2017 ) han sugerido recientemente que la tasa típica de falsos positivos ( = .05) utilizada como umbral para determinar la "significación estadística" debe ajustarse a un umbral más conservador. ( = .005). Un grupo competitivo de científicos sociales y estadísticos ( Lakens et al., 2018 ) han respondido, argumentando en contra del uso de este, o cualquier otro, umbral seleccionado arbitrariamente. La siguiente es una cita de Lakens et al. (p. 16) que ayuda a ejemplificar el tema de mi pregunta:α
Idealmente, el nivel alfa se determina comparando costos y beneficios con una función de utilidad utilizando la teoría de la decisión. Este análisis de costo-beneficio (y, por lo tanto, el nivel alfa) difiere al analizar grandes conjuntos de datos existentes en comparación con la recopilación de datos de muestras difíciles de obtener. La ciencia es diversa, y depende de los científicos justificar el nivel alfa que deciden usar. ... La investigación debe guiarse por principios de ciencia rigurosa, no por heurística y umbrales generales arbitrarios.
Pregunta
Me pregunto cómo se podría justificar un alfa elegido de una manera que esté "guiada por los principios de la ciencia rigurosa", como Lakens et al. ¿Sugerir, en la mayoría de los contextos de las ciencias sociales (es decir, fuera de casos seleccionados donde uno tiene una calidad más concreta, como la ganancia, para optimizar)?
Después de la difusión de Lakens et al., Comencé a ver que circulaban calculadoras en línea para ayudar a los investigadores a tomar esta decisión. Al usarlos, los investigadores necesitan especificar una "relación de costos" de errores falsos positivos y falsos negativos. Sin embargo, como esta calculadora aquí sugiere, determinando dicha relación un costo puede implicar una gran cantidad de conjeturas cuantitativa:
Si bien algunos costos de error son fáciles de cuantificar en términos monetarios (costos directos), otros son difíciles de asignar a una cantidad dolar (costos indirectos). ... A pesar de ser difícil de cuantificar, debe hacer un esfuerzo para ponerles un número.
Por ejemplo, aunque Lakens et al. sugiere estudiar muestras difíciles de alcanzar como un factor que uno podría considerar para justificar alfa, parece que todavía se tiene que adivinar cuán difícil es alcanzar esa muestra y, por lo tanto, cómo ajustar la selección de alfa en consecuencia. Como otro ejemplo, me parecería difícil cuantificar el costo de publicar un falso positivo, en términos de cuánto tiempo / dinero otros se comprometerían posteriormente a realizar una investigación basada en la inferencia errónea.
Si la determinación de esta relación de costos es en gran medida una cuestión de conjetura subjetiva, me pregunto si estas decisiones (alguna vez, además de optimizar algo como las ganancias) pueden "justificarse". Es decir, de una manera que existe fuera de las suposiciones hechas sobre muestreo, compensaciones, impacto, etc. De esta manera, determinar una relación de costos de errores falsos positivos / falsos negativos me parece, en mi opinión, algo parecido a seleccionar un previo en la inferencia bayesiana, una decisión que puede ser algo subjetiva, influir en los resultados y, por lo tanto, debatirse. -aunque no estoy seguro de que sea una comparación razonable.
Resumen
Para concretar mi consulta:
- ¿Pueden las tasas de falsos positivos / falsos negativos y sus relaciones de costos justificarse "rigurosamente" en la mayoría de los contextos de las ciencias sociales?
- Si es así, ¿cuáles son los principios generalizables que uno podría seguir para justificar estas elecciones analíticas (y tal vez un ejemplo o dos de ellas en acción)?
- Si no es así, ¿mi analogía de la subjetividad potencial en la elección de las relaciones de costos, como similar a la selección previa bayesiana, es razonable?
Referencias
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 de julio). Redefinir la significación estadística. Recuperado de psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 de enero). Justifica tu alfa. Recuperado de psyarxiv.com/9s3y6
Respuestas:
(también publicado en twitter, pero re-publicado aquí) Mi intento de respuesta: no creo que una justificación pueda ser "puramente" objetiva, pero puede basarse en criterios defendibles por razones racionales / empíricas. Creo que RSS es un ejemplo de una forma en que podría justificar p <.005 para ciertos tipos de investigación, pero también creo que hay otras circunstancias en las que un alfa diferente sería más óptimo que <.005 (ya sea mayor o menor) dependiendo de qué alfa es factible y cuál es el propósito del estudio. Entonces, por ejemplo, si tiene 5,000 participantes y el tamaño de efecto más pequeño de interés es .10, es posible que desee usar p <.001 y tener un poder del 90% (todos los números están formados) En contraste, digamos que realiza un pequeño experimento como "prueba de concepto" inicial para la línea de investigación. Es posible que tenga N = 100, p <.10, 90% de potencia,
fuente
He estado pensando mucho en la misma pregunta últimamente, y supongo que muchos otros en psicología también lo están.
En primer lugar, cada una de sus preguntas se relaciona con si una elección se hace objetivamente versus subjetivamente, pero (como otros han señalado aquí) no ha explicado completamente lo que constituiría (en su opinión) una elección objetiva versus subjetiva.
Quizás le interese el artículo de Gelman & Hennig 2015 que desempaqueta una variedad de valores envueltos en el uso común de las etiquetas "objetivas" y "subjetivas" en la ciencia. En su formulación, "objetivo" se relaciona con valores de transparencia, consenso, imparcialidad y correspondencia con la realidad observable, mientras que "subjetivo" se relaciona con valores de perspectivas múltiples y dependencia del contexto.
En relación con su Pregunta 3, en la visión bayesiana, la probabilidad se define como cuantificar la incertidumbre sobre el mundo. Por lo que entiendo, existe una tensión aparente en las escuelas de pensamiento “subjetivistas bayesianas” (las probabilidades reflejan estados individuales de creencia) y “objetivistas bayesianas” (las probabilidades reflejan la plausibilidad consensuada). Dentro de la escuela objetivista, hay un mayor énfasis en la justificación de la distribución previa (y el modelo en general) de una manera transparente que concuerde con el consenso y que pueda verificarse, pero la elección del modelo ciertamente depende del contexto (es decir, , depende del estado de conocimiento de consenso para un problema particular).
En la concepción frecuentista, las probabilidades reflejan el número de veces que ocurrirá un evento dadas infinitas repeticiones independientes. Dentro del marco de Neyman-Pearson, uno estipula una hipótesis alternativa precisa y un alfa preciso, acepta la nula precisa o la alternativa precisa (que el efecto de la población es exactamente igual al estipulado) sobre la base de los datos, y luego informa el frecuencia a largo plazo de hacerlo por error.
Dentro de este marco, rara vez tenemos una estimación puntual precisa del tamaño del efecto de la población, sino más bien un rango de valores plausibles. Por lo tanto, condicional a un alfa dado, no tenemos una estimación precisa de la tasa de error de Tipo 2, sino un rango de tasas de error de Tipo 2 plausibles. Del mismo modo, estoy de acuerdo con su punto general de que, por lo general, no tenemos una idea precisa de cuáles serán los costos y beneficios de un error tipo 1 o un error tipo 2. Lo que significa que a menudo nos enfrentamos a una situación en la que tenemos información muy incompleta sobre cuál debería ser nuestra hipótesis en primer lugar, e incluso menos información sobre cuáles serían los costos y beneficios relativos de aceptar vs rechazar esta hipótesis.
a sus preguntas:
Creo que sí, en el sentido de que una justificación puede ser transparente, puede ser consensuada, imparcial y puede corresponder a la realidad (en la medida en que utilicemos la mejor información disponible sobre costos y beneficios).
Sin embargo, creo que tales justificaciones también son subjetivas, ya que puede haber múltiples perspectivas válidas con respecto a cómo establecer alfa para un problema dado, y en lo que constituye un alfa apropiado puede ser significativamente dependiente del contexto.
Por ejemplo, en los últimos años, ha quedado claro que muchos efectos en la literatura reflejan errores de tipo M o tipo S. También pueden reflejar errores de Tipo 1, en la medida en que un estudio de replicación pueda proporcionar evidencia del nulo de efecto exactamente cero.
En relación con esta observación, existe un consenso emergente de que el umbral del valor p para un reclamo con certeza debe mantenerse igual o ser más estricto (es decir, nadie está argumentando un aumento general de alfa a .10 o .20) . Del mismo modo, existe un consenso emergente de que los valores de p no deben usarse como criterio para la publicación (por ejemplo, el formato del Informe registrado).
Para mí, esto refleja una especie de fuente de información "objetiva", es decir, según mi lectura, existe un consenso creciente de que las reclamaciones falsas son costosas para el campo (incluso si no podemos poner un monto en dólares en estos costos). Para mi lectura, no hay un consenso claro de que no alcanzar un umbral de valor p es un costo dramático para el campo. Si hay costos, pueden mitigarse si el incumplimiento del umbral del valor p no afecta si la estimación se convierte en un artículo publicado.
No estoy seguro, pero me inclinaría hacia algún tipo de principio de que las decisiones deben tomarse sobre la base de juicios de consenso transparentes (locales o globales) sobre los costos y beneficios de los diferentes tipos de opciones analíticas en un contexto particular, incluso en frente a información lamentablemente incompleta sobre cuáles podrían ser estos costos y beneficios.
Sí, a través de las tradiciones frecuentistas y bayesianas, hay espacio para la subjetividad (es decir, múltiples perspectivas y dependencia del contexto), así como para la objetividad (es decir, transparencia, consenso, imparcialidad y correspondencia con la realidad observable) en muchos aspectos diferentes de un modelo estadístico y cómo se usa ese modelo (el anterior elegido, la probabilidad elegida, el umbral de decisión elegido, etc.).
fuente