¿Cómo justificar rigurosamente las tasas de error falso positivo / falso negativo elegidas y la relación de costo subyacente?

12

Contexto

Un grupo de científicos sociales y estadísticos ( Benjamin et al., 2017 ) han sugerido recientemente que la tasa típica de falsos positivos ( = .05) utilizada como umbral para determinar la "significación estadística" debe ajustarse a un umbral más conservador. ( = .005). Un grupo competitivo de científicos sociales y estadísticos ( Lakens et al., 2018 ) han respondido, argumentando en contra del uso de este, o cualquier otro, umbral seleccionado arbitrariamente. La siguiente es una cita de Lakens et al. (p. 16) que ayuda a ejemplificar el tema de mi pregunta:ααα

Idealmente, el nivel alfa se determina comparando costos y beneficios con una función de utilidad utilizando la teoría de la decisión. Este análisis de costo-beneficio (y, por lo tanto, el nivel alfa) difiere al analizar grandes conjuntos de datos existentes en comparación con la recopilación de datos de muestras difíciles de obtener. La ciencia es diversa, y depende de los científicos justificar el nivel alfa que deciden usar. ... La investigación debe guiarse por principios de ciencia rigurosa, no por heurística y umbrales generales arbitrarios.

Pregunta

Me pregunto cómo se podría justificar un alfa elegido de una manera que esté "guiada por los principios de la ciencia rigurosa", como Lakens et al. ¿Sugerir, en la mayoría de los contextos de las ciencias sociales (es decir, fuera de casos seleccionados donde uno tiene una calidad más concreta, como la ganancia, para optimizar)?

Después de la difusión de Lakens et al., Comencé a ver que circulaban calculadoras en línea para ayudar a los investigadores a tomar esta decisión. Al usarlos, los investigadores necesitan especificar una "relación de costos" de errores falsos positivos y falsos negativos. Sin embargo, como esta calculadora aquí sugiere, determinando dicha relación un costo puede implicar una gran cantidad de conjeturas cuantitativa:

Si bien algunos costos de error son fáciles de cuantificar en términos monetarios (costos directos), otros son difíciles de asignar a una cantidad dolar (costos indirectos). ... A pesar de ser difícil de cuantificar, debe hacer un esfuerzo para ponerles un número.

Por ejemplo, aunque Lakens et al. sugiere estudiar muestras difíciles de alcanzar como un factor que uno podría considerar para justificar alfa, parece que todavía se tiene que adivinar cuán difícil es alcanzar esa muestra y, por lo tanto, cómo ajustar la selección de alfa en consecuencia. Como otro ejemplo, me parecería difícil cuantificar el costo de publicar un falso positivo, en términos de cuánto tiempo / dinero otros se comprometerían posteriormente a realizar una investigación basada en la inferencia errónea.

Si la determinación de esta relación de costos es en gran medida una cuestión de conjetura subjetiva, me pregunto si estas decisiones (alguna vez, además de optimizar algo como las ganancias) pueden "justificarse". Es decir, de una manera que existe fuera de las suposiciones hechas sobre muestreo, compensaciones, impacto, etc. De esta manera, determinar una relación de costos de errores falsos positivos / falsos negativos me parece, en mi opinión, algo parecido a seleccionar un previo en la inferencia bayesiana, una decisión que puede ser algo subjetiva, influir en los resultados y, por lo tanto, debatirse. -aunque no estoy seguro de que sea una comparación razonable.

Resumen

Para concretar mi consulta:

  1. ¿Pueden las tasas de falsos positivos / falsos negativos y sus relaciones de costos justificarse "rigurosamente" en la mayoría de los contextos de las ciencias sociales?
  2. Si es así, ¿cuáles son los principios generalizables que uno podría seguir para justificar estas elecciones analíticas (y tal vez un ejemplo o dos de ellas en acción)?
  3. Si no es así, ¿mi analogía de la subjetividad potencial en la elección de las relaciones de costos, como similar a la selección previa bayesiana, es razonable?

Referencias

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 de julio). Redefinir la significación estadística. Recuperado de psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 de enero). Justifica tu alfa. Recuperado de psyarxiv.com/9s3y6

jsakaluk
fuente
44
¿Puedes definir cómo estás usando "objetivamente justificado"? Las probabilidades de error de tipo I son una preferencia del investigador ... al igual que las probabilidades de error de tipo II a priori . ¿De qué manera un investigador "justificaría objetivamente", por ejemplo, una agenda de investigación preferida, un colaborador o financiador de investigación preferido, o un enfoque de capacitación y tutoría de asistente de investigación preferido?
Alexis
1
Objetivamente justificado como algo más que una mera preferencia. El artículo de Lakens et al., Actualmente está circulando bajo el título abreviado de "JYA" [Justifique su Alfa], y mi lectura de su argumento, basado en las citas anteriores, es que ninguna antigua preferencia servirá. Para ser claros: no estoy necesariamente presentando el argumento de que uno puede justificar objetivamente una tasa de error Tipo I / II elegida. Más bien, mi investigación se basa en la interpretación de Lakens et al. para sugerir que puedes, y si ese es el caso, entonces no entiendo cómo se haría.
jsakaluk
3
No veo la palabra "objetivamente" en esta cita de Lakens et al. ¿Realmente lo usan en su papel? Si es así, ¿tal vez podría agregar otra cita para proporcionar un contexto más específico? Si no es así, no estoy seguro de que pueda decir cosas como "justificar objetivamente un alfa elegido, como sugieren Lakens et al.".
ameba dice Reinstate Monica
2
He actualizado la publicación, que ahora está despojada de "objetividad". No fue mi intención caracterizar mal el argumento, pero puedo entender si los lectores pensaron que escribí descuidadamente. Lakens y col. no utilizar el descriptor de "guiada por los principios de rigor científico", por lo que mi pregunta ahora es en base más segura. Sin embargo, todavía me pregunto qué significa eso; ¿Cómo son las conjeturas aparentemente necesarias más rigurosas que las heurísticas? Si hace la diferencia, tengo especial curiosidad por cómo un realista científico alcanzaría un estándar de justificación "científicamente rigurosa" para alfa.
jsakaluk
2
α

Respuestas:

1

(también publicado en twitter, pero re-publicado aquí) Mi intento de respuesta: no creo que una justificación pueda ser "puramente" objetiva, pero puede basarse en criterios defendibles por razones racionales / empíricas. Creo que RSS es un ejemplo de una forma en que podría justificar p <.005 para ciertos tipos de investigación, pero también creo que hay otras circunstancias en las que un alfa diferente sería más óptimo que <.005 (ya sea mayor o menor) dependiendo de qué alfa es factible y cuál es el propósito del estudio. Entonces, por ejemplo, si tiene 5,000 participantes y el tamaño de efecto más pequeño de interés es .10, es posible que desee usar p <.001 y tener un poder del 90% (todos los números están formados) En contraste, digamos que realiza un pequeño experimento como "prueba de concepto" inicial para la línea de investigación. Es posible que tenga N = 100, p <.10, 90% de potencia,

Mark Hoffarth
fuente
1

He estado pensando mucho en la misma pregunta últimamente, y supongo que muchos otros en psicología también lo están.

En primer lugar, cada una de sus preguntas se relaciona con si una elección se hace objetivamente versus subjetivamente, pero (como otros han señalado aquí) no ha explicado completamente lo que constituiría (en su opinión) una elección objetiva versus subjetiva.

Quizás le interese el artículo de Gelman & Hennig 2015 que desempaqueta una variedad de valores envueltos en el uso común de las etiquetas "objetivas" y "subjetivas" en la ciencia. En su formulación, "objetivo" se relaciona con valores de transparencia, consenso, imparcialidad y correspondencia con la realidad observable, mientras que "subjetivo" se relaciona con valores de perspectivas múltiples y dependencia del contexto.

En relación con su Pregunta 3, en la visión bayesiana, la probabilidad se define como cuantificar la incertidumbre sobre el mundo. Por lo que entiendo, existe una tensión aparente en las escuelas de pensamiento “subjetivistas bayesianas” (las probabilidades reflejan estados individuales de creencia) y “objetivistas bayesianas” (las probabilidades reflejan la plausibilidad consensuada). Dentro de la escuela objetivista, hay un mayor énfasis en la justificación de la distribución previa (y el modelo en general) de una manera transparente que concuerde con el consenso y que pueda verificarse, pero la elección del modelo ciertamente depende del contexto (es decir, , depende del estado de conocimiento de consenso para un problema particular).

En la concepción frecuentista, las probabilidades reflejan el número de veces que ocurrirá un evento dadas infinitas repeticiones independientes. Dentro del marco de Neyman-Pearson, uno estipula una hipótesis alternativa precisa y un alfa preciso, acepta la nula precisa o la alternativa precisa (que el efecto de la población es exactamente igual al estipulado) sobre la base de los datos, y luego informa el frecuencia a largo plazo de hacerlo por error.

Dentro de este marco, rara vez tenemos una estimación puntual precisa del tamaño del efecto de la población, sino más bien un rango de valores plausibles. Por lo tanto, condicional a un alfa dado, no tenemos una estimación precisa de la tasa de error de Tipo 2, sino un rango de tasas de error de Tipo 2 plausibles. Del mismo modo, estoy de acuerdo con su punto general de que, por lo general, no tenemos una idea precisa de cuáles serán los costos y beneficios de un error tipo 1 o un error tipo 2. Lo que significa que a menudo nos enfrentamos a una situación en la que tenemos información muy incompleta sobre cuál debería ser nuestra hipótesis en primer lugar, e incluso menos información sobre cuáles serían los costos y beneficios relativos de aceptar vs rechazar esta hipótesis.

a sus preguntas:

  1. ¿Pueden las tasas de falsos positivos / falsos negativos y sus relaciones de costos justificarse objetivamente en la mayoría de los contextos de las ciencias sociales?

Creo que sí, en el sentido de que una justificación puede ser transparente, puede ser consensuada, imparcial y puede corresponder a la realidad (en la medida en que utilicemos la mejor información disponible sobre costos y beneficios).

Sin embargo, creo que tales justificaciones también son subjetivas, ya que puede haber múltiples perspectivas válidas con respecto a cómo establecer alfa para un problema dado, y en lo que constituye un alfa apropiado puede ser significativamente dependiente del contexto.

Por ejemplo, en los últimos años, ha quedado claro que muchos efectos en la literatura reflejan errores de tipo M o tipo S. También pueden reflejar errores de Tipo 1, en la medida en que un estudio de replicación pueda proporcionar evidencia del nulo de efecto exactamente cero.

En relación con esta observación, existe un consenso emergente de que el umbral del valor p para un reclamo con certeza debe mantenerse igual o ser más estricto (es decir, nadie está argumentando un aumento general de alfa a .10 o .20) . Del mismo modo, existe un consenso emergente de que los valores de p no deben usarse como criterio para la publicación (por ejemplo, el formato del Informe registrado).

Para mí, esto refleja una especie de fuente de información "objetiva", es decir, según mi lectura, existe un consenso creciente de que las reclamaciones falsas son costosas para el campo (incluso si no podemos poner un monto en dólares en estos costos). Para mi lectura, no hay un consenso claro de que no alcanzar un umbral de valor p es un costo dramático para el campo. Si hay costos, pueden mitigarse si el incumplimiento del umbral del valor p no afecta si la estimación se convierte en un artículo publicado.

  1. Si es así, ¿cuáles son los principios generalizables que uno podría seguir para justificar estas elecciones analíticas (y tal vez un ejemplo o dos de ellas en acción)?

No estoy seguro, pero me inclinaría hacia algún tipo de principio de que las decisiones deben tomarse sobre la base de juicios de consenso transparentes (locales o globales) sobre los costos y beneficios de los diferentes tipos de opciones analíticas en un contexto particular, incluso en frente a información lamentablemente incompleta sobre cuáles podrían ser estos costos y beneficios.

  1. Si no es así, ¿mi analogía de la subjetividad potencial en la elección de las relaciones de costos, como similar a la selección previa bayesiana, es razonable?

Sí, a través de las tradiciones frecuentistas y bayesianas, hay espacio para la subjetividad (es decir, múltiples perspectivas y dependencia del contexto), así como para la objetividad (es decir, transparencia, consenso, imparcialidad y correspondencia con la realidad observable) en muchos aspectos diferentes de un modelo estadístico y cómo se usa ese modelo (el anterior elegido, la probabilidad elegida, el umbral de decisión elegido, etc.).

de masa fermentada
fuente
Esta es una buena respuesta. Una pieza de la que no estoy tan seguro es el reclamo de correspondencia. Si entendemos este término de la misma manera (estoy pensando en términos de la teoría de la verdad de la correspondencia), entonces, en realidad, parece que la correspondencia podría estar en terreno inestable si no tenemos una idea precisa de los costos de Tipo Errores I / II. En cambio, parece que hay un mejor reclamo de coherencia (dados estos supuestos iniciales, el resto de los números "tienen sentido") o pragmatismo (nuestra suposición de los costos de error Tipo I / II es una ficción útil para la planificación del estudio).
jsakaluk
¿Quizás estoy tratando demasiado de casar la "justificación" con una perspectiva de correspondencia / realista, y en estas otras formas de comprensión, las tasas de error Tipo I / II se pueden elegir de una manera que esté "justificada"?
jsakaluk
Gracias por señalarme estas ideas. Yo diría que en cualquier contexto dado, podemos tener buena información sobre cuáles serán los costos y beneficios futuros, o podemos tener información muy pobre. En un sentido muy aproximado, existe un consenso cada vez mayor de que los falsos positivos (p <umbral, el efecto verdadero es exactamente cero) pueden ser más perjudiciales para el campo que las instancias de no alcanzar un umbral de significancia (pero publicar la estimación de todos modos). En circunstancias locales específicas, puede haber costos más graves asociados con el incumplimiento de un umbral de importancia.
masa madre
Tangencialmente, los conceptos de "alfa" y "error tipo 2" existen solo en el marco de NP donde el analista ha especificado dos hipótesis precisas y se compromete a aceptar una u otra al final del procedimiento. Sin embargo, en la práctica común, a los analistas se les advierte a menudo que no acepten el nulo sobre la base de una estimación no significativa con un poder incierto, volviendo esencialmente a una interpretación al estilo de Fisher donde no hay aceptación del nulo y no hay un "error tipo 2".
masa madre
1
Es divertido para mí que las redes sociales, la clase social y las interacciones sociales detrás de su descripción del "consenso" estén de alguna manera divorciadas de las creencias y valores subjetivos que subyacen a todos ellos.
Alexis