Reglas de detención opcionales que no están en los libros de texto.

16

Las reglas de detención afectan la relación entre los valores P y las tasas de error asociadas con las decisiones. Un artículo reciente de Simmons et al. 2011 acuña el término grados de libertad del investigador para describir una colección de comportamientos que consideran responsables de muchos de los informes en la literatura de psicología que se ha encontrado que no son reproducibles.

De esos comportamientos, las reglas opcionales de detención o los análisis provisionales no declarados son lo que actualmente me interesa. Describo su efecto sobre las tasas de error a mis alumnos, pero no parecen estar descritos en los libros de texto que mis alumnos usan (o no ¡utilizar!). En la librería principal de mi universidad hay catorce libros de texto de estadística dirigidos a estudiantes de nivel introductorio en diversas disciplinas como biociencias, negocios, ingeniería, etc. Solo uno de esos textos contenía un elemento de índice "prueba secuencial" y ninguno tenía un elemento de índice " regla de detención ".

¿Existe un libro de texto de estadísticas de nivel introductorio que explique el problema de las reglas de detención opcionales?

Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa . Psychological Science, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

Michael Lew - reinstalar a Mónica
fuente
1
¿El problema no desaparece si abandonas las estadísticas de los frecuentistas y usas métodos de TI o bayesianos? (O incluso puro aprendizaje automático, dependiendo del tamaño de su conjunto de datos). Eso no es descabellado: la combinación incompatible de Fisher y NP no causa más que problemas, incluso cuando se hace "correctamente". En el futuro, no habrá más frecuentistas.
thedude
1
Sí, el problema desaparecería si no se utilizan métodos que cumplan con el principio de frecuencia. Sin embargo, tal futuro puede no venir en este mundo. ¿Qué es?
Michael Lew - reinstalar a Mónica el
2
@Michael: Casi indudablemente (es decir, TI) significa "información teórica".
cardenal
Sobre un tema relacionado: errorstatistics.com/2013/04/06/…
Fr.
2
@thedude usando un marco teórico diferente introduce otros problemas . El problema aquí es que todos están tratando las matemáticas como algo más que una simple descripción del mundo. Las estadísticas frecuentes son una forma muy útil de describir el mundo, la bayesiana es otra. Ninguno de los dos le proporcionará un Oráculo de verdad .
Interior

Respuestas:

2

No puede tener una regla de detención sin tener una idea de su distribución y el tamaño de su efecto, que no conoce a priori.

También sí, debemos centrarnos en el tamaño del efecto, y nunca se ha considerado correcto considerar solo los valores p, y ciertamente no deberíamos mostrar tablas o gráficos que muestren valores p o valores F en lugar del tamaño del efecto.

Hay problemas con la prueba de inferencia de hipótesis estadística tradicional (que Cohen dice que es digna de sus siglas, y Fisher y Pearson se volcarían en las tumbas si vieran todo lo que se está haciendo en sus nombres violentamente opuestos hoy).

Para determinar N, debe haber determinado un significado objetivo y un umbral de potencia, así como hacer muchas suposiciones sobre la distribución y, en particular, también debe haber determinado el tamaño del efecto que desea establecer. La intrusión es exactamente correcta en que este debería ser el punto de partida: ¡qué tamaño de efecto mínimo sería rentable!

La "Nueva estadística" aboga por mostrar los tamaños del efecto (como diferencia pareada cuando corresponda), junto con las desviaciones o varianzas estándar asociadas (porque necesitamos entender la distribución) y las desviaciones estándar o intervalos de confianza (pero esto último ya es bloqueando un valor p y una decisión sobre si está prediciendo una dirección o una apuesta en cada sentido). Pero establecer un efecto mínimo del signo especificado con una predicción científica lo deja claro, aunque el valor predeterminado precientífico es hacer prueba y error y solo buscar diferencias. Pero, de nuevo, ha hecho suposiciones sobre la normalidad si sigue este camino.

Otro enfoque es usar diagramas de caja como un enfoque no paramétrico, pero las convenciones sobre bigotes y valores atípicos varían ampliamente e incluso entonces se originan en supuestos de distribución.

El problema de detención no es un problema de un investigador individual o no N, sino que tenemos una comunidad completa de miles de investigadores, donde 1000 es mucho más que 1 / alfa para el nivel tradicional de 0.05. Actualmente se propone que la respuesta sea proporcionar estadísticas de resumen (media, stddev, stderr, o "versiones no paramétricas correspondientes, mediana, etc., como con el diagrama de caja) para facilitar el metanálisis y presentar resultados combinados de todos los experimentos, si ocurren haber alcanzado un nivel alfa particular o no.

Estrechamente relacionado está el problema de las pruebas múltiples, que está lleno de dificultades y donde los experimentos se mantienen demasiado simplistas en nombre de preservar el poder, mientras que se proponen metodologías demasiado complejas para analizar los resultados.

No creo que pueda haber un capítulo de libro de texto que aborde esto definitivamente todavía, ya que todavía tenemos poca idea de lo que estamos haciendo ...

Por el momento, el mejor enfoque es probablemente continuar usando las estadísticas tradicionales más apropiadas para el problema, combinadas con mostrar las estadísticas de resumen: el efecto y el error estándar y N son los más importantes. El uso de intervalos de confianza es básicamente equivalente a la prueba T correspondiente, pero permite comparar los nuevos resultados con los publicados de manera más significativa, así como también permite un ethos que fomenta la reproducibilidad y la publicación de experimentos reproducidos y metanálisis.

En términos de teorías de la información o enfoques bayesianos, utilizan diferentes herramientas y hacen diferentes suposiciones, pero tampoco tienen todas las respuestas, y al final enfrentan los mismos problemas, o peores, porque la inferencia bayesiana se aleja de hacer una decisión definitiva. responde y solo aduce evidencia relativa previa asumida o ausente.

El aprendizaje automático al final también tiene resultados que debe tener en cuenta para su importancia, a menudo con CI o prueba T, a menudo con gráficos, con suerte emparejamiento en lugar de simplemente comparar, y usando versiones compensadas adecuadamente cuando las distribuciones no coinciden. También tiene sus controversias sobre bootstrapping y validación cruzada, y sesgos y variaciones. Lo peor de todo es que tiene la propensión a generar y probar miles de modelos alternativos simplemente parametrizando a fondo todos los algoritmos en una de las muchas cajas de herramientas, aplicadas a los conjuntos de datos cuidadosamente archivados para permitir múltiples pruebas desenfrenadas. Lo peor es que todavía está en la Edad Media utilizando la precisión, o peor aún, la medida F, para la evaluación, en lugar de los métodos de corrección por azar.

He leído docenas de documentos sobre estos temas, pero no he podido encontrar nada totalmente convincente, excepto la encuesta negativa o los documentos de metanálisis que parecen indicar que la mayoría de los investigadores no manejan e interpretan las estadísticas correctamente con respecto a cualquier "estándar". ", viejo o nuevo. Potencia, pruebas múltiples, dimensionamiento y parada temprana, interpretación de errores estándar e intervalos de confianza, ... estos son solo algunos de los problemas.

Por favor, bájame. ¡Me gustaría que me demuestren que estoy equivocado! En mi opinión, hay mucha agua de baño, ¡pero todavía no hemos encontrado al bebé! En esta etapa, ninguno de los puntos de vista extremos o enfoques de marca se ve prometedor como la respuesta, y aquellos que quieren deshacerse de todo lo demás probablemente hayan perdido al bebé.

David MW Powers
fuente
No es cuestión de derribarte, no creo que pueda haber una solución a estos problemas. Somos humanos reconociendo patrones en el mundo, tenemos que conformarnos con validez convergente. Después de que su pobre intento de demostrar que un dios existe, Descartes tocó la validez convergente. A veces está allí, a veces no, pero la mayoría de las veces nos topamos con nuestros poderes infinitamente pequeños de computación cognitiva.
Interior
1

No creo que las "reglas de detención" opcionales sean un término técnico con respecto a la detención óptima. Sin embargo, dudo que encuentre mucha discusión en profundidad sobre el tema en los libros de texto de estadísticas de psicología de nivel introductorio.

La razón cínica para esto es que todos los estudiantes de ciencias sociales tienen habilidades matemáticas débiles. La mejor respuesta, en mi humilde opinión, es que las pruebas t simples no son apropiadas para la mayoría de los experimentos de ciencias sociales. Uno tiene que mirar la fuerza del efecto y determinar si eso resuelve las diferencias entre los grupos. Lo primero puede indicar que lo último es posible, pero eso es todo lo que puede hacer.

Las medidas de gasto social, la regulación estatal y la urbanización tienen relaciones estadísticamente significativas con las medidas de comportamiento religioso. Sin embargo, solo declarar el valor p está enmarcando la prueba en una relación causal de todo o nada. Ver lo siguiente:

ingrese la descripción de la imagen aquí

Los resultados tanto del gasto social como de la urbanización tienen valores p estadísticamente significativos, pero el gasto social está mucho más fuertemente correlacionado. Ese gasto en asistencia social muestra una relación tan fuerte con otras medidas de religiosidad ( tasa no religiosa y comodidad en la religión ) para las cuales la urbanización ni siquiera alcanza un valor p < .10, lo que sugiere que la urbanización no afecta las creencias religiosas generales. Sin embargo, tenga en cuenta que incluso el gasto en asistencia social no explica Irlanda o Filipinas, lo que demuestra que algunos otros efectos son comparativamente más fuertes que los del gasto en asistencia social .

Confiar en "reglas de detención" puede conducir a falsos positivos, especialmente en los pequeños tamaños de muestra de la psicología. La psicología como campo realmente está siendo frenada por este tipo de travesuras estadísticas. Sin embargo, poner toda nuestra fe en un valor p arbitrario también es bastante estúpido. Incluso si todos enviáramos nuestros tamaños de muestra y declaraciones de hipótesis a una revista antes de realizar el experimento, todavía nos encontraríamos con falsos positivos ya que la academia está buscando colectivamente la significación estadística.

Lo correcto no es detener la minería de datos, lo correcto es describir los resultados en relación con su efecto . Las teorías se juzgan no solo por la precisión de sus predicciones sino también por la utilidad de esas predicciones. No importa cuán buena sea la metodología de investigación, un medicamento que proporciona una mejora del 1% en los síntomas del resfriado no vale la pena el costo de empaquetar en una cápsula.

Actualización Para ser claros, estoy totalmente de acuerdo en que los científicos sociales deben tener un estándar más alto: necesitamos mejorar la educación, darles a los científicos sociales mejores herramientas y aumentar los niveles de significación a 3-sigma. Estoy tratando de enfatizar un punto poco representado: la gran mayoría de los estudios de psicología no tienen valor porque el tamaño del efecto es muy pequeño.

Pero con Amazon Turk, puedo compensar adecuadamente la ejecución de 10 estudios paralelos y mantener un nivel de confianza> 3 sigma muy barato. Pero si la intensidad del efecto es pequeña, existen amenazas importantes para la validez externa. El efecto de la manipulación podría deberse a una noticia, al orden de las preguntas, o ...

No tengo tiempo para un ensayo, pero los problemas de calidad dentro de las ciencias sociales van mucho más allá de los métodos estadísticos deficientes.

Intrusión
fuente
Entiendo que aquí hay cierta combinación de ensayos sociológicos (generalmente estudios no experimentales) y clínicos. Sin embargo, su primera oración no tiene sentido: las reglas de detención son un área enorme de investigación en ensayos clínicos. La razón de esto es que múltiples hipótesis correlacionadas, probadas secuencialmente, son parte de un plan de análisis preespecificado . El enlace en la pregunta de OP, sin embargo, no es una cuestión de mala matemática, es una mala ciencia. Llevar a cabo múltiples pruebas estadísticas para "sentir" el análisis correcto y detenerse cuando uno encuentra importancia es una mala ciencia, sin importar cómo lo corte.
AdamO
@ Adam estoy de acuerdo! Cuando escribí esto, era un estudiante universitario que intentaba usar métodos de minería de datos y cuando fui para asegurarme de que estaba haciendo todo correctamente (que era), las reacciones iniciales que obtuve de profesores y estadísticos fueron ... ingenuas. Irónicamente, el procedimiento operativo estándar para los laboratorios de ciencias sociales es realizar estudios piloto hasta que encuentren algo interesante. Estaba haciendo lo mismo, pero en realidad trataba de compensarlo: p
Indolering
0

El artículo que cita no menciona las reglas de detención y parece tener poca relación con el problema en cuestión. Su única relación, muy leve, es la de las pruebas múltiples, que es un concepto estadístico , no científico.

En la literatura de ensayos clínicos, encontrará que las reglas de detención se hacen rigurosas con información explícita sobre las condiciones en las que se "verá" un estudio: según el año calendario o la inscripción de personas por año, el establecimiento de un nivel alfa y también limita los efectos de los tratamientos "efectivos" versus "dañinos". De hecho, deberíamos considerar la conducta rigurosa de tales estudios como un ejemplo de ciencia bien hecha . La FDA incluso irá tan lejos como para decir que, luego de un hallazgo significativo de eficacia diferente a la especificada previamente, se debe realizar un segundo ensayo para validar estos hallazgos. Esto sigue siendo un problema tanto que Thomas Flemming recomienda que todos los estudios clínicos necesitenvalidado con un segundo ensayo confirmatorio completamente independiente , realizado por entidades separadas. Tan malo es el problema de los errores falsos positivos al considerar la vida y la atención médica.

Con una supervisión aparentemente inocua, otros campos de la ciencia han perpetuado la mala ética en la investigación. De hecho, las ciencias sociales no afectan los tratamientos que reciben las personas, se ocupan de resúmenes y modelos conceptuales que solo mejoran nuestra comprensión de la interacción de la teoría y la observación. Sin embargo, cualquier consumidor de ciencias sociales, laico o científico, se presenta con frecuencia con resultados contradictorios: el chocolate es bueno para usted, el chocolate es malo para usted (el chocolate es bueno para usted, por cierto, el azúcar y la grasaen el chocolate es malo para ti), el sexo es bueno para ti, el matrimonio te pone triste / el matrimonio te hace feliz. El campo es negligente con la mala ciencia. Incluso soy culpable de trabajar en análisis en los que no estaba contento con el lenguaje fuertemente causal que luego estaba vinculado a fuertes recomendaciones sobre políticas y apoyo federal, totalmente injustificado y, sin embargo, fue publicado.

El artículo de Simmons describe efectivamente cómo la divulgación ayudaría a hacer explícitos los tipos de "atajos" que hacen los investigadores en los estudios sociales. Simmons da en la Tabla 1 un ejemplo de cómo el dragado de datos aumenta drásticamente las tasas de error falso positivo de una manera típica de los científicos poco éticos que "buscan resultados". El resumen de los hallazgos en la Tabla 2 describe los aspectos frecuentemente omitidos de los artículos que servirían para mejorar en gran medida la comprensión de cómo posiblemente se realizó más de un análisis.

En resumen, detener las reglas solo sería apropiado con una hipótesis previamente especificada: estas son éticamente sólidas y requieren métodos estadísticos. El artículo de Simmons admite que gran parte de la investigación ni siquiera garantiza eso, y es éticamente poco sólido, pero el lenguaje estadístico es convincente por qué exactamente está mal.

AdamO
fuente
No entiendo por qué diría que el documento citado tiene poca relación con el problema en cuestión. Contiene una sección de titulares llamada "Una mirada más cercana a la flexibilidad en el tamaño de la muestra" que trata sobre la detención opcional. Echa otro vistazo.
Michael Lew - reinstalar a Mónica
@MichaelLew para resumir la respuesta: detener las reglas tiene que ver con ensayos clínicos, reclutamiento y seguimiento, pero probar una sola hipótesis preespecificada es una práctica aceptable en la investigación de dispositivos y agentes terapéuticos de la FDA. El artículo de Simmons aborda la ética de la investigación, los criterios y la piratería en la investigación y la academia en medicina social. ¿Puedes describir con mayor precisión cómo ves la relación? Quizás pueda editar su publicación para definir términos y proporcionar referencias a otra literatura, específicamente con respecto a las "reglas de detención" que AFAIK no existen fuera de los ensayos clínicos.
AdamO
Tampoco creo que su caracterización "otros campos de la ciencia han perpetuado la mala ética en la investigación" sea justa o útil. El punto de mi pregunta original es que parece que no hay razón para que los usuarios de estadísticas a tiempo parcial sean conscientes de los posibles problemas derivados de los análisis provisionales no declarados. Es injusto llamar a la ignorancia poco ética.
Michael Lew - reinstalar a Mónica
@MichaelLew, ¿qué estás definiendo como un "análisis intermedio"?
AdamO
Adam, no creo que tengas razón al decir que "no existen reglas de detención fuera de los ensayos clínicos". Es posible que no se mencionen a menudo fuera de los ensayos clínicos (consulte mi pregunta original), pero existen para cada experimento. Incluso una prueba de tamaño de muestra fijo tiene la regla de detención 'continuar hasta que se alcance el tamaño de muestra'.
Michael Lew - reinstalar a Mónica