Implicaciones del debate actual sobre la significación estadística.

10

En los últimos años, varios académicos han planteado un problema perjudicial de las pruebas de hipótesis científicas, denominado "grado de libertad del investigador", lo que significa que los científicos deben tomar numerosas decisiones durante su análisis que sesgan hacia la búsqueda con un valor p <5%. Estas opciones ambiguas son, por ejemplo, qué caso se incluirá, qué caso se clasifica como atípico, ejecutando numerosas especificaciones del modelo hasta que aparezca algo, no publique resultados nulos, etc. (El documento que provocó este debate en psicología está aquí , vea un artículo popular de Slate y un debate de seguimiento por Andrew Gelman aquí , y la revista Time también toca este tema aquí ).

Primero , una pregunta de aclaración:

La revista Time escribió:

"Una potencia de 0.8 significa que de diez hipótesis verdaderas probadas, solo dos serán descartadas porque sus efectos no se recogen en los datos".

No estoy seguro de cómo encaja esto en la definición de la función de potencia que encontré en el libro de texto, que es la probabilidad de rechazar el valor nulo en función del parámetro θ . Con diferentes θ tenemos diferentes poderes, por lo que no entiendo muy bien la cita anterior.

En segundo lugar , algunas implicaciones de la investigación:

  1. En mi campo de ciencias políticas / economía, los académicos simplemente usan todos los datos disponibles del año del país. Por lo tanto, ¿no deberíamos preocuparnos por la muestra de violín aquí?

  2. ¿Se puede solucionar el problema de ejecutar múltiples pruebas pero informar solo un modelo simplemente por el hecho de que alguien más en la disciplina volverá a evaluar su trabajo y lo golpeará inmediatamente por no tener resultados sólidos? Anticipando esto, es más probable que los académicos en mi campo incluyan una robustness checksección, donde muestran que las especificaciones de múltiples modelos no cambian el resultado. ¿Es esto suficiente?

  3. Andrew Gelman y otros plantean el punto de que, sin importar los datos, siempre sería posible encontrar y publicar algún "patrón" que realmente no existe. Pero esto no debería ser una preocupación, dado el hecho de que cualquier "patrón" empírico debe estar respaldado por una teoría, y las teorías rivales dentro de una disciplina simplemente se involucrarán en un debate / carrera para encontrar qué campo es capaz de encontrar más "patrones" en varios lugares Si un patrón es verdaderamente espurio, la teoría subyacente se eliminará rápidamente cuando no haya un patrón similar en otras muestras / configuraciones. ¿No es así como progresa la ciencia?

  4. Suponiendo que la tendencia actual de las revistas para un resultado nulo realmente florecerá, ¿hay alguna manera de que agreguemos todos los resultados nulos y positivos juntos y hagamos una inferencia sobre la teoría que todos intentan probar?

Heisenberg
fuente
Ver también "Pruebas de teoría en psicología y física: una paradoja metodológica" . La "hipótesis nula" siempre es falsa para su campo. Incluso con prácticas de investigación adecuadas, las pruebas de significación y las pruebas de hipótesis son probablemente inapropiadas.
Frasco
Su pregunta 1 entra en conflicto con la pregunta 3. En política / economía, ¿hay otras muestras / configuraciones disponibles o no?
Frasco

Respuestas:

11

En lugar de usar valores p para evaluar las afirmaciones, debemos seguir los consejos de Robert Abelson y usar los criterios MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Para más información sobre Abelson, vea mi reseña de su libro.

Y deberíamos concentrarnos en los tamaños del efecto, no en los valores p en la producción estadística (con la posible excepción de algunos tipos de minería de datos, en los que no soy experto en absoluto). Y los tamaños de los efectos deben juzgarse en contexto:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Un analista estadístico / de datos no debe ser una persona extraña, utilizada como un cuadro negro en el que se colocan los datos y de donde se obtienen los valores de p; él / ella debe ser un colaborador en la investigación diseñada para hacer un argumento razonable sobre el significado de un conjunto de datos en el contexto de algún campo, dadas las teorías actuales (o su falta) y la evidencia actual (o falta de la misma).

Desafortunadamente, este enfoque requiere una reflexión por parte de los investigadores sustantivos, el analista de datos y quien revisa los resultados (ya sea un jefe de pelo puntiagudo, un comité de disertación, un editor de revista o quien sea). Curiosamente, incluso los académicos parecen reacios a este tipo de pensamiento.

Para más información sobre mis puntos de vista, aquí hay un artículo que escribí publicado en Sciences360.

Peter Flom - Restablece a Monica
fuente
44
+1 Aunque ciertamente estoy de acuerdo con usted, puedo imaginar que decir 'mi reclamo está respaldado por MAGIC' podría no ser siempre útil :-)
Marc Claesen
1
Sí, tendrías que explicarlo, pero si lo hicieras, creo que podría funcionar: "Estos son grandes efectos que tienen pocas excepciones, afectan a un gran número de personas, son interesantes porque XXXX y son creíbles porque XXXX" Podría funcionar. No lo he visto probado. :-)
Peter Flom - Restablece a Monica
1
Si; un reclamo es "creíble" si hay una teoría que dice cómo podría suceder; si se replica, y así sucesivamente. Es menos creíble si no hay una explicación física u otra explicación teórica. Cuanto menos creíble sea un reclamo, más evidencia se necesita para ello.
Peter Flom - Restablece a Monica
2
@Anh La credibilidad en la ciencia debe medirse por lo bien que las teorías predicen fenómenos no utilizados en el desarrollo de la teoría. Al evaluar si las predicciones fueron buenas, la credibilidad requiere la replicación de investigadores independientes. Hay toneladas de evidencia empírica de que las pruebas de significación y las pruebas de hipótesis parecen desalentar ambos comportamientos, en lugar de alentar las actividades contraproducentes del sesgo de publicación y el "pirateo" de un corte arbitrario de "importancia".
Frasco
1
@ Frasco: diría que los valores p no son necesariamente el problema, más que el uso de pruebas de hipótesis débiles es el problema. La física también usa valores p pero con hipótesis que conducen a predicciones puntuales (es decir, una hipótesis nula real). Encontrar un "efecto positivo" es básicamente inútil para la construcción de teorías: debe hacer una estimación puntual para confirmar adecuadamente la teoría.
probabilidad es
3

El campo de la ciencia estadística ha abordado estos problemas desde su inicio. Sigo diciendo que el papel del estadístico es garantizar que la tasa de error de tipo 1 permanezca fija. Esto implica que el riesgo de sacar conclusiones falsas positivas no se puede eliminar, pero se puede controlar. Esto debería llamar nuestra atención sobre el volumen extremadamente grande de investigación científica que se está llevando a cabo en lugar de hacia la filosofía y la ética de la práctica estadística general. Por cada resultado increíble (no creíble) que aparece en los medios (o en la política del gobierno), al menos otros 19 resultados no creíbles fueron derribados por sus hallazgos nulos.

De hecho, si visita, por ejemplo, clinictrials.gov, observará que hay (para casi cualquier indicación de enfermedad) más de 1,000 ensayos clínicos para agentes farmacéuticos en curso en los Estados Unidos en este mismo momento. Eso significa que con una tasa de error falso positivo de 0.001, en promedio, al menos 1 medicamento se colocará en los estantes que no tiene ningún efecto. La validez de 0.05 como umbral validado para la significación estadística ha sido cuestionada una y otra vez. Irónicamente, son solo los estadísticos los que se sienten incómodos con el uso de una tasa de error falso positivo 1/20, mientras que las partes interesadas financieras (ya sean PI o Merck) perseguirán creencias tenazmente independientemente de los resultados in vitro, las pruebas teóricas o la solidez de la evidencia previa. Honestamente, esa tenacidad es una cualidad personal exitosa y loable de muchas personas que tienen éxito en roles no estadísticos. Generalmente están sentados por encima de los estadísticos, en sus respectivos tótems, que tienden a aprovechar esa tenacidad.

Creo que la cita de Time que presentas es completamente incorrecta. El poder es la probabilidad de rechazar la hipótesis nula dado que es falsa. Esto más importante depende de cuán "falsa" sea la hipótesis nula (que a su vez depende de un tamaño de efecto medible). Raramente hablo de poder fuera del contexto del efecto que consideraríamos "interesante" detectar. (por ejemplo, una supervivencia de 4 meses después del tratamiento quimioterapéutico del cáncer de páncreas en estadio 4 no es interesante, por lo tanto, no hay razón para reclutar a 5,000 personas para un ensayo de fase 3).

Para responder a las preguntas que hizo

  1. ???

  2. La multiplicidad es difícil porque no conduce a una regla de decisión obvia sobre cómo manejar los datos. Por ejemplo, supongamos que estamos interesados ​​en una prueba simple de diferencia de medias. A pesar de las infinitas protestas de mis colegas, es fácil mostrar que una prueba t está bien calibrada para detectar diferencias en la media, independientemente de la distribución de muestreo de los datos. Supongamos que alternativamente perseguimos su camino. Comenzarían probando la normalidad usando alguna variante de una prueba distribucional bien conocida (digamos calibración de qqplot). Si los datos aparecieran suficientemente no normales, preguntarían si los datos siguen alguna transformación bien conocida y luego aplicarían una transformación de Box Cox para determinar una transformación de potencia (posiblemente logarítmica) que maximice la entropía. Si aparece un valor numérico obvio, ellos usarán esa transformación. Si no, utilizarán la prueba de Wilcoxon "sin distribución". Para esta secuencia de eventos ad-hoc, no puedo comenzar a esperar cómo calcular la calibración y la potencia para una prueba simple de diferencias de medias cuando la prueba t simple y estúpida hubiera sido suficiente. Sospecho que actos estúpidos como este se pueden vincular matemáticamente con la estimación supereficiente de Hodge: estimadores que son de alta potencia bajo una hipótesis específica que queremos que sea verdad. No obstante, este proceso es s estimación supereficiente: estimadores que son de alta potencia bajo una hipótesis específica que queremos que sea verdad. No obstante, este proceso es s estimación supereficiente: estimadores que son de alta potencia bajo una hipótesis específica que queremos que sea verdad. No obstante, este proceso esno estadístico porque la tasa de error falso positivo no se ha controlado.

  3. El concepto de que las tendencias pueden "descubrirse" erróneamente en cualquier conjunto aleatorio de datos probablemente se remonta al artículo bien escrito de Martin llamado "Cuadrícula estadística de Munchaesen" . Esta es una lectura muy esclarecedora y se remonta a 1984 antes de que naciera el becerro de oro del aprendizaje automático tal como lo conocemos actualmente. De hecho, una hipótesis correctamente establecida es falsable, pero los errores de tipo 1 se han vuelto mucho más costosos en nuestra sociedad basada en datos que nunca antes. Considere, por ejemplo, la evidencia falsificada de la investigación antivacuna que ha llevado a una secuencia masiva de muertes por tos ferina. Los resultados que rechazaron la defenestración pública de las vacunas se vincularon a un solo estudio.(que, aunque equivocado, tampoco fue confirmado por una investigación externa). Hay un ímpetu ético para conducir resultados e informar la evidencia de la honestidad a la bondad. ¿Qué tan fuerte es la evidencia? Tiene poco que ver con el valor p que obtiene, pero el valor p que dijo que llamaría significativo. Y recuerde, falsificar sus datos cambia el valor de p, incluso cuando la prueba de confirmación final informa algo diferente (a menudo mucho más pequeño).

  4. ¡SI! Puede ver claramente en los metanálisis publicados por revistas como el informe Cochrane que la distribución de los resultados de las pruebas parece más bimodal que noraml, con solo resultados positivos y negativos que se convierten en revistas. Esta evidencia es absolutamente loca y confusa para cualquier persona en la práctica clínica. Si, en cambio, publicamos resultados nulos (que provienen de estudios cuyos resultados nos hubieran interesado, independientemente de lo que vinieran a ser ), entonces podemos esperar que los metanálisis realmente representen evidencia que sea significativa y representativa.

AdamO
fuente
1
En " Sobre la probabilidad como base para la acción", William Deming hace una distinción entre estudios "enumerativos" y "analíticos". Él señala que los resultados de cada experimento están condicionados al entorno exacto del experimento, por lo tanto, los estadísticos intentan controlar la "tasa de error de tipo I" siempre estará apagada por una cantidad desconocida cuando un tratamiento se aplica bajo diferentes condiciones .
Frasco
@Flask De manera similar, ningún procedimiento mecánico en la estación espacial internacional está perfectamente calibrado, pero la atención de los ingenieros al detalle y la minimización del error aseguraron que no encontráramos una rareza espacial en nuestras manos.
AdamO
Los ingenieros (con suerte) prueban los componentes en todas las condiciones esperadas y luego agregan un margen de error adicional en función de los modelos que generan. Este es el tipo de comportamiento defendido por Deming y difiere de tratar de sacar conclusiones sobre el desempeño futuro de un tratamiento o la relación entre los factores al evaluar el error de muestreo de un solo estudio. Es una distinción muy interesante que no he visto mencionada en otra parte.
Frasco
No creo que sea defendible decir que un "proceso no es estadístico porque la tasa de error falso positivo no ha sido controlada". Hay mucho más en las estadísticas que el frecuentismo con sus controles de tasa de error, y los bits no frecuentes son los bits más útiles para la ciencia. Es posible que desee leer mi artículo recientemente recibido sobre el tema: arxiv.org/abs/1311.0081
Michael Lew
1
@Adamo La ausencia de cualquier cuantificación de evidencia en la inferencia frecuentista es de hecho una opinión popular entre los bayesianos (y los probabilísticos), pero está bien validada y fue la opinión explícitamente expresada de Neyman y Pearson en el primer artículo donde idearon los métodos frecuentistas. Tal vez deberías leer mi periódico con una mente abierta. La información está toda ahí.
Michael Lew
3

Primero, no soy un estadístico, solo un investigador que lo ha investigado mucho en los últimos años para descubrir por qué los métodos que observo que se usan a mi alrededor son tan escasos y por qué hay tanta confusión sobre conceptos básicos como "qué es un valor p? Daré mi perspectiva.

Primero, una pregunta de aclaración:

La revista Time escribió:

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

datos;"

No estoy seguro de cómo encaja esto en la definición de la función de potencia que encontré en el libro de texto, que es la probabilidad de rechazar el valor nulo en función del parámetro θ. Con diferentes θ tenemos diferentes poderes, por lo que no entiendo muy bien la cita anterior.

La potencia es una función de θ, varianza y tamaño de muestra. No estoy seguro de cuál es la confusión. También para muchos casos en los que se utilizan pruebas de significación, la hipótesis nula de media1 = media2 siempre es falsa. En estos casos, la importancia es solo una función del tamaño de la muestra. Lea "Pruebas de teoría en psicología y física: una paradoja metodológica" de Paul Meehl, me aclaró muchas cosas y nunca he visto una respuesta adecuada. Paul Meehl tiene algunos otros documentos sobre esto que puede encontrar buscando su nombre.

En mi campo de ciencias políticas / economía, los académicos simplemente usan todos los datos disponibles del año del país. Por lo tanto, ¿no deberíamos preocuparnos por la muestra de violín aquí?

Si lees el artículo de Simmons 2011, esta es solo una de las técnicas de "p-hacking" mencionadas. Si es cierto que solo hay un conjunto de datos y nadie selecciona muestras selectivas, supongo que no hay espacio para aumentar el tamaño de la muestra.

¿Se puede solucionar el problema de ejecutar múltiples pruebas pero informar solo un modelo simplemente por el hecho de que alguien más en la disciplina volverá a evaluar su trabajo y lo golpeará inmediatamente por no tener resultados sólidos? Anticipando esto, es más probable que los académicos en mi campo incluyan una sección de verificación de robustez, donde muestran que las especificaciones de múltiples modelos no cambian el resultado. ¿Es esto suficiente?

Si la replicación ocurriera sin sesgo de publicación, no habría necesidad de "revistas del resultado nulo". Diría que es bueno tener la sección de verificación de robustez, pero no es suficiente en presencia de investigadores que no publican lo que consideran resultados nulos. Además, no consideraría un resultado robusto solo porque múltiples técnicas de análisis en los mismos datos llegan a la misma conclusión. Un resultado sólido es aquel que hace una predicción correcta del efecto / correlación / etc. en los datos nuevos .

Una replicación no obtiene p <0.05 las dos veces. La teoría debería considerarse más sólida si predijera un efecto / correlación / etc. diferente al utilizado en el primer estudio. No me refiero a la presencia de un efecto o correlación, sino al valor preciso o un pequeño rango de valores en comparación con el posible rango de valores. La presencia de aumento / disminución del efecto o correlación positiva / negativa es 100% probable que sea cierta en el caso de que la hipótesis nula sea falsa. Lee Meehl.

Andrew Gelman y otros plantean el punto de que, sin importar los datos, siempre sería posible encontrar y publicar algún "patrón" que realmente no existe. Pero esto no debería ser una preocupación, dado el hecho de que cualquier "patrón" empírico debe estar respaldado por una teoría, y las teorías rivales dentro de una disciplina simplemente se involucrarán en un debate / carrera para encontrar qué campo es capaz de encontrar más "patrones" en varios lugares Si un patrón es verdaderamente espurio, la teoría subyacente se eliminará rápidamente cuando no haya un patrón similar en otras muestras / configuraciones. ¿No es así como progresa la ciencia?

La ciencia no puede funcionar correctamente si los investigadores no pueden publicar resultados nulos. Además, el hecho de que el patrón no se descubrió en la segunda muestra / configuración no significa que no exista en las condiciones del estudio inicial.

Suponiendo que la tendencia actual de las revistas para un resultado nulo realmente florecerá, ¿hay alguna manera de que agreguemos todos los resultados nulos y positivos juntos y hagamos una inferencia sobre la teoría que todos intentan probar?

Esto sería un metanálisis . No hay nada especial sobre los resultados nulos en este caso, aparte de que los investigadores no los publican porque los valores p estaban por encima del umbral arbitrario. En presencia de sesgo de publicación, el metanálisis no es confiable, al igual que toda la literatura que sufre sesgo de publicación. Si bien puede ser útil, el metanálisis es muy inferior para evaluar una teoría que hacer que esa teoría haga una predicción precisa que luego se prueba. El sesgo de publicación no importa tanto como las nuevas predicciones se desarrollen y sean replicadas por grupos independientes.

Matraz
fuente
Mi confusión acerca de la cita de Time es que la función de potencia no debe restringirse a cuando el valor nulo es verdadero como lo implica la cita. El dominio de la función de potencia es el espacio de parámetros completo si no me equivoco. Y por lo tanto, no hay un "poder 0.8" particular que se pueda asignar a una prueba.
Heisenberg el
Estoy totalmente de acuerdo con usted en el punto de que una teoría debe ser probada en nuevos datos. Pero en el caso de la ciencia política o la macroeconomía, donde solo tenemos tantos países y tantos años, ¿se frustra necesariamente el esfuerzo?
Heisenberg el
@Anh cada segundo hay nuevos datos para agregar. La teoría debería predecir el futuro. En astronomía se predijeron las posiciones de los cometas, por ejemplo. También calcula la potencia para un valor de parámetro esperado. Entonces, en el caso de la cita, se referirían al poder de probar una teoría que predijo una correlación de al menos r = .5.
Frasco
Aclarar r = 0.5 sería un ejemplo de una correlación predicha por una teoría.
Frasco el
2

Lo diría simplemente porque la prueba de hipótesis nula en realidad solo se trata de la hipótesis nula. Y, en general, la hipótesis nula no suele ser lo que interesa, y puede que ni siquiera sea "el status quo", especialmente en el tipo de regresión de las pruebas de hipótesis. A menudo, en las ciencias sociales no hay status quo, por lo que la hipótesis nula puede ser bastante arbitraria. Esto hace una gran diferencia en el análisis, ya que el punto de partida no está definido, por lo que diferentes investigaciones están comenzando con diferentes hipótesis nulas, muy probablemente basadas en los datos que tienen disponibles. Compare esto con algo así como las leyes del movimiento de Newton: tiene sentido tener esto como la hipótesis nula, y tratar de encontrar mejores teorías desde este punto de partida.

Además, los valores p no calculan la probabilidad correcta: no queremos saber acerca de las probabilidades de cola, a menos que la hipótesis alternativa sea más probable a medida que avanza hacia las colas. Lo que realmente quieres es qué tan bien la teoría predice lo que realmente se vio. Por ejemplo, supongamos que predigo que hay un 50% de posibilidades de una "lluvia ligera", y mi competidor predice que hay un 75% de posibilidades. Esto resulta ser correcto, y observamos una ligera ducha. Ahora, cuando decida qué persona del clima es la correcta, no debe otorgarle a mi predicción crédito adicional por dar también un 40% de posibilidades de una "tormenta eléctrica", ni quitarle crédito a mi competidor por darle a la "tormenta eléctrica" ​​una probabilidad del 0%.

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

¿Cómo puede ser esto? ¿El factor Bayes apoya la hipótesis nula a pesar del pequeño valor p? Bueno, mire la alternativa: dio una probabilidad para el valor observado de : la alternativa no proporciona una buena explicación de los hechos, por lo que el valor nulo es más probable, pero solo relativo a la alternativa . Tenga en cuenta que el valor nulo solo funciona marginalmente mejor que esto: . Pero esto es aún mejor que la alternativa.1n+1=0.00000000960.00000011

Esto es especialmente cierto para el ejemplo que Gelman critica: solo se probó realmente una hipótesis, y no se pensó mucho en a) cuáles son las explicaciones alternativas (particularmente sobre la confusión y los efectos no controlados), b) cuánto son alternativas respaldadas por investigaciones previas, y lo más importante, c) ¿qué predicciones hacen (si las hay) que son sustancialmente diferentes de las nulas?

Pero tenga en cuenta que no está definido, y básicamente representa todas las demás hipótesis consistentes con la información anterior. La única forma en que realmente puede hacer pruebas de hipótesis correctamente es especificando un rango de alternativas que va a comparar. E incluso si hace eso, digamos que tiene , solo puede informar sobre el hecho de que los datos son compatibles con relación con lo que ha especificado. Si deja de lado hipótesis importantes del conjunto de alternativas, puede esperar obtener resultados sin sentido. Además, una alternativa dada puede resultar mucho más adecuada que las demás, pero aún no es probable. Si tiene una prueba donde un valor p esH¯H1,,HKHk0.01pero las cien pruebas diferentes donde el valor p es es mucho más probable que la "mejor hipótesis" (la mejor tiene mejores connotaciones que la verdadera) en realidad proviene del grupo de resultados "casi significativos".0.1

El principal punto a destacar es que nunca puede existir una hipótesis aislada de las alternativas. Porque, después de especificar teorías / modelos , siempre puede agregar una nueva hipótesis En efecto, este tipo de hipótesis es básicamente lo que progresa la ciencia: alguien tiene una nueva idea / explicación de algún tipo de efecto, y luego prueba esta nueva teoría contra el conjunto actual de alternativas . Es vs y no simplemente vs . La versión simplificada solo se aplica cuando hay una hipótesis muy respaldada enH K + 1 = Algo más aún no pensado en H K + 1 H 1 , , H K H 0 H A H 1 , , H KK

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK- es decir, de todas las ideas y explicaciones que tenemos actualmente, hay una teoría dominante que se destaca. Esto definitivamente no es cierto para la mayoría de las áreas de ciencias sociales / políticas, economía y psicología.
probabilidadislogica
fuente