En los últimos años, varios académicos han planteado un problema perjudicial de las pruebas de hipótesis científicas, denominado "grado de libertad del investigador", lo que significa que los científicos deben tomar numerosas decisiones durante su análisis que sesgan hacia la búsqueda con un valor p <5%. Estas opciones ambiguas son, por ejemplo, qué caso se incluirá, qué caso se clasifica como atípico, ejecutando numerosas especificaciones del modelo hasta que aparezca algo, no publique resultados nulos, etc. (El documento que provocó este debate en psicología está aquí , vea un artículo popular de Slate y un debate de seguimiento por Andrew Gelman aquí , y la revista Time también toca este tema aquí ).
Primero , una pregunta de aclaración:
La revista Time escribió:
"Una potencia de 0.8 significa que de diez hipótesis verdaderas probadas, solo dos serán descartadas porque sus efectos no se recogen en los datos".
No estoy seguro de cómo encaja esto en la definición de la función de potencia que encontré en el libro de texto, que es la probabilidad de rechazar el valor nulo en función del parámetro . Con diferentes tenemos diferentes poderes, por lo que no entiendo muy bien la cita anterior.
En segundo lugar , algunas implicaciones de la investigación:
En mi campo de ciencias políticas / economía, los académicos simplemente usan todos los datos disponibles del año del país. Por lo tanto, ¿no deberíamos preocuparnos por la muestra de violín aquí?
¿Se puede solucionar el problema de ejecutar múltiples pruebas pero informar solo un modelo simplemente por el hecho de que alguien más en la disciplina volverá a evaluar su trabajo y lo golpeará inmediatamente por no tener resultados sólidos? Anticipando esto, es más probable que los académicos en mi campo incluyan una
robustness check
sección, donde muestran que las especificaciones de múltiples modelos no cambian el resultado. ¿Es esto suficiente?Andrew Gelman y otros plantean el punto de que, sin importar los datos, siempre sería posible encontrar y publicar algún "patrón" que realmente no existe. Pero esto no debería ser una preocupación, dado el hecho de que cualquier "patrón" empírico debe estar respaldado por una teoría, y las teorías rivales dentro de una disciplina simplemente se involucrarán en un debate / carrera para encontrar qué campo es capaz de encontrar más "patrones" en varios lugares Si un patrón es verdaderamente espurio, la teoría subyacente se eliminará rápidamente cuando no haya un patrón similar en otras muestras / configuraciones. ¿No es así como progresa la ciencia?
Suponiendo que la tendencia actual de las revistas para un resultado nulo realmente florecerá, ¿hay alguna manera de que agreguemos todos los resultados nulos y positivos juntos y hagamos una inferencia sobre la teoría que todos intentan probar?
Respuestas:
En lugar de usar valores p para evaluar las afirmaciones, debemos seguir los consejos de Robert Abelson y usar los criterios MAGIC:
Para más información sobre Abelson, vea mi reseña de su libro.
Y deberíamos concentrarnos en los tamaños del efecto, no en los valores p en la producción estadística (con la posible excepción de algunos tipos de minería de datos, en los que no soy experto en absoluto). Y los tamaños de los efectos deben juzgarse en contexto:
Un analista estadístico / de datos no debe ser una persona extraña, utilizada como un cuadro negro en el que se colocan los datos y de donde se obtienen los valores de p; él / ella debe ser un colaborador en la investigación diseñada para hacer un argumento razonable sobre el significado de un conjunto de datos en el contexto de algún campo, dadas las teorías actuales (o su falta) y la evidencia actual (o falta de la misma).
Desafortunadamente, este enfoque requiere una reflexión por parte de los investigadores sustantivos, el analista de datos y quien revisa los resultados (ya sea un jefe de pelo puntiagudo, un comité de disertación, un editor de revista o quien sea). Curiosamente, incluso los académicos parecen reacios a este tipo de pensamiento.
Para más información sobre mis puntos de vista, aquí hay un artículo que escribí publicado en Sciences360.
fuente
El campo de la ciencia estadística ha abordado estos problemas desde su inicio. Sigo diciendo que el papel del estadístico es garantizar que la tasa de error de tipo 1 permanezca fija. Esto implica que el riesgo de sacar conclusiones falsas positivas no se puede eliminar, pero se puede controlar. Esto debería llamar nuestra atención sobre el volumen extremadamente grande de investigación científica que se está llevando a cabo en lugar de hacia la filosofía y la ética de la práctica estadística general. Por cada resultado increíble (no creíble) que aparece en los medios (o en la política del gobierno), al menos otros 19 resultados no creíbles fueron derribados por sus hallazgos nulos.
De hecho, si visita, por ejemplo, clinictrials.gov, observará que hay (para casi cualquier indicación de enfermedad) más de 1,000 ensayos clínicos para agentes farmacéuticos en curso en los Estados Unidos en este mismo momento. Eso significa que con una tasa de error falso positivo de 0.001, en promedio, al menos 1 medicamento se colocará en los estantes que no tiene ningún efecto. La validez de 0.05 como umbral validado para la significación estadística ha sido cuestionada una y otra vez. Irónicamente, son solo los estadísticos los que se sienten incómodos con el uso de una tasa de error falso positivo 1/20, mientras que las partes interesadas financieras (ya sean PI o Merck) perseguirán creencias tenazmente independientemente de los resultados in vitro, las pruebas teóricas o la solidez de la evidencia previa. Honestamente, esa tenacidad es una cualidad personal exitosa y loable de muchas personas que tienen éxito en roles no estadísticos. Generalmente están sentados por encima de los estadísticos, en sus respectivos tótems, que tienden a aprovechar esa tenacidad.
Creo que la cita de Time que presentas es completamente incorrecta. El poder es la probabilidad de rechazar la hipótesis nula dado que es falsa. Esto más importante depende de cuán "falsa" sea la hipótesis nula (que a su vez depende de un tamaño de efecto medible). Raramente hablo de poder fuera del contexto del efecto que consideraríamos "interesante" detectar. (por ejemplo, una supervivencia de 4 meses después del tratamiento quimioterapéutico del cáncer de páncreas en estadio 4 no es interesante, por lo tanto, no hay razón para reclutar a 5,000 personas para un ensayo de fase 3).
Para responder a las preguntas que hizo
???
La multiplicidad es difícil porque no conduce a una regla de decisión obvia sobre cómo manejar los datos. Por ejemplo, supongamos que estamos interesados en una prueba simple de diferencia de medias. A pesar de las infinitas protestas de mis colegas, es fácil mostrar que una prueba t está bien calibrada para detectar diferencias en la media, independientemente de la distribución de muestreo de los datos. Supongamos que alternativamente perseguimos su camino. Comenzarían probando la normalidad usando alguna variante de una prueba distribucional bien conocida (digamos calibración de qqplot). Si los datos aparecieran suficientemente no normales, preguntarían si los datos siguen alguna transformación bien conocida y luego aplicarían una transformación de Box Cox para determinar una transformación de potencia (posiblemente logarítmica) que maximice la entropía. Si aparece un valor numérico obvio, ellos usarán esa transformación. Si no, utilizarán la prueba de Wilcoxon "sin distribución". Para esta secuencia de eventos ad-hoc, no puedo comenzar a esperar cómo calcular la calibración y la potencia para una prueba simple de diferencias de medias cuando la prueba t simple y estúpida hubiera sido suficiente. Sospecho que actos estúpidos como este se pueden vincular matemáticamente con la estimación supereficiente de Hodge: estimadores que son de alta potencia bajo una hipótesis específica que queremos que sea verdad. No obstante, este proceso es s estimación supereficiente: estimadores que son de alta potencia bajo una hipótesis específica que queremos que sea verdad. No obstante, este proceso es s estimación supereficiente: estimadores que son de alta potencia bajo una hipótesis específica que queremos que sea verdad. No obstante, este proceso esno estadístico porque la tasa de error falso positivo no se ha controlado.
El concepto de que las tendencias pueden "descubrirse" erróneamente en cualquier conjunto aleatorio de datos probablemente se remonta al artículo bien escrito de Martin llamado "Cuadrícula estadística de Munchaesen" . Esta es una lectura muy esclarecedora y se remonta a 1984 antes de que naciera el becerro de oro del aprendizaje automático tal como lo conocemos actualmente. De hecho, una hipótesis correctamente establecida es falsable, pero los errores de tipo 1 se han vuelto mucho más costosos en nuestra sociedad basada en datos que nunca antes. Considere, por ejemplo, la evidencia falsificada de la investigación antivacuna que ha llevado a una secuencia masiva de muertes por tos ferina. Los resultados que rechazaron la defenestración pública de las vacunas se vincularon a un solo estudio.(que, aunque equivocado, tampoco fue confirmado por una investigación externa). Hay un ímpetu ético para conducir resultados e informar la evidencia de la honestidad a la bondad. ¿Qué tan fuerte es la evidencia? Tiene poco que ver con el valor p que obtiene, pero el valor p que dijo que llamaría significativo. Y recuerde, falsificar sus datos cambia el valor de p, incluso cuando la prueba de confirmación final informa algo diferente (a menudo mucho más pequeño).
¡SI! Puede ver claramente en los metanálisis publicados por revistas como el informe Cochrane que la distribución de los resultados de las pruebas parece más bimodal que noraml, con solo resultados positivos y negativos que se convierten en revistas. Esta evidencia es absolutamente loca y confusa para cualquier persona en la práctica clínica. Si, en cambio, publicamos resultados nulos (que provienen de estudios cuyos resultados nos hubieran interesado, independientemente de lo que vinieran a ser ), entonces podemos esperar que los metanálisis realmente representen evidencia que sea significativa y representativa.
fuente
Primero, no soy un estadístico, solo un investigador que lo ha investigado mucho en los últimos años para descubrir por qué los métodos que observo que se usan a mi alrededor son tan escasos y por qué hay tanta confusión sobre conceptos básicos como "qué es un valor p? Daré mi perspectiva.
La potencia es una función de θ, varianza y tamaño de muestra. No estoy seguro de cuál es la confusión. También para muchos casos en los que se utilizan pruebas de significación, la hipótesis nula de media1 = media2 siempre es falsa. En estos casos, la importancia es solo una función del tamaño de la muestra. Lea "Pruebas de teoría en psicología y física: una paradoja metodológica" de Paul Meehl, me aclaró muchas cosas y nunca he visto una respuesta adecuada. Paul Meehl tiene algunos otros documentos sobre esto que puede encontrar buscando su nombre.
Si lees el artículo de Simmons 2011, esta es solo una de las técnicas de "p-hacking" mencionadas. Si es cierto que solo hay un conjunto de datos y nadie selecciona muestras selectivas, supongo que no hay espacio para aumentar el tamaño de la muestra.
Si la replicación ocurriera sin sesgo de publicación, no habría necesidad de "revistas del resultado nulo". Diría que es bueno tener la sección de verificación de robustez, pero no es suficiente en presencia de investigadores que no publican lo que consideran resultados nulos. Además, no consideraría un resultado robusto solo porque múltiples técnicas de análisis en los mismos datos llegan a la misma conclusión. Un resultado sólido es aquel que hace una predicción correcta del efecto / correlación / etc. en los datos nuevos .
Una replicación no obtiene p <0.05 las dos veces. La teoría debería considerarse más sólida si predijera un efecto / correlación / etc. diferente al utilizado en el primer estudio. No me refiero a la presencia de un efecto o correlación, sino al valor preciso o un pequeño rango de valores en comparación con el posible rango de valores. La presencia de aumento / disminución del efecto o correlación positiva / negativa es 100% probable que sea cierta en el caso de que la hipótesis nula sea falsa. Lee Meehl.
La ciencia no puede funcionar correctamente si los investigadores no pueden publicar resultados nulos. Además, el hecho de que el patrón no se descubrió en la segunda muestra / configuración no significa que no exista en las condiciones del estudio inicial.
Esto sería un metanálisis . No hay nada especial sobre los resultados nulos en este caso, aparte de que los investigadores no los publican porque los valores p estaban por encima del umbral arbitrario. En presencia de sesgo de publicación, el metanálisis no es confiable, al igual que toda la literatura que sufre sesgo de publicación. Si bien puede ser útil, el metanálisis es muy inferior para evaluar una teoría que hacer que esa teoría haga una predicción precisa que luego se prueba. El sesgo de publicación no importa tanto como las nuevas predicciones se desarrollen y sean replicadas por grupos independientes.
fuente
Lo diría simplemente porque la prueba de hipótesis nula en realidad solo se trata de la hipótesis nula. Y, en general, la hipótesis nula no suele ser lo que interesa, y puede que ni siquiera sea "el status quo", especialmente en el tipo de regresión de las pruebas de hipótesis. A menudo, en las ciencias sociales no hay status quo, por lo que la hipótesis nula puede ser bastante arbitraria. Esto hace una gran diferencia en el análisis, ya que el punto de partida no está definido, por lo que diferentes investigaciones están comenzando con diferentes hipótesis nulas, muy probablemente basadas en los datos que tienen disponibles. Compare esto con algo así como las leyes del movimiento de Newton: tiene sentido tener esto como la hipótesis nula, y tratar de encontrar mejores teorías desde este punto de partida.
Además, los valores p no calculan la probabilidad correcta: no queremos saber acerca de las probabilidades de cola, a menos que la hipótesis alternativa sea más probable a medida que avanza hacia las colas. Lo que realmente quieres es qué tan bien la teoría predice lo que realmente se vio. Por ejemplo, supongamos que predigo que hay un 50% de posibilidades de una "lluvia ligera", y mi competidor predice que hay un 75% de posibilidades. Esto resulta ser correcto, y observamos una ligera ducha. Ahora, cuando decida qué persona del clima es la correcta, no debe otorgarle a mi predicción crédito adicional por dar también un 40% de posibilidades de una "tormenta eléctrica", ni quitarle crédito a mi competidor por darle a la "tormenta eléctrica" una probabilidad del 0%.
¿Cómo puede ser esto? ¿El factor Bayes apoya la hipótesis nula a pesar del pequeño valor p? Bueno, mire la alternativa: dio una probabilidad para el valor observado de : la alternativa no proporciona una buena explicación de los hechos, por lo que el valor nulo es más probable, pero solo relativo a la alternativa . Tenga en cuenta que el valor nulo solo funciona marginalmente mejor que esto: . Pero esto es aún mejor que la alternativa.1n+1=0.0000000096 0.00000011
Esto es especialmente cierto para el ejemplo que Gelman critica: solo se probó realmente una hipótesis, y no se pensó mucho en a) cuáles son las explicaciones alternativas (particularmente sobre la confusión y los efectos no controlados), b) cuánto son alternativas respaldadas por investigaciones previas, y lo más importante, c) ¿qué predicciones hacen (si las hay) que son sustancialmente diferentes de las nulas?
Pero tenga en cuenta que no está definido, y básicamente representa todas las demás hipótesis consistentes con la información anterior. La única forma en que realmente puede hacer pruebas de hipótesis correctamente es especificando un rango de alternativas que va a comparar. E incluso si hace eso, digamos que tiene , solo puede informar sobre el hecho de que los datos son compatibles con relación con lo que ha especificado. Si deja de lado hipótesis importantes del conjunto de alternativas, puede esperar obtener resultados sin sentido. Además, una alternativa dada puede resultar mucho más adecuada que las demás, pero aún no es probable. Si tiene una prueba donde un valor p esH¯¯¯¯¯ H1,…,HK Hk 0.01 pero las cien pruebas diferentes donde el valor p es es mucho más probable que la "mejor hipótesis" (la mejor tiene mejores connotaciones que la verdadera) en realidad proviene del grupo de resultados "casi significativos".0.1
El principal punto a destacar es que nunca puede existir una hipótesis aislada de las alternativas. Porque, después de especificar teorías / modelos , siempre puede agregar una nueva hipótesis En efecto, este tipo de hipótesis es básicamente lo que progresa la ciencia: alguien tiene una nueva idea / explicación de algún tipo de efecto, y luego prueba esta nueva teoría contra el conjunto actual de alternativas . Es vs y no simplemente vs . La versión simplificada solo se aplica cuando hay una hipótesis muy respaldada enH K + 1 = Algo más aún no pensado en H K + 1 H 1 , … , H K H 0 H A H 1 , … , H KK
fuente