¿Qué significa "Los científicos se levantan contra la significación estadística"? (Comentario en la naturaleza)

61

El título del Comentario en Nature Scientists se levanta contra la significación estadística comienza con:

Valentin Amrhein, Sander Greenland, Blake McShane y más de 800 signatarios piden el fin de los reclamos publicitados y el rechazo de posibles efectos cruciales.

y luego contiene declaraciones como:

Nuevamente, no abogamos por la prohibición de los valores de P, los intervalos de confianza u otras medidas estadísticas, solo que no debemos tratarlos categóricamente. Esto incluye la dicotomización como estadísticamente significativa o no, así como la categorización basada en otras medidas estadísticas como los factores de Bayes.

Creo que puedo entender que la imagen a continuación no dice que los dos estudios no están de acuerdo porque uno "descarta" ningún efecto mientras que el otro no. Pero el artículo parece profundizar mucho más de lo que puedo entender.

Hacia el final parece haber un resumen en cuatro puntos. ¿Es posible resumir esto en términos aún más simples para aquellos de nosotros que leemos estadísticas en lugar de escribirlas?

Al hablar sobre intervalos de compatibilidad, tenga en cuenta cuatro cosas.

  • Primero, solo porque el intervalo proporciona los valores más compatibles con los datos, dados los supuestos, no significa que los valores externos sean incompatibles; son simplemente menos compatibles ...

  • En segundo lugar, no todos los valores en el interior son igualmente compatibles con los datos, dados los supuestos ...

  • En tercer lugar, al igual que el umbral de 0.05 del que proviene, el 95% predeterminado utilizado para calcular los intervalos es en sí mismo una convención arbitraria ...

  • Por último, y lo más importante de todo, sea humilde: las evaluaciones de compatibilidad dependen de la exactitud de los supuestos estadísticos utilizados para calcular el intervalo ...


Naturaleza: los científicos se alzan contra la significación estadística

UH oh
fuente
13
¡Básicamente, quieren llenar trabajos de investigación con aún más falsos positivos!
David
12
Vea la discusión en el blog de Gelman: statmodeling.stat.columbia.edu/2019/03/20/… . Obviamente, el artículo plantea algunos puntos válidos, pero vea los comentarios planteados por Ioannidis contra este artículo (y también, por separado, contra el aspecto de "petición" del mismo), según lo citado por Gelman.
ameba dice Reinstate Monica
3
Sin embargo, este no es un concepto nuevo. El metanálisis ha sido una cosa durante la mayor parte de 50 años, y Cochrane ha estado haciendo metanálisis de estudios médicos / de atención médica (donde es más fácil estandarizar objetivos y resultados) durante los últimos 25 años.
Graham
44
Básicamente, el problema es tratar de reducir la "incertidumbre", que es un problema multidimensional a un solo número.
MaxW
44
Básicamente, si las personas declararon "no encontramos evidencia de una asociación entre X e Y" en lugar de "X e Y no están relacionadas" al encontrar este artículo probablemente no existiría. p>α
Firebug

Respuestas:

65

Los primeros tres puntos, por lo que puedo decir, son una variación de un solo argumento.

Los científicos a menudo tratan las mediciones de incertidumbre ( , por ejemplo) como distribuciones de probabilidad que se ven así:12±1

distribución de probabilidad uniforme

Cuando en realidad, son mucho más propensos a parecerse a esto : ingrese la descripción de la imagen aquí

Como ex químico, puedo confirmar que muchos científicos con antecedentes no matemáticos (principalmente químicos y biólogos no físicos) realmente no entienden cómo se supone que funciona la incertidumbre (o error, como lo llaman). Recuerdan un momento en la física de pregrado donde tal vez tuvieron que usarlos, posiblemente incluso teniendo que calcular un error compuesto a través de varias mediciones diferentes, pero nunca los entendieron realmente . Yo también fui culpable de esto, y asumí que todas las mediciones debían realizarse dentro del intervalo de . Solo recientemente (y fuera de la academia), descubrí que las mediciones de error generalmente se refieren a una cierta desviación estándar, no a un límite absoluto.±

Entonces, para desglosar los puntos numerados en el artículo:

  1. Las mediciones fuera del IC todavía tienen posibilidades de suceder, porque la probabilidad real (probablemente gaussiana) no es cero allí (o en cualquier lugar, aunque se vuelven muy pequeñas cuando te alejas). Si los valores después de realmente representan un sd, entonces todavía hay un 32% de posibilidades de que un punto de datos caiga fuera de ellos.±

  2. La distribución no es uniforme (parte superior plana, como en el primer gráfico), tiene un pico. Es más probable que obtenga un valor en el medio que en los bordes. Es como tirar un montón de dados, en lugar de un solo dado.

  3. El 95% es un límite arbitrario, y coincide casi exactamente con dos desviaciones estándar.

  4. Este punto es más un comentario sobre la honestidad académica en general. Una comprensión que tuve durante mi doctorado es que la ciencia no es una fuerza abstracta, son los esfuerzos acumulativos de las personas que intentan hacer ciencia. Estas son personas que están tratando de descubrir cosas nuevas sobre el universo, pero al mismo tiempo también están tratando de mantener a sus hijos alimentados y mantener sus trabajos, lo que desafortunadamente en los tiempos modernos significa que hay alguna forma de publicar o perecer . En realidad, los científicos dependen de descubrimientos que son verdaderos e interesantes , porque los resultados poco interesantes no dan lugar a publicaciones.

Los umbrales arbitrarios como menudo pueden perpetuarse a sí mismos, especialmente entre aquellos que no entienden completamente las estadísticas y solo necesitan un sello de aprobación / reprobación en sus resultados. Como tal, las personas a veces hablan en tono de broma sobre 'ejecutar la prueba nuevamente hasta obtener '. Puede ser muy tentador, especialmente si un doctorado / subvención / empleo se basa en el resultado, para que estos resultados marginales se hasta que aparezca el deseado en el análisis.p<0.05p<0.05p=0.0498

Dichas prácticas pueden ser perjudiciales para la ciencia en su conjunto, especialmente si se hace ampliamente, todo en la búsqueda de un número que, a los ojos de la naturaleza, no tiene sentido. En efecto, esta parte exhorta a los científicos a ser honestos sobre sus datos y su trabajo, incluso cuando esa honestidad es en detrimento de ellos.

Ingolifs
fuente
26
1 en juego para "... publicar o perecer está en juego. En realidad, los científicos dependen de descubrimientos que son tanto verdaderos como interesantes, porque los resultados poco interesantes no resultan en publicaciones". Hubo un artículo interesante que salió años atrás que habla de cómo este "publicar o perecer" conduce a un error / sesgo compuesto en toda la academia: por qué los hallazgos de investigación más publicados son falsos (Ioannidis, 2005)
J. Taylor
44
No estoy de acuerdo con "la incertidumbre real (probablemente gaussiana) ..." - Gaussian es otra simplificación excesiva. Está algo más justificado que el modelo de límites duros gracias al Teorema del límite central, pero la distribución real es generalmente algo diferente todavía.
Leftaroundabout
1
@leftaroundabout Es probable que la distribución real sea diferente, pero a menos que el valor sea físicamente imposible, la probabilidad es matemáticamente distinta de cero.
Gerrit
3
@leftaroundabout decir que la incertidumbre es probablemente gaussiana no es intrínsecamente una simplificación. Describe una distribución previa, que el CLT justifica como el mejor previo en ausencia de otros datos de apoyo, pero al expresar incertidumbre sobre la distribución, el reconocimiento de que la distribución podría no ser gaussiana ya está allí.
Será el
77
@inisfree estás muy, muy equivocado. Muchas disciplinas científicas (como la química y la biología, como dije antes) usan matemáticas casi nulas, además de la aritmética básica. Por lo demás, hay científicos brillantes que son casi analfabetos matemáticos, y he conocido a algunos de ellos.
Ingolifs
19

Gran parte del artículo y la figura que incluye hacen un punto muy simple:

La falta de evidencia de un efecto no es evidencia de que no existe.

Por ejemplo,

"En nuestro estudio, los ratones que recibieron cianuro no murieron a tasas estadísticamente significativamente más altas" no es evidencia de la afirmación "el cianuro no tiene ningún efecto sobre las muertes de ratones".

Supongamos que le damos a dos ratones una dosis de cianuro y uno de ellos muere. En el grupo de control de dos ratones, ninguno muere. Dado que el tamaño de la muestra era tan pequeño, este resultado no es estadísticamente significativo ( ). Por lo tanto, este experimento no muestra un efecto estadísticamente significativo del cianuro en la vida útil del ratón. ¿Deberíamos concluir que el cianuro no tiene efecto en los ratones? Obviamente no.p>0.05

Pero este es el error que los autores afirman que los científicos cometen habitualmente.

Por ejemplo, en su figura, la línea roja podría surgir de un estudio en muy pocos ratones, mientras que la línea azul podría surgir del mismo estudio exacto, pero en muchos ratones.

Los autores sugieren que, en lugar de usar tamaños de efectos y valores p, los científicos describen el rango de posibilidades que son más o menos compatibles con sus hallazgos. En nuestro experimento con dos ratones, tendríamos que escribir que nuestros hallazgos son compatibles con que el cianuro es muy venenoso y que no lo es en absoluto. En un experimento de 100 ratones, podríamos encontrar un intervalo de intervalo de confianza de fatalidad con una estimación puntual de[60%,70%]65%. Entonces deberíamos escribir que nuestros resultados serían más compatibles con la suposición de que esta dosis mata al 65% de los ratones, pero nuestros resultados también serían algo compatibles con porcentajes tan bajos como 60 o tan altos como 70, y que nuestros resultados serían menos compatibles con una verdad fuera de ese rango. (También deberíamos describir qué supuestos estadísticos hacemos para calcular estos números).

usul
fuente
44
No estoy de acuerdo con la declaración general de que "la ausencia de evidencia no es evidencia de ausencia". Los cálculos de potencia le permiten determinar la probabilidad de considerar significativo un efecto de un tamaño particular, dado un tamaño de muestra particular. Los tamaños de efectos grandes requieren menos datos para considerarlos significativamente diferentes de cero, mientras que los efectos pequeños requieren un tamaño de muestra mayor. Si su estudio tiene la potencia adecuada y aún no ve efectos significativos, puede concluir razonablemente que el efecto no existe. Si tiene datos suficientes, la falta de importancia puede indicar que no tiene ningún efecto.
Nuclear Wang
1
@NuclearWang Verdadero, pero solo si el análisis de potencia se realiza con anticipación y solo si se realiza con suposiciones correctas y luego interpretaciones correctas (es decir, su potencia solo es relevante para la magnitud del tamaño del efecto que predice; "80% potencia "no significa que tenga un 80% de probabilidad de detectar correctamente el efecto cero ). Además, en mi experiencia, el uso de "no significativo" para significar "sin efecto" a menudo se aplica a resultados secundarios o eventos raros, que el estudio (de manera apropiada) no tiene el poder de todos modos. Finalmente, beta es típicamente >> alfa.
Bryan Krause
99
@NuclearWang, no creo que nadie esté argumentando "la ausencia de evidencia NUNCA es evidencia de ausencia", creo que están argumentando que no debería interpretarse automáticamente como tal, y que este es el error que ven que cometen las personas.
usul
Es casi como si las personas no estuvieran entrenadas en pruebas de equivalencia o algo así.
Alexis
19

Lo intentaré.

  1. El intervalo de confianza (al que renombran intervalo de compatibilidad) muestra los valores del parámetro que son más compatibles con los datos. Pero eso no significa que los valores fuera del intervalo sean absolutamente incompatibles con los datos.
  2. Los valores cercanos a la mitad del intervalo de confianza (compatibilidad) son más compatibles con los datos que los valores cercanos al final del intervalo.
  3. El 95% es solo una convención. Puede calcular 90% o 99% o cualquier% de intervalos.
  4. Los intervalos de confianza / compatibilidad solo son útiles si el experimento se realizó correctamente, si el análisis se realizó de acuerdo con un plan preestablecido y los datos se ajustan a la suposición de los métodos de análisis. Si tiene datos mal analizados mal, el intervalo de compatibilidad no es significativo o útil.
Harvey Motulsky
fuente
10

El gran XKCD hizo esta caricatura hace un tiempo, ilustrando el problema. Si los resultados con se tratan de manera simplista como prueba de una hipótesis, y con demasiada frecuencia lo son, entonces 1 de cada 20 hipótesis así probadas en realidad será falsa. De manera similar, si se toma como refutando una hipótesis, entonces 1 de cada 20 hipótesis verdaderas será rechazada erróneamente. Los valores P no le dicen si una hipótesis es verdadera o falsa, le dicen si una hipótesis es probablemente verdadera o falsa. Parece que el artículo al que se hace referencia está retrocediendo contra la interpretación ingenua demasiado común.P>0.05P < 0.05P<0.05

digitig
fuente
8
(-1) Los valores P no le muestran si una hipótesis es probablemente verdadera o falsa. Necesita una distribución previa para eso. Ver este xkcd , por ejemplo. La problemática agitación de la mano que conduce a esta confusión es que si tenemos antecedentes similares para un gran número de hipótesis, entonces el valor p será proporcional a la probabilidad de que sea verdadero o falso. Pero antes de ver cualquier dato, ¡algunas hipótesis son mucho más probables que otras!
Cliff AB
3
Si bien este efecto es algo que no debe descartarse, está lejos de ser un punto importante del artículo referenciado.
RM
6

tl; dr : es fundamentalmente imposible demostrar que las cosas no están relacionadas; las estadísticas solo se pueden usar para mostrar cuando las cosas están relacionadas. A pesar de este hecho bien establecido, las personas con frecuencia malinterpretan la falta de significación estadística para implicar una falta de relación.


Un buen método de cifrado debería generar un texto cifrado que, por lo que un atacante puede ver, no tiene ninguna relación estadística con el mensaje protegido. Porque si un atacante puede determinar algún tipo de relación, puede obtener información sobre sus mensajes protegidos con solo mirar los textos cifrados, que es un Bad Thing TM .

Sin embargo, el texto cifrado y su texto plano correspondiente 100% se determinan entre sí. Entonces, incluso si los mejores matemáticos del mundo no pueden encontrar una relación significativa, no importa cuánto lo intenten, obviamente todavía sabemos que la relación no solo está allí, sino que es completamente y completamente determinista. Este determinismo puede existir incluso cuando sabemos que es imposible encontrar una relación .

A pesar de esto, todavía tenemos personas que harán cosas como:

  1. Elija alguna relación que quiera " refutar ".

  2. Haga un estudio al respecto que sea inadecuado para detectar la supuesta relación.

  3. Informe la falta de una relación estadísticamente significativa.

  4. Convierta esto en una falta de relación.

Esto lleva a todo tipo de " estudios científicos " que los medios informarán (falsamente) como refutando la existencia de alguna relación.

Si desea diseñar su propio estudio en torno a esto, hay muchas maneras de hacerlo:

  1. Investigación perezosa:
    la forma más fácil, con mucho, es ser increíblemente perezosa al respecto. Es como esa figura vinculada en la pregunta: . Puede obtener fácilmente ese simplemente teniendo pequeños tamaños de muestra, permitiendo mucho ruido y otras cosas perezosas. De hecho, si eres tan flojo como para no recopile cualquier información, ¡ya está listo!

    'Non-significant' study(high P value)"

  2. Análisis perezoso:
    por alguna razón tonta, algunas personas piensan que un coeficiente de correlación de Pearson de significa " sin correlación ". Lo cual es cierto, en un sentido muy limitado. Pero, aquí hay algunos casos para observar: . Es decir, puede que no haya una relación " lineal ", pero obviamente puede haber una relación más compleja. Y no necesita ser un complejo de nivel de " encriptación ", sino más bien " en realidad es solo una línea un poco ondulada " o " hay dos correlaciones " o lo que sea.0

  3. Respuesta perezosa:
    en el espíritu de lo anterior, voy a parar aquí. Para, ya sabes, ¡ser perezoso!

Pero, en serio, el artículo lo resume bien en:

Seamos claros acerca de lo que debe detenerse: nunca debemos concluir que no hay "ninguna diferencia" o "ninguna asociación" solo porque un valor de P es mayor que un umbral como 0.05 o, de manera equivalente, porque un intervalo de confianza incluye cero.

Nat
fuente
+1 porque lo que escribes es verdadero y estimulante. Sin embargo, en mi humilde opinión, puede probar que dos cantidades están razonablemente no correlacionadas bajo ciertos supuestos. Tienes que Offcourse primera apertura por ejemplo, suponiendo una cierta distribución de ellos, pero esto se puede basar en las leyes de la física, o estadísticas (por ejemplo, se espera que la velocidad de las moléculas de un gas en un recipiente para ser gaussiano o así sucesivamente)
ntg
3
@ntg Sí, es difícil saber cómo decir algunas de estas cosas, así que dejé mucho fuera. Quiero decir, la verdad general es que no podemos refutar que existe alguna relación, aunque generalmente podemos demostrar que no existe una relación específica. Por ejemplo, no podemos establecer que dos series de datos no estén relacionadas, pero podemos establecer que no parecen estar relacionadas de manera confiable por una función lineal simple.
Nat
1
-1 "tl; dr- Es fundamentalmente imposible demostrar que las cosas no están relacionadas": las pruebas de equivalencia proporcionan evidencia de la ausencia de un efecto dentro de un tamaño de efecto arbitrario.
Alexis
2
@ Alexis Creo que no entiendes las pruebas de equivalencia; puede usar la prueba de equivalencia para demostrar la ausencia de una relación determinada, por ejemplo, una relación lineal, pero no evidencia la ausencia de ninguna relación.
Nat
1
La inferencia estadística de @Alexis puede proporcionarle tanta evidencia de la ausencia de un efecto mayor que un tamaño de efecto específico dentro del contexto de algún modelo . ¿Quizás estás asumiendo que el modelo siempre será conocido?
Nat
4

Para una introducción didáctica al problema, Alex Reinhart escribió un libro totalmente disponible en línea y editado en No Starch Press (con más contenido): https://www.statisticsdonewrong.com

Explica la raíz del problema sin matemáticas sofisticadas y tiene capítulos específicos con ejemplos del conjunto de datos simulados:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

En el segundo enlace, un ejemplo gráfico ilustra el problema del valor p. El valor P a menudo se usa como un indicador único de diferencia estadística entre el conjunto de datos, pero claramente no es suficiente por sí solo.

Edite para obtener una respuesta más detallada:

En muchos casos, los estudios apuntan a reproducir un tipo preciso de datos, ya sea mediciones físicas (digamos el número de partículas en un acelerador durante un experimento específico) o indicadores cuantitativos (como el número de pacientes que desarrollan síntomas específicos durante las pruebas de drogas). En cualquiera de estas situaciones, muchos factores pueden interferir con el proceso de medición, como el error humano o las variaciones del sistema (las personas reaccionan de manera diferente al mismo medicamento). Esta es la razón por la que los experimentos a menudo se realizan cientos de veces si es posible y se realizan pruebas de drogas, idealmente, en cohortes de miles de pacientes.

El conjunto de datos se reduce a sus valores más simples utilizando estadísticas: medias, desviaciones estándar, etc. El problema al comparar modelos a través de su media es que los valores medidos son solo indicadores de los valores verdaderos y también cambian estadísticamente según el número y la precisión de las mediciones individuales. Tenemos maneras de adivinar qué medidas son las mismas y cuáles no, pero solo con cierta certeza. El umbral habitual es decir que si tenemos menos de una probabilidad entre veinte de estar equivocados al decir que dos valores son diferentes, los consideramos "estadísticamente diferentes" (ese es el significado de ), de lo contrario no concluimos.P<0.05

Esto lleva a las extrañas conclusiones ilustradas en el artículo de Nature donde dos mismas medidas dan los mismos valores medios pero las conclusiones de los investigadores difieren debido al tamaño de la muestra. Este y otros elementos del vocabulario y los hábitos estadísticos se están volviendo cada vez más importantes en las ciencias. Otro aspecto del problema es que las personas tienden a olvidar que usan herramientas estadísticas y concluyen sobre el efecto sin una verificación adecuada del poder estadístico de sus muestras.

Para otra ilustración, recientemente las ciencias sociales y de la vida están atravesando una verdadera crisis de replicación debido al hecho de que muchos de los efectos fueron dados por sentado por personas que no verificaron el poder estadístico adecuado de los estudios famosos (mientras que otros falsificaron los datos Pero este es otro problema).

G.Clavier
fuente
3
Si bien no es solo un enlace, esta respuesta tiene todas las características destacadas de una " respuesta de solo enlace ". Para mejorar esta respuesta, incorpore los puntos clave en la respuesta misma. Idealmente, su respuesta debería ser útil como una respuesta, incluso si el contenido de los enlaces desaparece.
RM
2
Acerca de los valores p y la falacia de la tasa base (mencionada en su enlace), Veritasium publicó este video llamado trampa bayesiana .
jjmontes
2
Lo siento, intentaré mejorar y desarrollar la respuesta lo antes posible. Mi idea también era proporcionar material útil para el lector curioso.
G.Clavier
1
@ G.Clavier y el novato de estadísticas autodescrito y lector curioso lo aprecia!
uhoh
1
@ uhoh Me alegro de leerlo. :)
G.Clavier
4

Para mí, la parte más importante fue:

... [Instamos] a los autores a discutir la estimación puntual, incluso cuando tienen un valor de P grande o un intervalo amplio, así como también discutir los límites de ese intervalo.

En otras palabras: ponga un mayor énfasis en discutir las estimaciones (centro e intervalo de confianza), y un menor énfasis en "Pruebas de hipótesis nulas".

¿Cómo funciona esto en la práctica? Una gran cantidad de investigaciones se reduce a medir el tamaño de los efectos, por ejemplo "Medimos una razón de riesgo de 1.20, con un IC del 95% que oscila entre 0.97 y 1.33". Este es un resumen adecuado de un estudio. Puede ver de inmediato el tamaño del efecto más probable y la incertidumbre de la medición. Con este resumen, puede comparar rápidamente este estudio con otros estudios similares, e idealmente puede combinar todos los resultados en un promedio ponderado.

Desafortunadamente, tales estudios a menudo se resumen como "No encontramos un aumento estadísticamente significativo de la razón de riesgo". Esta es una conclusión válida del estudio anterior. Pero no es un resumen adecuado del estudio, porque no se pueden comparar fácilmente los estudios que utilizan este tipo de resúmenes. No sabe qué estudio tuvo la medición más precisa y no puede intuir cuál podría ser el hallazgo de un metaestudio. Y no se detecta de inmediato cuando los estudios afirman que hay un "aumento no significativo de la relación de riesgo" al tener intervalos de confianza que son tan grandes que puede ocultar un elefante en ellos.

Martin JH
fuente
Eso depende de la hipótesis nula de uno. Por ejemplo, rechazar proporciona evidencia de una ausencia de efecto mayor que una arbitrariamente pequeña . H0:|θ|ΔΔ
Alexis
1
Sí, pero ¿por qué molestarse en discutir tal hipótesis? Simplemente puede indicar el tamaño del efecto medido y luego discutir cuáles son las ramificaciones mejores / peores casos. Así es como se hace típicamente en física, por ejemplo cuando se mide la diferencia de masa a carga entre protón y antiprotón . Los autores podrían haber elegido formular una hipótesis nula (tal vez, para seguir su ejemplo, que la diferencia absoluta es mayor que algunos ) y proceder a probarla, pero hay poco valor agregado en dicha discusión. θ±δθΔ
Martin JH
3

Es "significativo" que los estadísticos , no solo los científicos, se estén levantando y se opongan al uso suelto de la "importancia" y los valores deEl número más reciente de The American Statistician está dedicado por completo a este asunto. Vea especialmente el editorial principal de Wasserman, Schirm y Lazar. P

rvl
fuente
¡Gracias por el enlace! Es una revelación; No me di cuenta de que había mucho pensamiento y debate sobre esto.
uhoh
2

Es un hecho que, por varias razones, los valores p se han convertido en un problema.

Sin embargo, a pesar de sus debilidades, tienen ventajas importantes como la simplicidad y la teoría intuitiva. Por lo tanto, aunque en general estoy de acuerdo con el Comentario en la Naturaleza , creo que, en lugar de abandonar completamente la significación estadística , se necesita una solución más equilibrada. Aquí hay algunas opciones:

1. "Cambiar el umbral predeterminado del valor P para la significación estadística de 0.05 a 0.005 para reclamos de nuevos descubrimientos". En mi opinión, Benjamin et al abordaron muy bien los argumentos más convincentes contra la adopción de un estándar más alto de evidencia.

2. Adopción de los valores p de segunda generación . Estos parecen ser una solución razonable para la mayoría de los problemas que afectan a los valores p clásicos . Como dicen aquí Blume et al. , Los valores p de segunda generación podrían ayudar a "mejorar el rigor, la reproducibilidad y la transparencia en los análisis estadísticos".

3. Redefiniendo el valor p como "una medida cuantitativa de certeza - un" índice de confianza "- de que una relación observada, o afirmación, es verdadera". Esto podría ayudar a cambiar el objetivo del análisis de lograr importancia a estimar adecuadamente esta confianza.

Es importante destacar que "los resultados que no alcanzan el umbral de significación estadística o " confianza " (sea lo que sea) aún pueden ser importantes y merecen ser publicados en revistas líderes si abordan preguntas de investigación importantes con métodos rigurosos".

Creo que eso podría ayudar a mitigar la obsesión con los valores p por las principales publicaciones, lo que está detrás del mal uso de los valores p .

Krantz
fuente
Gracias por su respuesta, esto es útil. Pasaré algún tiempo leyendo Blume et al. sobre los valores p de segunda generación , parece ser bastante legible.
uhoh
1
@ uhoh, me alegra que mi respuesta sea útil para tu pregunta.
Krantz
1

Una cosa que no se ha mencionado es que el error o la importancia son estimaciones estadísticas, no mediciones físicas reales: dependen en gran medida de los datos que tenga disponibles y de cómo los procese. Solo puede proporcionar un valor preciso de error e importancia si ha medido todos los eventos posibles. ¡Este no suele ser el caso, ni mucho menos!

Por lo tanto, cada estimación de error o importancia, en este caso cualquier valor P dado, es por definición inexacto y no se debe confiar en que describa la investigación subyacente, ¡mucho menos los fenómenos! - precisamente. De hecho, no se debe confiar en transmitir nada sobre los resultados SIN conocimiento de lo que se representa, cómo se calculó el error y qué se hizo para controlar la calidad de los datos. Por ejemplo, una forma de reducir el error estimado es eliminar los valores atípicos. Si esta eliminación también se realiza estadísticamente, ¿cómo puede saber realmente que los valores atípicos fueron errores reales en lugar de mediciones reales poco probables que deberían incluirse en el error? ¿Cómo podría el error reducido mejorar la importancia de los resultados? ¿Qué pasa con las mediciones erróneas cerca de las estimaciones? ellos mejoran El error puede afectar la significación estadística, ¡pero puede llevar a conclusiones erróneas!

Para el caso, hago modelado físico y he creado modelos donde el error 3-sigma es completamente no físico. Es decir, estadísticamente hay alrededor de un evento en un millar (bueno ... más a menudo que eso, pero estoy divagando) que resultaría en un valor completamente ridículo. La magnitud del error de 3 intervalos en mi campo es más o menos equivalente a tener la mejor estimación posible de 1 cm resultando ser un metro de vez en cuando. Sin embargo, este es un resultado aceptado cuando se proporciona un intervalo estadístico +/- calculado a partir de datos físicos y empíricos en mi campo. Claro, se respeta la estrechez del intervalo de incertidumbre, pero a menudo el valor de la mejor estimación aproximada es un resultado más útil incluso cuando el intervalo de error nominal sería mayor.

Como nota al margen, una vez fui personalmente responsable de uno de esos miles de casos atípicos. Estaba en proceso de calibrar un instrumento cuando ocurrió un evento que debíamos medir. Por desgracia, ese punto de datos habría sido exactamente uno de esos 100 valores atípicos, por lo que, en cierto sentido, suceden y están incluidos en el error de modelado.

Geenimetsuri
fuente
"Solo puede proporcionar una medida precisa, si ha medido todos los eventos posibles". Hmm Entonces, ¿la precisión es inútil? ¿Y también irrelevante? Expanda la diferencia entre precisión y sesgo. ¿Las estimaciones inexactas son parciales o imparciales? Si son imparciales, ¿entonces no son un poco útiles? "Por ejemplo, una forma de reducir el error es eliminar los valores atípicos". Hmm Eso reducirá la varianza de la muestra, pero ¿"error"? "... a menudo, el valor de la mejor estimación aproximada es un resultado más útil incluso cuando el intervalo de error nominal sería mayor" No niego que un buen prior es mejor que un mal experimento.
Peter Leopold
Modificó el texto un poco en función de su comentario. Lo que quise decir es que la medida estadística de error es siempre una estimación, a menos que tenga todas las pruebas individuales posibles, por así decirlo, disponibles. Esto rara vez ocurre, excepto cuando, por ejemplo, se encuesta a un número determinado de personas (nb no como muestras de una gran multitud o población general).
Geenimetsuri
1
Soy un profesional que utiliza estadísticas en lugar de un estadístico. Creo que un problema básico con los valores de p es que muchos que no están familiarizados con lo que son los confunden con un significado sustancial. Por lo tanto, se me ha pedido que determine qué pendientes son importantes mediante el uso de valores p independientemente de si las pendientes son grandes o no. Un problema similar es usarlos para determinar el impacto relativo de las variables (que es crítico para mí, pero que sorprendentemente recibe poca atención en la literatura de regresión).
user54285