Este artículo " The Odds, Continually Updates" del NY Times me llamó la atención. Para ser breve, afirma que
[Las estadísticas bayesianas] están demostrando ser especialmente útiles para abordar problemas complejos, incluidas búsquedas como la que la Guardia Costera usó en 2013 para encontrar al pescador desaparecido, John Aldridge (aunque no, hasta ahora, en la búsqueda del vuelo 370 de Malaysia Airlines). ......, las estadísticas bayesianas están recorriendo todo, desde la física hasta la investigación del cáncer, la ecología y la psicología ...
En el artículo, también hay algunas críticas sobre el valor p del frecuentista, por ejemplo:
Los resultados generalmente se consideran "estadísticamente significativos" si el valor p es inferior al 5 por ciento. Pero hay un peligro en esta tradición, dijo Andrew Gelman, profesor de estadística en Columbia. Incluso si los científicos siempre hicieron los cálculos correctamente, y no lo hacen, argumenta, aceptar todo con un valor p del 5 por ciento significa que uno de cada 20 resultados "estadísticamente significativos" no es más que ruido aleatorio.
Además de lo anterior, quizás el artículo más famoso que critica el valor p es este: "Método científico: errores estadísticos" por Regina Nuzzo de Nature , en el que se han discutido muchos temas científicos planteados por el enfoque del valor p, como las preocupaciones de reproducibilidad, piratería de valor p, etc.
Los valores de P, el 'estándar de oro' de la validez estadística, no son tan confiables como muchos científicos suponen. ...... Quizás la peor falacia es el tipo de autoengaño por el cual el psicólogo Uri Simonsohn de la Universidad de Pennsylvania y sus colegas han popularizado el término piratería P; También se conoce como dragado de datos, espionaje, pesca, persecución de significado y doble inmersión. "Hackear P", dice Simonsohn, "está probando varias cosas hasta que obtenga el resultado deseado", incluso inconscientemente. ...... "Ese hallazgo parece haberse obtenido a través de p-hacking, los autores descartaron una de las condiciones para que el valor p general sea menor a .05", y "Ella es una p-hacker, ella siempre monitorea los datos mientras se recopilan ".
Otra cosa es una trama interesante como la siguiente desde aquí , con el comentario sobre la trama:
No importa cuán pequeño sea su efecto, siempre puede hacer el trabajo duro de recopilar datos para pasar el umbral de p <.05. Mientras el efecto que está estudiando no sea inexistente, los valores p solo miden cuánto esfuerzo ha puesto en recopilar datos.
Con todo lo anterior, mis preguntas son:
¿Qué significa precisamente el argumento de Andrew Gelman, en la cita del segundo bloque? ¿Por qué interpretó el valor p del 5 por ciento como "uno de cada 20 resultados estadísticamente significativos observan ruido aleatorio"? No estoy convencido ya que para mí el valor p se usa para hacer inferencia en un solo estudio. Su punto parece estar relacionado con las pruebas múltiples.
Actualización: Consulte el blog de Andrew Gelman sobre esto: ¡ No, no dije eso! (Créditos a @Scortchi, @whuber).
Dadas las críticas sobre el valor p, y también dado que hay muchos criterios de información, como AIC, BIC, Malp's para evaluar la importancia de un modelo (por lo tanto, variables), ¿no deberíamos usar el valor p para la selección de variables en ¿todos menos usan esos criterios de selección de modelo?
- ¿Hay alguna buena guía práctica de usar el valor p para el análisis estadístico que pueda conducir a resultados de investigación más confiables?
¿Sería el marco de modelado bayesiano una mejor manera de perseguir, como defienden algunos estadísticos? Específicamente, ¿sería más probable que el enfoque bayesiano resuelva el hallazgo falso o manipule los problemas de datos? Aquí tampoco estoy convencido, ya que lo anterior es muy subjetivo en el enfoque bayesiano. ¿Existen estudios prácticos y bien conocidos que muestren que el enfoque bayesiano es mejor que el valor p de los frecuentistas, o al menos en algunos casos particulares?
Actualización: Me interesaría especialmente si hay casos en los que el enfoque bayesiano es más confiable que el enfoque del valor p de los frecuentistas. Por "confiable", quiero decir que es menos probable que el enfoque bayesiano manipule los datos para obtener los resultados deseados. ¿Alguna sugerencia?
Actualización 6/9/2015
Acabo de notar la noticia y pensé que sería bueno ponerla aquí para su discusión.
Revista de psicología prohíbe los valores de P
Una controvertida prueba estadística finalmente ha llegado a su fin, al menos en una revista. A principios de este mes, los editores de Basic and Applied Social Psychology (BASP) anunciaron que la revista ya no publicaría artículos que contengan valores de P porque las estadísticas se utilizaron con demasiada frecuencia para respaldar investigaciones de menor calidad.
Junto con un artículo reciente, "El voluble valor de P genera resultados irreproducibles" de Nature , sobre el valor de P.
Actualización 5/8/2016
En marzo, la Asociación Estadounidense de Estadística (ASA, por sus siglas en inglés) emitió declaraciones sobre la significación estadística y los valores p, "... La declaración ASA está destinada a dirigir la investigación en una 'era p <0.05'".
Esta declaración contiene 6 principios que abordan el mal uso del valor p:
- Los valores P pueden indicar cuán incompatibles son los datos con un modelo estadístico especificado.
- Los valores P no miden la probabilidad de que la hipótesis estudiada sea verdadera, o la probabilidad de que los datos se hayan producido solo por azar.
- Las conclusiones científicas y las decisiones comerciales o políticas no deben basarse solo en si un valor p supera un umbral específico.
- La inferencia adecuada requiere informes completos y transparencia.
- Un valor p, o significancia estadística, no mide el tamaño de un efecto o la importancia de un resultado.
- Por sí mismo, un valor p no proporciona una buena medida de evidencia con respecto a un modelo o hipótesis.
Detalles: "La declaración de ASA sobre valores p: contexto, proceso y propósito" .
Respuestas:
Aquí hay algunos pensamientos:
fuente
Para mí, una de las cosas más interesantes sobre la controversia de p-hacking es que toda la historia de p <= 0.05 como el estándar "una vez en una luna azul" para la significación estadística, como Joseph Kaldane señaló en un artículo de JASA sobre estadísticas forenses allá por los años 90, no se basa en absoluto en ninguna teoría estadística. Es una convención, simple heurística y regla general que comenzó con RA Fisher y desde entonces ha sido reificada o consagrada a su actual estado "incuestionable". Bayesiano o no, hace mucho tiempo que es necesario desafiar este estándar métrico o al menos darle el escepticismo que merece.
Dicho esto, mi interpretación del punto de Gelman es que, como es bien sabido, el proceso de revisión por pares recompensa la significación estadística positiva y castiga resultados insignificantes al no publicar esos documentos. Esto es independiente de si publicar o no un hallazgo insignificante tendría un impacto potencialmente grande en el pensamiento y la teorización de un dominio dado. Gelman, Simonshohn y otros han señalado reiteradamente el abuso del nivel de significancia de 0.05 en investigaciones revisadas y publicadas por pares al presentar ejemplos de hallazgos ridículos pero estadísticamente significativos en investigaciones paranormales, sociales y psicológicas. Uno de los más atroces fue el hallazgo estadísticamente significativo de que las mujeres embarazadas tenían más probabilidades de usar vestidos rojos. Gelman sostiene que, en ausencia de desafíos lógicos para los resultados estadísticos,explicación potencialmente sin sentido. Aquí, se refiere al riesgo laboral de la industria con argumentos excesivamente técnicos y abstrusos que hacen poco o nada para avanzar en un debate entre un público lego.
Este es un punto que Gary King hace con vehemencia cuando prácticamente ruega a los científicos políticos cuantitativos (y, por extensión, todos los cuantos) que detengan los informes mecanicistas y técnicos como "este resultado fue significativo en un nivel p <= 0.05" y avanzó hacia interpretaciones más sustantivas . Aquí hay una cita de un artículo de él,
El punto de vista de King está muy bien tomado y traza la dirección que debe tomar el debate.
Aprovechar al máximo los análisis estadísticos: mejorar la interpretación y la presentación , King, Tomz y Wittenberg, 2002, Am Jour de Poli Sci .
fuente
Estos son algunos de mis pensamientos con respecto a la Pregunta 3 después de leer todos los comentarios y respuestas perspicaces.
Quizás una guía práctica en el análisis estadístico para evitar la piratería del valor p es, en cambio, observar el tamaño de efecto significativo / significativo científicamente (o, biológicamente, clínicamente, etc.).
Además, para evitar el uso de un tamaño de muestra demasiado grande para detectar el efecto, también se debe tener en cuenta el tamaño de muestra requerido. Es decir, deberíamos limitar el tamaño máximo de muestra utilizado para el experimento.
Para resumir,
Con lo anterior, tal vez podamos evitar un efecto "significativo" menor reclamado por un gran tamaño de muestra.
[Actualización 6/9/2015]
Con respecto a la Pregunta 3, aquí hay algunas sugerencias basadas en el artículo reciente de la naturaleza: "El voluble valor de P genera resultados irreproducibles" como mencioné en la parte de la Pregunta.
[Fin de la actualización 6/9/2015]
fuente
En el uso contemporáneo, el valor p se refiere a la probabilidad acumulativa de que los datos, dada la hipótesis nula, sean iguales o mayores que algún umbral. Es decirPAGS( D | H0 0) ≤ α . pienso queH0 0 tiende a ser una hipótesis de "no efecto", generalmente representada por una comparación de la probabilidad de un resultado aleatorio satisfactoriamente improbable en cierto número de ensayos. Dependiendo del campo, varía de 5% a 0.1% o menos. Sin embargo,H0 0 no tiene que ser una comparación al azar.
Implica que los resultados 1/20 pueden rechazar el valor nulo cuando no deberían tenerlo. Si la ciencia basara su conclusión en experimentos individuales, entonces la afirmación sería defendible. De lo contrario, si los experimentos fueran repetibles, implicaría que 19/20 no sería rechazado. La moraleja de la historia es que los experimentos deben ser repetibles.
La ciencia es una tradición basada en la "objetividad", por lo que la "probabilidad objetiva" atrae naturalmente. Recuerde que se supone que los experimentos demuestran un alto grado de control que a menudo emplea diseño de bloques y asignación al azar para controlar factores fuera del estudio. Por lo tanto, la comparación con el azar tiene sentido porque se supone que todos los demás factores deben controlarse, excepto los que están en estudio. Estas técnicas tuvieron mucho éxito en la agricultura y la industria antes de ser portadas a la ciencia.
No estoy seguro de si la falta de información fue realmente el problema. Es notable que para muchos en las ciencias no matemáticas, la estadística es solo una casilla para marcar.
Sugeriría una lectura general sobre la teoría de la decisión que une los dos marcos. Simplemente se reduce a usar tanta información como usted tenga. Las estadísticas frecuentes suponen que los parámetros en los modelos tienen valores desconocidos de distribuciones fijas. Los bayesianos suponen que los parámetros en los modelos provienen de distribuciones condicionadas por lo que sabemos. Si hay suficiente información para formar una información previa y suficiente para actualizarla a una posterior precisa, entonces eso es genial. Si no lo hay, puede terminar con peores resultados.
fuente
Reproducibilidad de resultados de pruebas estadísticas.
Este es un ejercicio corto y simple para evaluar la reproducibilidad de las decisiones basadas en pruebas estadísticas.
Considere una hipótesis nula H0 con un conjunto de hipótesis alternativas que contienen H1 y H2. Configure el procedimiento de prueba de hipótesis estadística en un nivel de significancia de 0.05 para tener una potencia de 0.8, si H1 es verdadero. Además, suponga que la potencia para H2 es 0.5. Para evaluar la reproducibilidad del resultado de la prueba, se considera el experimento de ejecutar el procedimiento de prueba dos veces. Comenzando con la situación, donde H0 es verdadera, las probabilidades para los resultados del experimento conjunto se muestran en la Tabla 1. La probabilidad de no poder reproducir decisiones es 0.095.
Tabla 1. Frecuencias, si H0 es verdaderoLas frecuencias cambian a medida que cambia el verdadero estado de la naturaleza. Suponiendo que H1 es cierto, H0 puede ser rechazado según lo diseñado con una potencia de 0.8. Las frecuencias resultantes para los diferentes resultados del experimento conjunto se muestran en la Tabla 2. La probabilidad de no poder reproducir decisiones es 0.32.
Tabla 2. Frecuencias, si H1 es verdaderoAssuming H2 is true, H0 will be rejected with a probability of 0.5. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 3. The probability of not being able to reproduce decisions is 0.5.
Table 3. Frequencies, if H2 is trueThe test procedure was designed to control type I errors (the rejection of the null hypothesis even though it is true) with a probability of 0.05 and limit type II errors (no rejection of the null hypothesis even though it is wrong and H1 is true) to 0.2. For both cases, with either H0 or H1 assumed to be true, this leads to non-negligible frequencies, 0.095 and 0.32, respectively, of "non-reproducible", "contradictory" decisions, if the same experiment is repeated twice. The situation gets worse with a frequency up to 0.5 for "non-reproducible", "contradictory" decisions, if the true state of nature is between the null- and the alternative hypothesis used to design the experiment.
The situation can also get better - if type 1 errors are controlled more strictly, or if the true state of nature is far away from the null, which results in a power to reject the null that is close to 1.
Thus, if you want more reproducible decisions, increase the significance level and the power of your tests. Not very astonishing ...
fuente