"Intención del investigador" y umbrales / valores p

21

Estoy leyendo las diapositivas "Doing Bayesian Data Analysis" de John Kruschke , pero en realidad tengo una pregunta sobre su interpretación de las pruebas t y / o el marco completo de pruebas de significación de hipótesis nulas. Argumenta que los valores p están mal definidos porque dependen de las intenciones del investigador.

En particular, da un ejemplo (páginas 3-6) de dos laboratorios que recopilan conjuntos de datos idénticos que comparan dos tratamientos. Un laboratorio se compromete a recolectar datos de 12 sujetos (6 por condición), mientras que el otro recolecta datos por una duración fija, lo que también produce 12 sujetos. Según las diapositivas, el valor crítico para p < 0.05 difiere entre estos dos esquemas de recolección de datos: t crit = 2.33 para el primero, pero t crit = 2.45 para el último.tp<0.05tcrit=2.33tcrit=2.45

Una publicación de blog, que ahora no puedo encontrar, sugirió que el escenario de duración fija tiene más grados de libertad, ya que podrían haber recopilado datos de 11, 13 o cualquier otro número de temas, mientras que el escenario de N fijo, por definición, tiene .N=12

¿Podría alguien explicarme por favor?

  • ¿Por qué el valor crítico diferiría entre estas condiciones?

  • (Suponiendo que es un problema) ¿Cómo se corregirá / comparará los efectos de diferentes criterios de detención?

Sé que establecer los criterios de detención en función de la significación (p. Ej., Muestra hasta ) puede aumentar las posibilidades de un error de Tipo I, pero eso no parece estar sucediendo aquí, ya que ninguna regla de detención depende del resultado de el analisis.p<0.05

Matt Krause
fuente

Respuestas:

11

Aquí hay más información: http://doingbayesiandataanalysis.blogspot.com/2012/07/sampling-distributions-of-t-when.html

Aquí se proporciona una discusión más completa: http://www.indiana.edu/~kruschke/BEST/ Ese artículo considera los valores p para detenerse en el umbral N, detenerse en la duración del umbral y detenerse en el valor t umbral.

John K. Kruschke
fuente
¡Guauu! Directamente de la boca del caballo, por así decirlo ... Definitivamente es una idea interesante que no se me había ocurrido. Gracias por la información adicional.
Matt Krause
Quería agregar que esto se discute ampliamente en el libro del Dr. Kruschke (en el Capítulo 11).
Matt Krause
13

Finalmente rastreé el documento asociado con las diapositivas: Kruschke (2010) , también disponible directamente del autor (a través de CiteSeerX) aquí , ya que la revista no se publica ampliamente. La explicación es un poco prosaica, pero todavía no estoy seguro de comprarla.

En el caso de N fijo, el valor crítico se calcula de la siguiente manera: 2 muestras de N se extraen aleatoriamente de la (misma) población y se calcula un valor t . Este proceso se repite muchas veces para generar una distribución nula. Finalmente, t c r i t está configurado para ser el percentil 95 de esa distribución.t2Nttcrit

Para el caso de duración fija, supone que los sujetos llegan a una tasa media . La distribución nula se construye repitiendo dos pasos. En el primer paso, el número de sujetos para cada condición N 1 y N 2 se extrae de una distribución de posición con el parámetro λ . A continuación, se utilizan sorteos aleatorios de N 1 y N 2 de la población para calcular un valor t . Esto se repite muchas veces, y t c r i t está configurado para ser el percentil 95 de esa distribución.λN1N2λN1N2ttcrit

Esto parece un poco ... descarado ... para mí. Según tengo entendido, no hay una sola distribución ; en cambio, es una familia de distribuciones, con una forma determinada en parte por el parámetro de grados de libertad. Para la condición fija de N , hay N sujetos por grupo y el valor t apropiado para una prueba t no emparejada es el que tiene 2 N - 2 grados de libertad, que es presumiblemente lo que reproduce su simulación. tNNt2N2

En la otra condición, parece que la distribución tipo " " es en realidad una combinación de muestras de muchas distribuciones t diferentes , dependiendo de los sorteos específicos. Al establecer λ = N , uno podría obtener los grados de libertad promedio para igualar 2 N - N , pero eso no es suficiente. Por ejemplo, el promedio de las distribuciones t para ν = 1 y ν = 5 no parece ser la distribución t con 3 grados de libertad.ttλ=N2NNtν=1ν=5t

En resumen:

  • El autor estaba generando por simulación, en lugar de simplemente calcularlos a partir del CDF.tcrit
  • La forma en que el autor simuló el escenario de duración fija parece que podría engrosar las colas de la distribución correspondiente .t
  • No estoy convencido de que esto sea realmente un problema, pero me complacería leer / votar / aceptar respuestas si alguien piensa lo contrario.
Matt Krause
fuente
¿Por qué puede responder su propia pregunta y marcarla? ¡No parece que debas ser capaz de darte puntos de representación!
Michael R. Chernick
55
No hay nada malo en responder su propia pregunta , Michael.
chl
@MichaelChernick, creo que no obtienes ningún representante si aceptas tu propia respuesta. En ese momento, parecía lo correcto, ya que había rastreado más o menos la respuesta en las dos semanas intermedias, pero cambié mi aceptación a la respuesta de John K. Kruschke, ya que él es claramente la autoridad por sí mismo. diapositivas :-)
Matt Krause
Interesante gracias. Pero no veo por qué uno debería verificar su propia respuesta en cualquier momento, incluso si parece ser correcta y la mejor. Hemos establecido que verificar su propia respuesta no le da puntos de repetición.
Michael R. Chernick
3
Dado que marcar una respuesta como aceptada no tiene otro propósito que indicar una solución correcta (para futuros visitantes), especialmente cuando no se ha propuesto ninguna otra, no veo ningún problema con eso. Personalmente, he votado esta respuesta hace mucho tiempo, porque aprecio que el OP nos permita beneficiarnos de su propia investigación. Y lamento mucho no poder dar un voto adicional por el simple hecho de seguir este hilo y actualizar su decisión. PD "Hemos establecido ..." se refiere a ¿Por qué es posible darte puntos de reputación? .
chl