Estoy leyendo las diapositivas "Doing Bayesian Data Analysis" de John Kruschke , pero en realidad tengo una pregunta sobre su interpretación de las pruebas t y / o el marco completo de pruebas de significación de hipótesis nulas. Argumenta que los valores p están mal definidos porque dependen de las intenciones del investigador.
En particular, da un ejemplo (páginas 3-6) de dos laboratorios que recopilan conjuntos de datos idénticos que comparan dos tratamientos. Un laboratorio se compromete a recolectar datos de 12 sujetos (6 por condición), mientras que el otro recolecta datos por una duración fija, lo que también produce 12 sujetos. Según las diapositivas, el valor crítico para p < 0.05 difiere entre estos dos esquemas de recolección de datos: t crit = 2.33 para el primero, pero t crit = 2.45 para el último.
Una publicación de blog, que ahora no puedo encontrar, sugirió que el escenario de duración fija tiene más grados de libertad, ya que podrían haber recopilado datos de 11, 13 o cualquier otro número de temas, mientras que el escenario de N fijo, por definición, tiene .
¿Podría alguien explicarme por favor?
¿Por qué el valor crítico diferiría entre estas condiciones?
(Suponiendo que es un problema) ¿Cómo se corregirá / comparará los efectos de diferentes criterios de detención?
Sé que establecer los criterios de detención en función de la significación (p. Ej., Muestra hasta ) puede aumentar las posibilidades de un error de Tipo I, pero eso no parece estar sucediendo aquí, ya que ninguna regla de detención depende del resultado de el analisis.
fuente
Finalmente rastreé el documento asociado con las diapositivas: Kruschke (2010) , también disponible directamente del autor (a través de CiteSeerX) aquí , ya que la revista no se publica ampliamente. La explicación es un poco prosaica, pero todavía no estoy seguro de comprarla.
En el caso de N fijo, el valor crítico se calcula de la siguiente manera: 2 muestras de N se extraen aleatoriamente de la (misma) población y se calcula un valor t . Este proceso se repite muchas veces para generar una distribución nula. Finalmente, t c r i t está configurado para ser el percentil 95 de esa distribución.t 2N t tcrit
Para el caso de duración fija, supone que los sujetos llegan a una tasa media . La distribución nula se construye repitiendo dos pasos. En el primer paso, el número de sujetos para cada condición N 1 y N 2 se extrae de una distribución de posición con el parámetro λ . A continuación, se utilizan sorteos aleatorios de N 1 y N 2 de la población para calcular un valor t . Esto se repite muchas veces, y t c r i t está configurado para ser el percentil 95 de esa distribución.λ N1 N2 λ N1 N2 t tcrit
Esto parece un poco ... descarado ... para mí. Según tengo entendido, no hay una sola distribución ; en cambio, es una familia de distribuciones, con una forma determinada en parte por el parámetro de grados de libertad. Para la condición fija de N , hay N sujetos por grupo y el valor t apropiado para una prueba t no emparejada es el que tiene 2 N - 2 grados de libertad, que es presumiblemente lo que reproduce su simulación.t N N t 2N−2
En la otra condición, parece que la distribución tipo " " es en realidad una combinación de muestras de muchas distribuciones t diferentes , dependiendo de los sorteos específicos. Al establecer λ = N , uno podría obtener los grados de libertad promedio para igualar 2 N - N , pero eso no es suficiente. Por ejemplo, el promedio de las distribuciones t para ν = 1 y ν = 5 no parece ser la distribución t con 3 grados de libertad.t t λ=N 2N−N t ν=1 ν=5 t
En resumen:
fuente