Estoy ajustando un HLM bayesiano en JAGS usando k-fold cross-validation (k = 5). Me gustaría saber si las estimaciones del parámetro son estables en todos los pliegues. ¿Cuál es la mejor manera de hacer esto?
Una idea es encontrar las diferencias de los posteriores de y ver si 0 está en el IC del 95% de la diferencia. En otras palabras, es 0 en el intervalo de 95% de β k = 1 - β k = 2 (y luego repite para todos los pares de pliegues).
Otra idea es tratar a los posteriores de cada pliegue como diferentes cadenas MCMC, y para calcular de Gelman de Reducción de escala potencial) a través de estos pseudo-cadenas.
¿Es preferible uno de estos y existen alternativas?
bayesian
cross-validation
Jack Tanner
fuente
fuente
Respuestas:
No sé si esto califica como un comentario o como una respuesta. Lo estoy poniendo aquí porque parece una respuesta.
En k-fold cross-validation está dividiendo sus datos en k grupos. Si está cubriendo incluso los "conceptos básicos", entonces está seleccionando uniformemente miembros al azar para cada uno de los k contenedores.
Cuando hablo de datos, pienso en cada fila como una muestra, y cada columna como una dimensión. Estoy acostumbrado a usar varios métodos para determinar la importancia variable, la importancia de la columna.
¿Qué pasa si usted, como ejercicio mental, se alejó del uniforme de "libro de texto" al azar y determinó qué filas eran importantes? Tal vez informan una sola variable a la vez, pero tal vez informan más. ¿Hay algunas filas que son menos importantes que otras? Quizás muchos de los puntos son informativos, quizás pocos lo sean.
Conociendo la importancia de la variable, quizás podría agruparlos por importancia. Tal vez podría hacer un solo contenedor con las muestras más importantes. Esto podría definir el tamaño de su "k". De esta manera, estaría determinando el segmento kth "más informativo" y comparándolo con otros, y con el segmento menos informativo.
Esto podría darle una idea de la variación máxima de los parámetros de su modelo. Es solo una forma.
Una segunda forma de dividir los cubos k es por la magnitud y la dirección de la influencia. Por lo tanto, podría colocar muestras que influyan en un parámetro o parámetros en una dirección en un depósito y colocar muestras que influyan en el mismo parámetro o parámetros en la dirección opuesta en un depósito diferente.
La variación de parámetros en este formulario podría dar un alcance más amplio a las variables, en función de la densidad de información, sino de la raza de información.
La mejor de las suertes.
fuente
Puede que no sea una respuesta completa, pero si 0 NO está en el IC del 95% para varias diferencias, es bastante seguro decir que no son idénticas a un nivel de 0.05.
fuente