Realicé una evaluación por computadora de diferentes métodos para ajustar un tipo particular de modelo utilizado en las ciencias paleo. Tenía un conjunto de entrenamiento de gran tamaño y, por lo tanto, al azar (muestreo aleatorio estratificado) dejé de lado un conjunto de prueba. Ajusté diferentes métodos a las muestras del conjunto de entrenamiento y, utilizando los modelos resultantes, predije la respuesta para las muestras del conjunto de prueba y calculé un RMSEP sobre las muestras en el conjunto de prueba. Esta es una sola carrera .
Luego repetí este proceso una gran cantidad de veces, cada vez que elegí un conjunto de entrenamiento diferente al muestrear aleatoriamente un nuevo conjunto de prueba.
Una vez hecho esto, quiero investigar si alguno de los métodos tiene un rendimiento RMSEP mejor o peor. También me gustaría hacer comparaciones múltiples de los métodos por pares.
Mi enfoque ha sido ajustar un modelo de efectos lineales mixtos (LME), con un solo efecto aleatorio para Run . Utilicé lmer()
el paquete lme4 para adaptarme a mi modelo y las funciones del paquete multcomp para realizar las comparaciones múltiples. Mi modelo era esencialmente
lmer(RMSEP ~ method + (1 | Run), data = FOO)
donde method
es un factor que indica qué método se utilizó para generar las predicciones del modelo para el conjunto de pruebas y Run
es un indicador para cada ejecución particular de mi "experimento".
Mi pregunta es con respecto a los residuos de la LME. Dado el efecto aleatorio único para la ejecución, supongo que los valores RMSEP para esa ejecución están correlacionados en algún grado, pero no están correlacionados entre las ejecuciones, sobre la base de la correlación inducida que proporciona el efecto aleatorio.
¿Es válida esta suposición de independencia entre carreras? Si no es así, ¿hay alguna forma de explicar esto en el modelo LME o debería buscar otro tipo de análisis estático para responder a mi pregunta?
fuente
Respuestas:
Básicamente, está haciendo alguna forma de validación cruzada aquí para cada uno de sus métodos m y luego le gustaría ver qué método funcionó mejor. Los resultados entre las ejecuciones definitivamente dependerán, ya que se basan en los mismos datos y tiene una superposición entre sus conjuntos de tren / prueba. La pregunta es si esto debería importar cuando se trata de comparar los métodos.
Digamos que realizaría solo una ejecución y encontraría que un método es mejor que los otros. Entonces te preguntarías: ¿esto se debe simplemente a la elección específica del conjunto de prueba? Es por eso que repite su prueba para muchos conjuntos diferentes de trenes / pruebas. Entonces, para determinar que un método es mejor que otros métodos, ejecuta muchas veces y en cada ejecución lo compara con los otros métodos (tiene diferentes opciones de mirar el error / rango / etc.). Ahora, si encuentra que un método funciona mejor en la mayoría de las ejecuciones, el resultado es lo que es. No estoy seguro de que sea útil dar un valor p a esto. O, si desea dar un valor p, pregúntese cuál es el modelo de fondo aquí.
fuente
Puede que realmente no entienda lo que has hecho pero
Sí, eso refleja cuán desafiante fue el conjunto de pruebas en esa carrera
No, dada la forma en que ha muestreado los conjuntos de prueba, algunos se superpondrán más que otros (definitivamente no son réplicas independientes)
De alguna manera, tendría que modelar la dependencia en función de la superposición o diseñar la evaluación para que las ejecuciones sean independientes. Leería la literatura de estadísticas sobre validación cruzada ;-)
fuente