¿Independencia de los residuos en un experimento / simulación por computadora?

17

Realicé una evaluación por computadora de diferentes métodos para ajustar un tipo particular de modelo utilizado en las ciencias paleo. Tenía un conjunto de entrenamiento de gran tamaño y, por lo tanto, al azar (muestreo aleatorio estratificado) dejé de lado un conjunto de prueba. Ajusté diferentes métodos a las muestras del conjunto de entrenamiento y, utilizando los modelos resultantes, predije la respuesta para las muestras del conjunto de prueba y calculé un RMSEP sobre las muestras en el conjunto de prueba. Esta es una sola carrera .metrometro

Luego repetí este proceso una gran cantidad de veces, cada vez que elegí un conjunto de entrenamiento diferente al muestrear aleatoriamente un nuevo conjunto de prueba.

Una vez hecho esto, quiero investigar si alguno de los métodos tiene un rendimiento RMSEP mejor o peor. También me gustaría hacer comparaciones múltiples de los métodos por pares.metro

Mi enfoque ha sido ajustar un modelo de efectos lineales mixtos (LME), con un solo efecto aleatorio para Run . Utilicé lmer()el paquete lme4 para adaptarme a mi modelo y las funciones del paquete multcomp para realizar las comparaciones múltiples. Mi modelo era esencialmente

lmer(RMSEP ~ method + (1 | Run), data = FOO)

donde methodes un factor que indica qué método se utilizó para generar las predicciones del modelo para el conjunto de pruebas y Runes un indicador para cada ejecución particular de mi "experimento".

Mi pregunta es con respecto a los residuos de la LME. Dado el efecto aleatorio único para la ejecución, supongo que los valores RMSEP para esa ejecución están correlacionados en algún grado, pero no están correlacionados entre las ejecuciones, sobre la base de la correlación inducida que proporciona el efecto aleatorio.

¿Es válida esta suposición de independencia entre carreras? Si no es así, ¿hay alguna forma de explicar esto en el modelo LME o debería buscar otro tipo de análisis estático para responder a mi pregunta?

Restablece a Mónica - G. Simpson
fuente
¿Son los residuales condicionales a los efectos aleatorios pronosticados o incondicionales y en las simulaciones los efectos aleatorios pronosticados son constantes o variables? Recuerde intentar tener una idea de esto para los métodos de simulación predeterminados en LME4 y no poder hacerlo (pero el proyecto se canceló antes de que lo resolviera).
Phaneron
No estoy seguro de seguirlo completamente, pero las diversas ejecuciones del conjunto de entrenamiento de dibujo -> modelos de ajuste -> calcular RMSEP se realizan antes de la LME. El efecto aleatorio es para la ejecución ya que cada ejecución tendrá una intercepción diferente (RMSEP) ya que se eligen diferentes combinaciones de muestras de prueba, pero esto es constante dentro de la ejecución. En cuanto al bit condicional / incondicional, no estoy seguro / claro a qué se refiere. Gracias por tu comentario.
Restablece a Monica - G. Simpson el

Respuestas:

4

Básicamente, está haciendo alguna forma de validación cruzada aquí para cada uno de sus métodos m y luego le gustaría ver qué método funcionó mejor. Los resultados entre las ejecuciones definitivamente dependerán, ya que se basan en los mismos datos y tiene una superposición entre sus conjuntos de tren / prueba. La pregunta es si esto debería importar cuando se trata de comparar los métodos.

Digamos que realizaría solo una ejecución y encontraría que un método es mejor que los otros. Entonces te preguntarías: ¿esto se debe simplemente a la elección específica del conjunto de prueba? Es por eso que repite su prueba para muchos conjuntos diferentes de trenes / pruebas. Entonces, para determinar que un método es mejor que otros métodos, ejecuta muchas veces y en cada ejecución lo compara con los otros métodos (tiene diferentes opciones de mirar el error / rango / etc.). Ahora, si encuentra que un método funciona mejor en la mayoría de las ejecuciones, el resultado es lo que es. No estoy seguro de que sea útil dar un valor p a esto. O, si desea dar un valor p, pregúntese cuál es el modelo de fondo aquí.

Bitwise
fuente
Gracias por tus pensamientos Creo que tus últimas líneas resumen más o menos dónde estoy ahora. En previsión de esto, tengo un seguimiento en el que pregunto sobre las formas apropiadas de analizar este tipo de datos. También me gusta su punto sobre "es lo que es"; eso también había estado girando en los bordes de mi proceso de pensamiento recientemente.
Restablece a Monica - G. Simpson el
Un problema que tengo con la parte del "resultado es lo que es" es que los RMSEP son bastante variables de una ejecución a otra. Entonces, en promedio, uno o dos métodos son mejores, pero ¿son realmente mejores dada la variabilidad en los RMSEP? De ahí que intente un LME con efecto aleatorio para Run. Para modificar ese enfoque, necesitaría saber quién correlaciona cada conjunto de datos. Parece que cualquier prueba estadística que haga necesitaría ser modificada. Por lo tanto, todavía me cuesta cómo interpretar los medios de las 50 carreras para cada método y si puedo sacar alguna conclusión ...
Restablecer Mónica - G. Simpson
1
A mi modo de ver, evaluar sus métodos sobre todas las posibles particiones de conjunto de tren / prueba de sus datos habría sido la evaluación más completa. Como esto es imposible, está estimando esto con ejecuciones aleatorias. Supongamos que puede evaluar todas las particiones de tren / prueba: aún le quedaría la pregunta de cómo decidir qué método es mejor. Entonces, esto es más una cuestión de cómo se define lo que es "bueno". ¿Significa puntaje promedio alto? ¿O significa que en muchas ejecuciones un método obtiene una puntuación más alta que los demás (personalmente creo que esta sería una mejor versión)?
Bitwise
1

Puede que realmente no entienda lo que has hecho pero

para ejecución Asumo que los valores RMSEP para esa ejecución están correlacionados en algún grado

Sí, eso refleja cuán desafiante fue el conjunto de pruebas en esa carrera

pero no están correlacionados entre ejecuciones

No, dada la forma en que ha muestreado los conjuntos de prueba, algunos se superpondrán más que otros (definitivamente no son réplicas independientes)

De alguna manera, tendría que modelar la dependencia en función de la superposición o diseñar la evaluación para que las ejecuciones sean independientes. Leería la literatura de estadísticas sobre validación cruzada ;-)

Phaneron
fuente
+1 Gracias por la respuesta. Hmm, entiendo lo que quieres decir. Cuanto más similares sean los conjuntos de prueba, más similares serán sus valores RMSEP. OK, dicho así, es lo mismo que si los datos estuvieran correlacionados espacial o temporalmente. La forma en que genero los conjuntos de entrenamiento / conjuntos de prueba debería significar que, en promedio, todos son muy diferentes entre sí. No estoy seguro de qué CV me llevaría aquí, y en cierto sentido lo estoy haciendo de todos modos solo a través de un enfoque de remuestreo. Probablemente preguntará otra pregunta sobre cómo resolver el problema real.
Restablece a Monica - G. Simpson el
Dejaré esto abierto hasta el final del período de recompensa para ver si alguien más muerde, pero aprecio tus pensamientos aquí y aceptaré y otorgaré recompensa si no recibes otras respuestas.
Restablece a Monica - G. Simpson el