He estado buscando varios hilos aquí, pero no creo que mi pregunta exacta sea respondida.
Tengo un conjunto de datos de ~ 50,000 estudiantes y su tiempo de deserción. Voy a realizar una regresión de riesgos proporcionales con una gran cantidad de posibles covariables. También voy a hacer una regresión logística en cuanto a la deserción / permanencia. El objetivo principal será la predicción para nuevas cohortes de estudiantes, pero no tenemos ninguna razón para creer que variarán mucho de la cohorte del año pasado.
Por lo general, no tengo ese lujo de datos y hago ajustes de modelos con algún tipo de penalización, pero esta vez pensé dividir el entrenamiento internacional y los conjuntos de datos de prueba y luego hacer la selección variable en el conjunto de entrenamiento; luego usando el conjunto de datos de prueba para estimar parámetros y capacidad predictiva.
¿Es esta una buena estrategia? Si no, ¿qué es mejor?
Las citas son bienvenidas pero no necesarias.
fuente
He estado mirando este documento yo mismo para la tarea similar de validación cruzada de predicción de supervivencia. Lo bueno comienza en el Capítulo 2.
fuente
Desde entonces he encontrado este documento que no solo responde a mi pregunta, sino que proporciona un método para determinar la división óptima para conjuntos de datos particulares. Encontré esto gracias al uso de @FrankHarrell del término "configuración dividida óptima" que luego busqué en Google.
fuente