¿Existe realmente alguna diferencia entre la navaja y dejar una validación cruzada? El procedimiento parece idéntico ¿me estoy perdiendo
¿Existe realmente alguna diferencia entre la navaja y dejar una validación cruzada? El procedimiento parece idéntico ¿me estoy perdiendo
Supongamos que he construido un modelo de predicción para la aparición de una enfermedad en particular en un conjunto de datos (el conjunto de datos de construcción del modelo) y ahora quiero verificar qué tan bien funciona el modelo en un nuevo conjunto de datos (el conjunto de datos de...
Soy bastante nuevo en los bosques al azar. En el pasado, siempre he comparado la precisión del ajuste contra la prueba contra el ajuste contra el tren para detectar cualquier sobreajuste. Pero acabo de leer aquí que: "En bosques aleatorios, no hay necesidad de validación cruzada o un conjunto de...
Soy muy nuevo en el análisis de datos funcionales (FDA). Estoy leyendo: Ramsay, James O. y Silverman, Bernard W. (2006), Functional Data Analysis, 2ª ed., Springer, Nueva York. Sin embargo, todavía no tengo muy claro dónde / cuándo usar la FDA. ¿Podría alguien darme un ejemplo, especialmente...
"Validación Bootstrap" / "remuestreo de validación cruzada" es nuevo para mí, pero fue discutido por la respuesta a esta pregunta . Supongo que involucra 2 tipos de datos: los datos reales y los datos simulados, donde un conjunto dado de datos simulados se genera a partir de los datos reales...
Estoy analizando un conjunto de datos utilizando un modelo de efectos mixtos con un efecto fijo (condición) y dos efectos aleatorios (participante debido al diseño del sujeto y al par). El modelo se ha generado con el lme4paquete:
TLDR: Mi conjunto de datos es bastante pequeño (120) muestras. Mientras realizo la validación cruzada 10 veces, ¿debería: ¿Recolecta las salidas de cada pliegue de prueba, las concatena en un vector y luego calcula el error en este vector completo de predicciones (120 muestras)? O debería lugar...
Tengo una pregunta específica sobre la validación en la investigación de aprendizaje automático. Como sabemos, el régimen de aprendizaje automático les pide a los investigadores que capaciten a sus modelos en los datos de capacitación, que elijan entre los modelos candidatos por conjunto de...
Leí una y otra vez que la validación cruzada "Leave-one-out" tiene una gran variación debido a la gran superposición de los pliegues de entrenamiento. Sin embargo, no entiendo por qué es así: ¿no debería ser el rendimiento de la validación cruzada muy estable (baja variación) exactamente porque los...
Las pruebas de permutación (también llamadas prueba de aleatorización, prueba de aleatorización o prueba exacta) son muy útiles y resultan útiles cuando t-testno se cumple el supuesto de distribución normal requerido por ejemplo y cuando se transforman los valores mediante la clasificación de...
Después de leer uno de los "Consejos de investigación" de RJ Hyndman sobre validación cruzada y series de tiempo, volví a una vieja pregunta mía que trataré de formular aquí. La idea es que en los problemas de clasificación o regresión, el orden de los datos no es importante y, por lo tanto, se...
Estoy haciendo clasificación de imágenes usando el aprendizaje automático. Supongamos que tengo algunos datos de entrenamiento (imágenes) y los dividiré en conjuntos de entrenamiento y validación. Y también quiero aumentar los datos (producir nuevas imágenes de las originales) mediante rotaciones...
Mi comprensión general es que AIC trata con el equilibrio entre la bondad de ajuste del modelo y la complejidad del modelo. Un yoC= 2 k - 2 l n ( L )UNyoC=2k-2lnorte(L)AIC =2k -2ln(L) kkk = número de parámetros en el modelo LLL = probabilidad El criterio de información bayesiano BIC está...
Mi pregunta principal es con respecto a tratar de entender cómo encaja la validación cruzada k-fold en el contexto de tener conjuntos de capacitación / validación / prueba (si cabe en ese contexto). Por lo general, las personas hablan de dividir los datos en un conjunto de entrenamiento,...
La página de Scikit Learn sobre Selección de modelos menciona el uso de validación cruzada anidada: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Se realizan dos bucles de...
Bloqueado . Esta pregunta y sus respuestas están bloqueadas porque la pregunta está fuera de tema pero tiene un significado histórico. Actualmente no acepta nuevas respuestas o interacciones. Ahora que tengo un Rmarco de datos (capacitación), ¿alguien puede decirme cómo...
He escuchado la siguiente expresión antes: "La optimización es la raíz de todo mal en las estadísticas". Por ejemplo, la respuesta principal en este hilo hace esa declaración en referencia al peligro de optimizar demasiado agresivamente durante la selección del modelo. Mi primera pregunta es...
Estoy redactando una revisión de la literatura sobre un problema de salud pública actual en el que los datos se confunden: ¿Cuáles son los estudios de casos históricos comunes que se utilizan en la educación de salud pública / epidemiología donde las relaciones o inferencias inválidas o confusas...
Scikit tiene CalibratedClassifierCV , que nos permite calibrar nuestros modelos en un par X, y particular. También establece claramente quedata for fitting the classifier and for calibrating it must be disjoint. Si deben ser disjuntos, ¿es legítimo entrenar al clasificador con lo siguiente?...
He estado buscando varios hilos aquí, pero no creo que mi pregunta exacta sea respondida. Tengo un conjunto de datos de ~ 50,000 estudiantes y su tiempo de deserción. Voy a realizar una regresión de riesgos proporcionales con una gran cantidad de posibles covariables. También voy a hacer una...