Preguntas etiquetadas con cross-validation

11

¿Interpretación bayesiana, MDL o ML de validación cruzada?

¿Hay alguna interpretación Bayesiana, ML o MDL conocida de validación cruzada? ¿Puedo interpretar la validación cruzada como la actualización correcta en una versión previa específicamente

bayesian cross-validation maximum-likelihood

11

¿Por qué una gran opción de K baja mi puntaje de validación cruzada?

Jugando con el conjunto de datos de vivienda de Boston y RandomForestRegressor(con parámetros predeterminados) en scikit-learn, noté algo extraño: la puntuación media de validación cruzada disminuyó a medida que aumentaba el número de pliegues más allá de 10. Mi estrategia de validación cruzada fue...

machine-learning cross-validation random-forest sample-size scikit-learn

11

R / mgcv: ¿Por qué los productos tensoriales te () y ti () producen superficies diferentes?

El mgcvpaquete Rtiene dos funciones para ajustar las interacciones del producto tensorial: te()y ti(). Entiendo la división básica del trabajo entre los dos (ajustar una interacción no lineal versus descomponer esta interacción en efectos principales y una interacción). Lo que no entiendo es por...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

¿Dividir los datos en conjuntos de prueba y entrenamiento es puramente una "estadística"?

Soy un estudiante de física que estudia el aprendizaje automático / ciencia de datos, así que no me refiero a que esta pregunta inicie ningún conflicto :) Sin embargo, una gran parte de cualquier programa de pregrado de física es hacer laboratorios / experimentos, lo que significa una gran cantidad...

regression machine-learning cross-validation dataset experiment-design

11

¿Cómo puede detectar si un proceso gaussiano se sobreajusta?

Estoy entrenando un proceso gaussiano con un núcleo ARD con muchos parámetros maximizando la capacidad marginal de los datos, en lugar de la validación cruzada. Sospecho que es demasiado adecuado. ¿Cómo puedo probar esta sospecha en un contexto

machine-learning cross-validation gaussian-process

11

Promedio de precisión y recuperación cuando se utiliza la validación cruzada

He realizado la clasificación usando múltiples clasificadores para datos etiquetados de 2 clases, y utilicé la validación cruzada 5 veces. Para cada pliegue calculé tp, tn, fp y fn. Luego calculé la precisión, precisión, recuperación y puntaje F para cada prueba. Mi pregunta es, cuando quiero...

classification cross-validation precision-recall

11

Intervalo de confianza para la precisión de clasificación con validación cruzada

Estoy trabajando en un problema de clasificación que calcula una métrica de similitud entre dos imágenes de rayos X de entrada. Si las imágenes son de la misma persona (etiqueta de "derecho"), se calculará una métrica más alta; las imágenes de entrada de dos personas diferentes (etiqueta de...

classification confidence-interval cross-validation matlab

11

Número de componentes principales al preprocesar usando PCA en el paquete caret en R

Estoy usando el caretpaquete Rpara entrenar clasificadores binarios SVM. Para la reducción de funciones, estoy preprocesando con PCA usando la función incorporada preProc=c("pca")cuando llamo train(). Aquí están mis preguntas: ¿Cómo selecciona caret los componentes principales? ¿Hay un número...

r machine-learning pca cross-validation caret

11

¿Es la tasa de error una función convexa del parámetro de regularización lambda?

Al elegir el parámetro de regularización lambda en Ridge o Lasso, el método recomendado es probar diferentes valores de lambda, medir el error en el conjunto de validación y finalmente elegir el valor de lambda que devuelve el error más bajo. No está claro para mí si la función f (lambda) = error...

cross-validation error regularization validation optimization

11

Validación cruzada después de LASSO en datos de encuestas complejas

Estoy tratando de hacer una selección de modelo en algunos predictores candidatos que usan LASSO con un resultado continuo. El objetivo es seleccionar el modelo óptimo con el mejor rendimiento de predicción, que generalmente se puede hacer mediante validación cruzada K-fold después de obtener una...

cross-validation survey lasso glmnet

11

División de datos de series temporales en conjuntos de tren / prueba / validación

¿Cuál es la mejor manera de dividir los datos de series temporales en conjuntos de tren / prueba / validación, donde el conjunto de validación se usaría para el ajuste de hiperparámetros? Tenemos 3 años de datos de ventas diarias, y nuestro plan es usar 2015-2016 como datos de capacitación, luego...

time-series cross-validation validation

10

Buena literatura sobre validación cruzada

¿Alguien conoce un buen libro / página web para comenzar a aprender las técnicas de validación

references cross-validation

10

¿Cómo se generan curvas ROC para la validación cruzada de dejar uno fuera?

Cuando se realiza una validación cruzada de 5 veces (por ejemplo), es típico calcular una curva ROC separada para cada uno de los 5 pliegues y, a menudo, una curva ROC media con std. dev. se muestra como grosor de curva. Sin embargo, para la validación cruzada de LOO, donde solo hay un único punto...

cross-validation roc

10

¿Cómo simular resultados multivariados en R?

La mayoría de las situaciones, solo tratamos con una variable de resultado / respuesta como . Sin embargo, en algunos escenarios, especialmente en los datos clínicos, las variables de resultado pueden ser de alta dimensión / multivariadas. Tal como Y = β x + ϵ , donde Y contiene variables Y 1 , Y 2...

r cross-validation

10

Estabilidad del modelo en validación cruzada de modelos de regresión

Dados los múltiples pliegues de validación cruzada de una regresión logística y las múltiples estimaciones resultantes de cada coeficiente de regresión, ¿cómo se debe medir si un predictor (o conjunto de predictores) es estable y significativo en función de los coeficientes de regresión? ? ¿Es esto...

regression model-selection cross-validation

10

¿Cómo incorporo un valor atípico innovador en la observación 48 en mi modelo ARIMA?

Estoy trabajando en un conjunto de datos. Después de usar algunas técnicas de identificación de modelos, obtuve un modelo ARIMA (0,2,1). Utilicé la detectIOfunción en el paquete TSAen R para detectar un valor atípico innovador (IO) en la observación número 48 de mi conjunto de datos...

r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

10

Comparación de distribuciones de rendimiento de generalización

Digamos que tengo dos métodos de aprendizaje para un problema de clasificación , y , y que calculo su rendimiento de generalización con algo como validación cruzada repetida o bootstrapping. De este proceso obtengo una distribución de puntajes y para cada método a través de estas repeticiones (por...

cross-validation model-selection

10

¿Se debe realizar la selección de características solo en los datos de entrenamiento (o todos los datos)?

¿Se debe realizar la selección de características solo en los datos de entrenamiento (o todos los datos)? Revisé algunas discusiones y documentos como Guyon (2003) y Singhi y Liu (2006) , pero aún no estoy seguro de la respuesta correcta. La configuración de mi experimento es la...

dataset cross-validation experiment-design feature-selection

10

Superioridad de LASSO sobre la selección hacia adelante / eliminación hacia atrás en términos del error de predicción de validación cruzada del modelo

Obtuve tres modelos reducidos de un modelo completo original usando selección hacia adelante eliminación hacia atrás Técnica de penalización L1 (LASSO) Para los modelos obtenidos usando la selección hacia adelante / eliminación hacia atrás, obtuve la estimación validada cruzada del error de...

cross-validation model-selection lasso stepwise-regression

10

¿Por qué la estimación de CV del error de prueba subestima el error de prueba real?

Tengo entendido que la estimación de validación cruzada k-fold del error de prueba generalmente subestima el error de prueba real. Estoy confundido por qué este es el caso. ¡Veo por qué el error de entrenamiento es generalmente más bajo que el error de prueba, porque estás entrenando el modelo con...

cross-validation bias