Preguntas etiquetadas con fitting

107

¿Qué es un ejemplo del mundo real de "sobreajuste"?

Entiendo lo que significa "sobreajuste", pero necesito ayuda sobre cómo encontrar un ejemplo del mundo real que se aplique al sobreajuste.

overfitting

78

Un ejemplo: regresión LASSO usando glmnet para el resultado binario

Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

41

Bosque aleatorio: cómo manejar el sobreajuste

Tengo experiencia en informática pero estoy tratando de enseñarme ciencia de datos resolviendo problemas en Internet. He estado trabajando en este problema durante las últimas semanas (aproximadamente 900 filas y 10 funciones). Inicialmente estaba usando regresión logística pero ahora me he...

random-forest overfitting

34

Los datos tienen dos tendencias; ¿Cómo extraer líneas de tendencia independientes?

Tengo un conjunto de datos que no está ordenado de ninguna manera en particular, pero cuando se traza claramente tiene dos tendencias distintas. Una regresión lineal simple realmente no sería adecuada aquí debido a la clara distinción entre las dos series. ¿Hay una manera simple de obtener las dos...

time-series python curve-fitting

29

¿La revista Science ha respaldado los análisis de Garden of Forking Pathes?

La idea del análisis de datos adaptativo es que modifique su plan para analizar los datos a medida que aprenda más sobre ellos. En el caso del análisis exploratorio de datos (EDA), generalmente es una buena idea (a menudo busca patrones imprevistos en los datos), pero para un estudio confirmatorio,...

hypothesis-testing overfitting eda out-of-sample differential-privacy

29

R: Bosque aleatorio que arroja NaN / Inf en el error de "llamada de función externa" a pesar de que no hay NaN en el conjunto de datos [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado hace 2 años . Estoy usando caret para ejecutar un bosque...

r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

28

Calcular la repetibilidad de los efectos de un modelo más antiguo

Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit =

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Sobreajustar un modelo de regresión logística

¿Es posible sobreajustar un modelo de regresión logística? Vi un video que decía que si mi área bajo la curva ROC es superior al 95%, entonces es muy probable que se ajuste demasiado, pero ¿es posible sobreajustar un modelo de regresión

logistic overfitting regression-strategies

28

¿Cómo es posible que la pérdida de validación aumente mientras que la precisión de validación también aumenta?

Estoy entrenando una red neuronal simple en el conjunto de datos CIFAR10. Después de un tiempo, la pérdida de validación comenzó a aumentar, mientras que la precisión de la validación también está aumentando. La pérdida de prueba y la precisión de la prueba continúan mejorando. ¿Cómo es esto...

neural-networks deep-learning conv-neural-network overfitting

27

¿Por qué los pesos más pequeños resultan en modelos más simples en la regularización?

Completé el curso de Aprendizaje automático de Andrew Ng hace aproximadamente un año, y ahora estoy escribiendo mi exploración de matemáticas en la escuela secundaria sobre el funcionamiento de la regresión logística y las técnicas para optimizar el rendimiento. Una de estas técnicas es, por...

regression machine-learning optimization regularization overfitting

26

Ajustar un término sinusoidal a los datos

Aunque leí esta publicación, todavía no tengo idea de cómo aplicar esto a mis propios datos y espero que alguien pueda ayudarme. Tengo los siguientes datos: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483,...

r regression fitting

25

¿Un modelo sobreajustado es necesariamente inútil?

Suponga que un modelo tiene una precisión del 100% en los datos de entrenamiento, pero una precisión del 70% en los datos de la prueba. ¿Es cierto el siguiente argumento sobre este modelo? Es obvio que este es un modelo sobreajustado. La precisión de la prueba se puede mejorar reduciendo el...

model accuracy overfitting

25

¿Tiene sentido combinar PCA y LDA?

Suponga que tengo un conjunto de datos para una tarea de clasificación estadística supervisada, por ejemplo, a través de un clasificador de Bayes. Este conjunto de datos consta de 20 características y quiero reducirlo a 2 características mediante técnicas de reducción de dimensionalidad como el...

classification pca regularization discriminant-analysis overfitting

25

¿Es cierto que los métodos bayesianos no se sobreajustan?

¿Es cierto que los métodos bayesianos no se sobreajustan? (Vi algunos documentos y tutoriales haciendo esta afirmación) Por ejemplo, si aplicamos un Proceso Gaussiano a MNIST (clasificación de dígitos escritos a mano), pero solo le mostramos una sola muestra, ¿volverá a la distribución anterior...

bayesian nonparametric gaussian-process overfitting misspecification

22

Interpretación de la diferencia entre la distribución de la ley lognormal y de la ley de potencia (distribución de grados de red)

En primer lugar, no soy un estadístico. Sin embargo, he estado haciendo análisis estadísticos de red para mi doctorado. Como parte del análisis de red, tracé una Función de distribución acumulativa complementaria (CCDF) de grados de red. Lo que encontré fue que, a diferencia de las distribuciones...

curve-fitting networks lognormal power-law

21

"Aprendizaje semi supervisado": ¿esto es demasiado adecuado?

Estaba leyendo el informe de la solución ganadora de una competencia de Kaggle ( Clasificación de malware ). El informe se puede encontrar en esta publicación del foro . El problema era un problema de clasificación (nueve clases, la métrica era la pérdida logarítmica) con 10000 elementos en el...

machine-learning random-forest boosting overfitting semi-supervised

21

Detección de valores atípicos en los datos de conteo

Tengo lo que ingenuamente pensé que era un problema bastante sencillo que implica la detección de valores atípicos para muchos conjuntos diferentes de datos de conteo. Específicamente, quiero determinar si uno o más valores en una serie de datos de conteo son más altos o más bajos de lo esperado en...

outliers count-data fitting

21

¿Nueva forma revolucionaria de minería de datos?

El siguiente extracto es de Schwager's Hedge Fund Market Wizzards (mayo de 2012), una entrevista con el exitoso administrador de fondos de cobertura Jaffray Woodriff: A la pregunta: "¿Cuáles son algunos de los peores errores que cometen las personas en la minería de datos?": Muchas personas...

data-mining curve-fitting out-of-sample

21

¿Cómo proyectar un nuevo vector en el espacio PCA?

Después de realizar el análisis de componentes principales (PCA), quiero proyectar un nuevo vector en el espacio PCA (es decir, encontrar sus coordenadas en el sistema de coordenadas PCA). He calculado PCA en lenguaje R usando prcomp. Ahora debería poder multiplicar mi vector por la matriz de...

r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

21

Conjuntos de datos tipo Anscombe con el mismo cuadro y gráfico de bigotes (media / estándar / mediana / MAD / min / máx.)

EDITAR: como esta pregunta se ha inflado, un resumen: encontrar diferentes conjuntos de datos significativos e interpretables con las mismas estadísticas mixtas (media, mediana, rango medio y sus dispersiones asociadas y regresión). El cuarteto Anscombe (ver ¿ Propósito de visualizar datos de alta...

regression descriptive-statistics curve-fitting estimators