Entiendo lo que significa "sobreajuste", pero necesito ayuda sobre cómo encontrar un ejemplo del mundo real que se aplique al sobreajuste.
El proceso de ajustar algún modelo estadístico a un conjunto particular de datos. Principalmente hecho en una computadora, y usando métodos numéricos variados como la optimización o integración numérica, o simulación.
Entiendo lo que significa "sobreajuste", pero necesito ayuda sobre cómo encontrar un ejemplo del mundo real que se aplique al sobreajuste.
Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...
Tengo experiencia en informática pero estoy tratando de enseñarme ciencia de datos resolviendo problemas en Internet. He estado trabajando en este problema durante las últimas semanas (aproximadamente 900 filas y 10 funciones). Inicialmente estaba usando regresión logística pero ahora me he...
Tengo un conjunto de datos que no está ordenado de ninguna manera en particular, pero cuando se traza claramente tiene dos tendencias distintas. Una regresión lineal simple realmente no sería adecuada aquí debido a la clara distinción entre las dos series. ¿Hay una manera simple de obtener las dos...
La idea del análisis de datos adaptativo es que modifique su plan para analizar los datos a medida que aprenda más sobre ellos. En el caso del análisis exploratorio de datos (EDA), generalmente es una buena idea (a menudo busca patrones imprevistos en los datos), pero para un estudio confirmatorio,...
Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado hace 2 años . Estoy usando caret para ejecutar un bosque...
Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit =
¿Es posible sobreajustar un modelo de regresión logística? Vi un video que decía que si mi área bajo la curva ROC es superior al 95%, entonces es muy probable que se ajuste demasiado, pero ¿es posible sobreajustar un modelo de regresión
Estoy entrenando una red neuronal simple en el conjunto de datos CIFAR10. Después de un tiempo, la pérdida de validación comenzó a aumentar, mientras que la precisión de la validación también está aumentando. La pérdida de prueba y la precisión de la prueba continúan mejorando. ¿Cómo es esto...
Completé el curso de Aprendizaje automático de Andrew Ng hace aproximadamente un año, y ahora estoy escribiendo mi exploración de matemáticas en la escuela secundaria sobre el funcionamiento de la regresión logística y las técnicas para optimizar el rendimiento. Una de estas técnicas es, por...
Aunque leí esta publicación, todavía no tengo idea de cómo aplicar esto a mis propios datos y espero que alguien pueda ayudarme. Tengo los siguientes datos: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483,...
Suponga que un modelo tiene una precisión del 100% en los datos de entrenamiento, pero una precisión del 70% en los datos de la prueba. ¿Es cierto el siguiente argumento sobre este modelo? Es obvio que este es un modelo sobreajustado. La precisión de la prueba se puede mejorar reduciendo el...
Suponga que tengo un conjunto de datos para una tarea de clasificación estadística supervisada, por ejemplo, a través de un clasificador de Bayes. Este conjunto de datos consta de 20 características y quiero reducirlo a 2 características mediante técnicas de reducción de dimensionalidad como el...
¿Es cierto que los métodos bayesianos no se sobreajustan? (Vi algunos documentos y tutoriales haciendo esta afirmación) Por ejemplo, si aplicamos un Proceso Gaussiano a MNIST (clasificación de dígitos escritos a mano), pero solo le mostramos una sola muestra, ¿volverá a la distribución anterior...
En primer lugar, no soy un estadístico. Sin embargo, he estado haciendo análisis estadísticos de red para mi doctorado. Como parte del análisis de red, tracé una Función de distribución acumulativa complementaria (CCDF) de grados de red. Lo que encontré fue que, a diferencia de las distribuciones...
Estaba leyendo el informe de la solución ganadora de una competencia de Kaggle ( Clasificación de malware ). El informe se puede encontrar en esta publicación del foro . El problema era un problema de clasificación (nueve clases, la métrica era la pérdida logarítmica) con 10000 elementos en el...
Tengo lo que ingenuamente pensé que era un problema bastante sencillo que implica la detección de valores atípicos para muchos conjuntos diferentes de datos de conteo. Específicamente, quiero determinar si uno o más valores en una serie de datos de conteo son más altos o más bajos de lo esperado en...
El siguiente extracto es de Schwager's Hedge Fund Market Wizzards (mayo de 2012), una entrevista con el exitoso administrador de fondos de cobertura Jaffray Woodriff: A la pregunta: "¿Cuáles son algunos de los peores errores que cometen las personas en la minería de datos?": Muchas personas...
Después de realizar el análisis de componentes principales (PCA), quiero proyectar un nuevo vector en el espacio PCA (es decir, encontrar sus coordenadas en el sistema de coordenadas PCA). He calculado PCA en lenguaje R usando prcomp. Ahora debería poder multiplicar mi vector por la matriz de...
EDITAR: como esta pregunta se ha inflado, un resumen: encontrar diferentes conjuntos de datos significativos e interpretables con las mismas estadísticas mixtas (media, mediana, rango medio y sus dispersiones asociadas y regresión). El cuarteto Anscombe (ver ¿ Propósito de visualizar datos de alta...