Entiendo lo que significa "sobreajuste", pero necesito ayuda sobre cómo encontrar un ejemplo del mundo real que se aplique al sobreajuste.
El error de modelado (especialmente el error de muestreo) en lugar de las relaciones replicables e informativas entre las variables mejora las estadísticas de ajuste del modelo, pero reduce la parsimonia y empeora la validez explicativa y predictiva.
Entiendo lo que significa "sobreajuste", pero necesito ayuda sobre cómo encontrar un ejemplo del mundo real que se aplique al sobreajuste.
Tengo experiencia en informática pero estoy tratando de enseñarme ciencia de datos resolviendo problemas en Internet. He estado trabajando en este problema durante las últimas semanas (aproximadamente 900 filas y 10 funciones). Inicialmente estaba usando regresión logística pero ahora me he...
La idea del análisis de datos adaptativo es que modifique su plan para analizar los datos a medida que aprenda más sobre ellos. En el caso del análisis exploratorio de datos (EDA), generalmente es una buena idea (a menudo busca patrones imprevistos en los datos), pero para un estudio confirmatorio,...
¿Es posible sobreajustar un modelo de regresión logística? Vi un video que decía que si mi área bajo la curva ROC es superior al 95%, entonces es muy probable que se ajuste demasiado, pero ¿es posible sobreajustar un modelo de regresión
Estoy entrenando una red neuronal simple en el conjunto de datos CIFAR10. Después de un tiempo, la pérdida de validación comenzó a aumentar, mientras que la precisión de la validación también está aumentando. La pérdida de prueba y la precisión de la prueba continúan mejorando. ¿Cómo es esto...
Completé el curso de Aprendizaje automático de Andrew Ng hace aproximadamente un año, y ahora estoy escribiendo mi exploración de matemáticas en la escuela secundaria sobre el funcionamiento de la regresión logística y las técnicas para optimizar el rendimiento. Una de estas técnicas es, por...
Suponga que un modelo tiene una precisión del 100% en los datos de entrenamiento, pero una precisión del 70% en los datos de la prueba. ¿Es cierto el siguiente argumento sobre este modelo? Es obvio que este es un modelo sobreajustado. La precisión de la prueba se puede mejorar reduciendo el...
¿Es cierto que los métodos bayesianos no se sobreajustan? (Vi algunos documentos y tutoriales haciendo esta afirmación) Por ejemplo, si aplicamos un Proceso Gaussiano a MNIST (clasificación de dígitos escritos a mano), pero solo le mostramos una sola muestra, ¿volverá a la distribución anterior...
Suponga que tengo un conjunto de datos para una tarea de clasificación estadística supervisada, por ejemplo, a través de un clasificador de Bayes. Este conjunto de datos consta de 20 características y quiero reducirlo a 2 características mediante técnicas de reducción de dimensionalidad como el...
Estaba leyendo el informe de la solución ganadora de una competencia de Kaggle ( Clasificación de malware ). El informe se puede encontrar en esta publicación del foro . El problema era un problema de clasificación (nueve clases, la métrica era la pérdida logarítmica) con 10000 elementos en el...
He realizado algunas investigaciones sobre el sobreajuste y la falta de adaptación, y he entendido cuáles son exactamente, pero no puedo encontrar los motivos. ¿Cuáles son las principales razones para el sobreajuste y la falta de adaptación? ¿Por qué enfrentamos estos dos problemas al entrenar un...
Mi configuración es la siguiente: Estoy siguiendo las pautas en "Modelado predictivo aplicado". Por lo tanto, he filtrado características correlacionadas y termino con lo siguiente: 4900 puntos de datos en el conjunto de entrenamiento y 1600 puntos de datos en el conjunto de prueba. Tengo 26...
La regularización en regresión (lineal, logística ...) es la forma más popular de reducir el sobreajuste. Cuando el objetivo es la precisión de la predicción (no explicar), ¿hay alguna buena alternativa a la regularización, especialmente adecuada para grandes conjuntos de datos (mi / billones de...
El parámetro de velocidad de aprendizaje ( ) en Gradient Boosting reduce la contribución de cada nuevo modelo base, típicamente un árbol poco profundo, que se agrega en la serie. Se demostró que aumenta drásticamente la precisión del conjunto de pruebas, lo cual es comprensible ya que con pasos más...
¿Existe una definición matemática o algorítmica de sobreajuste? Las definiciones que se proporcionan a menudo son el gráfico clásico de puntos en 2-D con una línea que pasa por cada punto y la curva de pérdida de validación que sube repentinamente. ¿Pero hay una definición matemáticamente...
Si tengo datos y ejecuto una clasificación (digamos bosque aleatorio en estos datos) con validación cruzada (digamos 5 veces), ¿podría concluir que no hay un ajuste excesivo en mi
Si bien los resultados del conjunto de prueba privado no se pueden utilizar para refinar aún más el modelo, ¿no se está seleccionando el modelo de una gran cantidad de modelos basados en los resultados del conjunto de prueba privado? ¿No terminaría usted, solo a través de ese proceso,...
Digamos que tenemos un modelo mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects...
Consideremos el problema de clasificar el conjunto de datos MNIST. Según la página web MNIST de Yann LeCun , 'Ciresan et al.' obtuvo una tasa de error del 0.23% en el conjunto de prueba MNIST usando la red neuronal convolucional. Denotemos el conjunto de entrenamiento MNIST como...
Soy bastante nuevo en los bosques al azar. En el pasado, siempre he comparado la precisión del ajuste contra la prueba contra el ajuste contra el tren para detectar cualquier sobreajuste. Pero acabo de leer aquí que: "En bosques aleatorios, no hay necesidad de validación cruzada o un conjunto de...