¿Qué es un ejemplo del mundo real de "sobreajuste"?

107

Entiendo lo que significa "sobreajuste", pero necesito ayuda sobre cómo encontrar un ejemplo del mundo real que se aplique al sobreajuste.

overfitting usuario3851283
fuente

12

Tal vez podría explicar lo que 'entiende' sobre 'lo que significa sobreajustar', para que las personas puedan abordar las partes que no comprende sin tener que adivinar cuáles podrían ser.

goangit

3

@ssdecontrol La correlación espuria no está sobreajustada. De hecho, la correlación espuria no necesita involucrar un modelo explícito, y el modelo implícito suele ser una línea recta con dos parámetros.

Nick Cox

1

@whuber: Esto quizás sería más apropiado para discutir sobre meta, pero me sorprendió ver que convertiste esta publicación en wiki de la comunidad. ¿No significa que el OP no obtendrá un aumento de reputación para futuros votos positivos? Para mí parece casi un "castigo" para él; ¿Cuál fue la razón para eso?

ameba

44

@amoeba No es un castigo: esta pregunta, como se dijo, obviamente no tiene una respuesta canónica o correcta. En su forma original como una pregunta que no es de CW, fue un tema fuera de tema como resultado, y debería haberse cerrado rápidamente, por cierto, pero debido a que puede ser valioso tener algunos buenos ejemplos creados colectivamente por la comunidad, confiriendo el estado de CW en lugar de cerrar parece ser una solución razonable.

whuber

17

Hasta ahora, muy pocas de estas respuestas (¡solo dos de 11!) Incluso intentan abordar la pregunta, que pide un ejemplo del mundo real . Eso significa no una simulación, ni un ejemplo teórico, ni una caricatura, sino un modelo aplicado seriamente a los datos reales. Tenga en cuenta también que la pregunta intenta explícitamente desviar las respuestas de las explicaciones de lo que es el sobreajuste.

whuber

96

Aquí hay un buen ejemplo de modelos de series de tiempo de elecciones presidenciales de xkcd: ingrese la descripción de la imagen aquí

Solo ha habido 56 elecciones presidenciales y 43 presidentes. Esa no es una gran cantidad de datos para aprender. Cuando el espacio del predictor se expande para incluir cosas como tener dientes postizos y el valor de los nombres de los puntos Scrabble, es bastante fácil para el modelo pasar de las características generalizables de los datos (la señal) y comenzar a igualar el ruido. Cuando esto sucede, el ajuste en los datos históricos puede mejorar, pero el modelo fallará miserablemente cuando se use para hacer inferencias sobre futuras elecciones presidenciales.

Dimitriy V. Masterov
fuente

15

Creo que debería agregar algo sobre el sesgo de la muestra para explicar cómo se relaciona esto con el sobreajuste. A solo un corte y pegado de la caricatura le falta la explicación.

Neil Slater

55

Una buena característica de este ejemplo es que demuestra la diferencia entre sobreajuste y complejidad. La regla "Como va California, así va la nación" es simple, pero todavía está sobreajustada.

Tom Minka

2

@TomMinka, de hecho, el sobreajuste puede ser causado por la complejidad (un modelo demasiado complejo para ajustarse a datos demasiado simples, por lo tanto, los parámetros adicionales se adaptarán a lo que se presente) o, como usted señaló, por características ruidosas que obtienen más peso en la decisión que lo pertinente caracteristicas. Y hay muchas otras fuentes posibles de sobreajuste (varianza intrínseca de los datos o modelo, datos no pertinentes para representar el objetivo objetivo, etc.). Creo que debemos decir que hay un ajuste por exceso s , no sólo sobreajuste (que implica que hay una sola causa, que a menudo no es correcto).

gaborous

80

Mi favorito fue el ejemplo de Matlab de censo de población de EE. UU. Versus tiempo:

Un modelo lineal es bastante bueno.
Un modelo cuadrático está más cerca.
Un modelo cuántico predice la aniquilación total a partir del próximo año.

(Al menos espero sinceramente que este sea un ejemplo de sobreajuste)

http://www.mathworks.com/help/curvefit/examples/polynomial-curve-fitting.html#zmw57dd0e115 ingrese la descripción de la imagen aquí

prototipo
fuente

1

Para que quede claro exactamente debajo de la gráfica, dicen: "El comportamiento del ajuste polinómico de sexto grado más allá del rango de datos lo convierte en una mala elección para la extrapolación y puede rechazar este ajuste " .

usεr11852

49

El estudio de Chen et al. (2013) ajusta dos cúbicos a una supuesta discontinuidad en la esperanza de vida en función de la latitud.

Chen Y., Ebenstein, A., Greenstone, M. y Li, H. 2013. Evidencia sobre el impacto de la exposición sostenida a la contaminación del aire en la esperanza de vida de la política del río Huai de China. Actas de la Academia Nacional de Ciencias 110: 12936-12941. resumen

A pesar de su publicación en una revista sobresaliente, etc., su respaldo tácito por parte de personas distinguidas, etc., todavía presentaría esto como un ejemplo prima facie de sobreajuste.

Un signo revelador es la inverosimilitud de los cúbicos. Ajustar un cúbico supone implícitamente que hay alguna razón por la cual la esperanza de vida variará como un polinomio de tercer grado de la latitud donde vives. Eso parece bastante inverosímil: no es fácil imaginar un mecanismo físico plausible que pueda causar tal efecto.

Vea también la siguiente publicación de blog para un análisis más detallado de este artículo: Evidencia sobre el impacto del uso sostenido de la regresión polinómica en la inferencia causal (una afirmación de que el calentamiento de carbón está reduciendo la vida útil en 5 años para medio billón de personas) .

Nick Cox
fuente

55

+1 Andrew Gelman incluso escribió una o dos publicaciones de blog sobre por qué es inverosímil. Aquí hay uno: andrewgelman.com/2013/08/05/…

Sycorax

@ user777 El blog Gelman es probablemente la primera vez que escuché sobre esto. Pero pensé que era más apropiado dar la referencia, agregar la pelusa de mi comentario personal y dejar que la gente juzgue por sí misma.

Nick Cox

1

Corté una edición de @DW que introdujo comentarios sobre la esperanza de vida en diferentes países, que no es de lo que se trata el documento.

Nick Cox

2

Otro ejemplo que creo que es ilustrativo (aunque potencialmente más artificial que el "mundo real") son las competencias de predicción que retroalimentan los resultados intermedios, como el kaggle. Por lo general, hay personas que optimizan los resultados en la tabla de clasificación, pero no son los ganadores de la muestra de espera. Rob Hyndman tiene una discusión sobre esto. Sin embargo, eso requiere una perspectiva un poco más profunda de lo que creo que el OP quiere aquí.

Andy W

2

Estaba a punto de publicar el artículo de Gelman & Imbens que salió de esto: nber.org/papers/w20405 (bloqueado, desafortunadamente)

shadowtalker

38

En un artículo publicado en Science el 14 de marzo de 2014 , David Lazer, Ryan Kennedy, Gary King y Alessandro Vespignani identificaron problemas en Google Flu Trends que atribuyen al sobreajuste.

Figura

Así es como cuentan la historia, incluida su explicación de la naturaleza del sobreajuste y por qué hizo que el algoritmo fallara:

En febrero de 2013, ... Nature informó que GFT estaba prediciendo más del doble de la proporción de visitas al médico por enfermedades similares a la influenza (ILI) que los Centros para el Control y la Prevención de Enfermedades (CDC) .... Esto sucedió a pesar del hecho de que GFT se creó para predecir los informes de los CDC. ...

Esencialmente, la metodología fue encontrar las mejores coincidencias entre 50 millones de términos de búsqueda para ajustarse a 1152 puntos de datos. Las probabilidades de encontrar términos de búsqueda que coincidan con la propensión de la gripe, pero no están relacionadas estructuralmente y, por lo tanto, no predicen el futuro, eran bastante altas. Los desarrolladores de GFT, de hecho, informan que eliminan los términos de búsqueda estacionales que no están relacionados con la gripe, pero que tienen una fuerte correlación con los datos de los CDC, como los relacionados con el baloncesto de la escuela secundaria. Esto debería haber sido una advertencia de que los grandes datos estaban sobreajustando el pequeño número de casos, una preocupación estándar en el análisis de datos. Este método ad hoc de descartar términos de búsqueda peculiares falló cuando GFT omitió por completo la pandemia no estacional de influenza A-H1N1 2009.

[Énfasis añadido.]

whuber
fuente

3

Lamentablemente, este ejemplo tiene algunos problemas. El documento sugiere dos razones bastante diferentes por las cuales GFT estaba haciendo malas predicciones: sobreajuste y cambios en el motor de búsqueda. Los autores admiten que no están en condiciones de determinar qué razón (si la hay) es correcta, por lo que es esencialmente especulación. Además, el párrafo sobre sobreajuste se refiere a la versión original del sistema, mientras que las predicciones en el gráfico se hicieron con un sistema modificado.

Tom Minka

1

@Tom El artículo no está escrito como si la acusación de sobreajuste fuera especulación: los autores lo afirman rotundamente. Creo que es una declaración razonable. También abordan la razón por la que tienen que ser algo especulativos: Google no fue abierto ni transparente sobre el algoritmo. Para el presente propósito, me parece irrelevante si el sobreajuste se produjo solo en una versión o en muchas, pero, según recuerdo, los autores abordan esto también y señalan evidencia de sobreajuste continuo en el algoritmo actual.

whuber

2

El artículo solo dice que el sobreajuste es una preocupación estándar en el análisis de datos. No afirma que el sobreajuste haya sido la razón. La referencia (2) entra en más detalles, pero nuevamente dice que el sobreajuste es solo un "posible problema", con la declaración "Debido a que el algoritmo de búsqueda y los términos de consulta resultantes que se usaron para definir los modelos GFT originales y actualizados permanecen sin revelar, es difícil identificar las razones del rendimiento subóptimo del sistema y hacer recomendaciones para mejorar ".

Tom Minka

@Tom Mantendré la cita dada aquí, que es precisa, como soporte adecuado de por qué el modelo de Google Flu es digno de consideración en el contexto actual.

whuber

Interesante discusión. Agregaré solo que el gráfico podría soportar mejor el argumento si las líneas estuvieran etiquetadas.

rolando2

32

Vi esta imagen hace unas semanas y pensé que era bastante relevante para la pregunta en cuestión.

foto meme

En lugar de ajustar linealmente la secuencia, se ajustó con un polinomio cuártico, que tenía un ajuste perfecto, pero resultó en una respuesta claramente ridícula.

March Ho
fuente

12

Esto no responde la pregunta como se le preguntó, y podría ser mejor como un comentario o no publicado en absoluto. Esto no proporciona un ejemplo del mundo real de sobreajuste (que es lo que pidió la pregunta). Tampoco explica cómo la imagen de ejemplo es relevante para el sobreajuste. Finalmente, es muy corto. Preferimos respuestas exhaustivas y detalladas que respondan a la pregunta que se hizo, no solo la discusión relacionada con la pregunta.

DW

99

De hecho, este es exactamente un caso de sobreajuste debido a un modelo demasiado complejo, ya que puede construir una infinidad de funciones de orden superior (no lineal) para generar un número infinito de diferentes últimos términos de la secuencia sin dejar de ajustar el otros términos (conocidos), usando una interpolación de Lagrange como se explica aquí .

Gaborous

@ user1121352 En la caricatura, el polinomio de alto orden es el verdadero modelo, por lo que no se trata de un ajuste excesivo en absoluto. Una respuesta como "9" (el siguiente número impar) o "11" (el siguiente primo impar) sería en realidad bajo -fitting, ya que utiliza un modelo demasiado simple para predecir el siguiente valor. La caricatura en realidad ilustra el caso opuesto, que un modelo más complejo podría ser cierto.

Sycorax

8

El polinomio cuártico (como lo interpreto yo) está destinado a ser una solución ridícula, ya que la respuesta obvia que alguien dará antes de ver la solución ridícula sería 9 (o cualquier otro valor OEIS). Asumí que el formato "dux" transmitía el sarcasmo, pero vemos claramente que la Ley de Poe funciona aquí.

Marzo Ho

2

Sin embargo, este es exactamente el punto que estoy tratando de hacer, que es que no sabemos cuál es la verdadera función. Si está realizando un análisis original, no tiene un recurso como el OEIS para apelar a la verdad: eso es lo que su modelo intenta establecer. Aprecio que la caricatura intente sarcasmo, pero la ubicación de la caricatura en esta discusión en particular expone una sutileza importante a la pregunta sobre el sobreajuste y el modelado estadístico en general. ¡La intención de su creador original es irrelevante porque la recontextualizaste aquí!

Sycorax

22

Para mí, el mejor ejemplo es el sistema ptolemaico en astronomía. Ptolomeo supuso que la Tierra está en el centro del universo y creó un sofisticado sistema de órbitas circulares anidadas, que explicaría bastante bien los movimientos de los objetos en el cielo. Los astrónomos tuvieron que seguir agregando círculos para explicar la desviación, hasta que un día se volvió tan complicado que la gente comenzó a dudarlo. Fue entonces cuando Copérnico ideó un modelo más realista.

Este es el mejor ejemplo de sobreajuste para mí. No puede sobreajustar el proceso de generación de datos (DGP) a los datos. Solo puedes sobreajustar un modelo mal especificado. Casi todos nuestros modelos en ciencias sociales están mal especificados, por lo que la clave es recordar esto y mantenerlos parsimoniosos. No para tratar de capturar todos los aspectos del conjunto de datos, sino tratar de capturar las características esenciales mediante la simplificación.

Aksakal
fuente

15

Esto no parece ser un ejemplo de sobreajuste. No hay nada de malo en el sistema ptolemaico como modelo predictivo: es complicado solo porque el sistema de coordenadas es geocéntrico en lugar de originarse en el centro de masa galáctico. El problema, por lo tanto, es que se hizo un ajuste preciso y legítimo con un modelo demasiado complicado. (Las elipses son mucho más simples que los epiciclos). ¡Es un verdadero desafío encontrar modelos no lineales parsimoniosos!

whuber

1

Terminarás con muchos círculos para modelar las órbitas de las lunas de Júpiter en el sistema ptolemaico.

Aksakal

17

Así es, pero a primera vista, eso no es necesariamente demasiado ajustado. La prueba de fuego radica en las predicciones de valores futuros, que en ese sistema funcionaron lo suficientemente bien como para soportar 1400 años. Los datos se sobreajustan no cuando el modelo es muy complicado, sino cuando es tan flexible que al capturar detalles extraños produce predicciones mucho más inexactas de lo que se esperaría de un análisis de los residuos del modelo en sus datos de entrenamiento.

whuber

2

E Y = \sum_{k = 0}^{9} β_{k} x^{i}

$\operatorname{E}Y=\sum_{k=0}^9 \beta_k x^i$

2

E Y = \sum_{k = 0}^{9} β_{k} x^{k}

$\operatorname{E}Y=\sum_{k=0}^9 \beta_k x^k$

x

$x$

22

Digamos que tienes 100 puntos en un gráfico.

Podrías decir: hmm, quiero predecir el próximo.

con una linea
con un polinomio de segundo orden
con un polinomio de tercer orden
...
con un polinomio de orden 100

Aquí puede ver una ilustración simplificada para este ejemplo: ingrese la descripción de la imagen aquí

Cuanto mayor sea el orden polinómico, mejor se ajustará a los puntos existentes.

Sin embargo, los polinomios de alto orden, a pesar de parecer mejores modelos para los puntos, en realidad los están sobreajustando. Modela el ruido en lugar de la verdadera distribución de datos.

Como consecuencia, si agrega un nuevo punto al gráfico con su curva perfectamente ajustada, probablemente estará más lejos de la curva que si usara un polinomio más simple de bajo orden.

arnaud
fuente

"Como consecuencia, si agrega un nuevo punto al gráfico con su curva perfectamente ajustada, probablemente estará más lejos de la curva que si usara un polinomio más simple de bajo orden", además, esto sigue siendo cierto incluso si el El proceso de generación de datos para el nuevo punto (es decir, la relación en la población) fue en realidad un polinomio de alta potencia como el que usted (sobre) ajustó.

Silverfish

19

Las imágenes aquí son realmente incorrectas, por ejemplo, el polinomio de 9 grados solo se ha trazado como una función lineal por partes, pero sospecho que en realidad debería oscilar salvajemente hacia arriba y hacia abajo en los rangos entre los puntos. También debería ver este efecto en el polinomio de 5 grados.

Ken Williams

17

El análisis que pudo haber contribuido al desastre de Fukushima es un ejemplo de sobreajuste. Existe una relación bien conocida en Ciencias de la Tierra que describe la probabilidad de terremotos de cierto tamaño, dada la frecuencia observada de terremotos "menores". Esto se conoce como la relación Gutenberg-Richter, y proporciona un ajuste de registro en línea recta durante muchas décadas. El análisis del riesgo de terremoto en las proximidades del reactor (este diagrama del excelente libro de Nate Silver "La señal y el ruido") muestra una "torcedura" en los datos. Ignorar el problema lleva a una estimación del riesgo anualizado de un terremoto de magnitud 9 como aproximadamente 1 de cada 300, definitivamente algo para lo que debe prepararse. Sin embargo, El sobreajuste de una línea de doble pendiente (como aparentemente se hizo durante la evaluación de riesgo inicial para los reactores) reduce la predicción de riesgo a aproximadamente 1 en 13,000 años. No se puede culpar a los ingenieros por no diseñar los reactores para resistir un evento tan improbable, pero definitivamente se debe culpar a los estadísticos que sobreajustaron (y luego extrapolaron) los datos ...

ingrese la descripción de la imagen aquí

Floris
fuente

¿Es concluyente que el modelo de doble pendiente fue sobreajustado? La torcedura es prominente; Supongo que si cada segmento de línea se estimara a partir de, por ejemplo, 3 puntos cada uno, obtendría mejores predicciones sobre la resistencia que al estimar una sola línea. (¡Por supuesto, la observación posterior de un evento de "1 en 13,000 años" argumenta en su contra! Pero eso es difícil de interpretar ya que no volveríamos a examinar este modelo si eso no hubiera sucedido). Si hubiera razones físicas para ignorar la torcedura percibida, entonces el caso de que este sobreajuste es más fuerte: no sé qué tan bien esos datos generalmente coinciden con la relación ideal Gutenberg-Richter.

Silverfish

Esto ilustra muy gráficamente los peligros de la extrapolación y la necesidad de una función de pérdida que tenga en cuenta la gravedad de las consecuencias de un error ...

Silverfish

3

El problema realmente es que se utilizan muy pocos datos para algunos de los últimos puntos, por lo que tienen mucha incertidumbre. Mirando de cerca los datos, puede ver que hubo un solo evento 7.9, luego varios 7.7s. Se sabe poco sobre los terremotos mayores de 8.0, ya que son poco frecuentes, pero cuando observa un terremoto de 9.0 (el terremoto de Tohoku que causó el Tsunami) puede sacar su propia conclusión. La línea recta puede ser conservadora, pero cuando se trata de seguridad nuclear, conservador es bueno.

Floris

1

@Floris Buen punto. Hubiera sido mejor si hubieran utilizado un diagrama de caja que mostrara no solo las frecuencias observadas sino también los intervalos de confianza para esas frecuencias. Entonces uno probablemente obtendría cajas muy estrechas a la izquierda en el diagrama y cajas muy anchas a la derecha. (Tales intervalos de confianza se pueden calcular suponiendo que cada frecuencia sigue una distribución de Poisson.)

user763305

3

@ user763305: sí, estoy bastante seguro de que agregar intervalos de confianza mostraría que una línea recta no es inconsistente con los datos (o, en otras palabras, que no puede rechazar la hipótesis nula de que los datos siguen una línea recta).

Floris

15

"¡Agh! Pat se va de la compañía. ¿Cómo vamos a encontrar un reemplazo?"

Oferta de trabajo:

Se busca: ingeniero eléctrico. Persona andrógina de 42 años con títulos en Ingeniería Eléctrica, matemáticas y ganadería. Debe tener 68 pulgadas de alto con cabello castaño, un lunar sobre el ojo izquierdo y propenso a largas diatribas sin aliento contra los gansos y al mal uso de la palabra 'consejo'.

En un sentido matemático, el sobreajuste a menudo se refiere a hacer un modelo con más parámetros de los necesarios, lo que resulta en un mejor ajuste para un conjunto de datos específico, pero sin capturar detalles relevantes necesarios para otros conjuntos de datos de la clase de interés.

En el ejemplo anterior, el póster no puede diferenciar las características relevantes de las irrelevantes. Las calificaciones resultantes probablemente solo las cumpla la persona que ya sabe que es adecuada para el trabajo (pero que ya no la quiere).

Mark Borgerding
fuente

8

Si bien es entretenida, esta respuesta no proporciona una idea de lo que significa sobreajustar en un sentido estadístico. Quizás podría ampliar su respuesta para aclarar la relación entre estos atributos muy particulares y el modelado estadístico.

Sycorax

+1 marca. Estoy de acuerdo con @ user777 solo en pequeña medida. Tal vez una oración traerá el ejemplo conciso a casa. Pero agregar demasiado eliminará la simplicidad.

ndoogan

Creo que esta es una gran respuesta: exhibe el tipo muy común de sobreajuste que esencialmente memoriza los datos de entrenamiento, especialmente el caso común cuando la cantidad de datos de entrenamiento es insuficiente para saturar el poder expresivo del modelo.

Ken Williams

14

Este está inventado, pero espero que ilustre el caso.

Ejemplo 1

$k=100$ $n=100$

set.seed(123)
k <- 100
data <- replicate(k, rnorm(100))
colnames(data) <- make.names(1:k)
data <- as.data.frame(data)

Ahora, ajustemos una regresión lineal:

fit <- lm(X1 ~ ., data=data)

Y aquí hay un resumen de los primeros diez predictores:

> summary(fit)

Call:
lm(formula = X1 ~ ., data = data)

Residuals:
ALL 100 residuals are 0: no residual degrees of freedom!

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.502e-01         NA      NA       NA
X2           3.153e-02         NA      NA       NA
X3          -6.200e-01         NA      NA       NA
X4           7.087e-01         NA      NA       NA
X5           4.392e-01         NA      NA       NA
X6           2.979e-01         NA      NA       NA
X7          -9.092e-02         NA      NA       NA
X8          -5.783e-01         NA      NA       NA
X9           5.965e-01         NA      NA       NA
X10         -8.289e-01         NA      NA       NA
...
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 99 and 0 DF,  p-value: NA

Los resultados parecen bastante extraños, pero vamos a trazarlo.

ingrese la descripción de la imagen aquí

$X_1$ $X_1$

> sum(abs(data$X1-fitted(fit)))
[1] 0

Es cero, por lo que las tramas no nos estaban mintiendo: el modelo se ajusta perfectamente. ¿Y qué tan preciso es en la clasificación?

> sum(data$X1==fitted(fit))
[1] 100

$X_1$

Ejemplo 2

Un ejemplo mas. Vamos a inventar algunos datos más:

data2 <- cbind(1:10, diag(10))
colnames(data2) <- make.names(1:11)
data2 <- as.data.frame(data2)

así se ve así:

   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
1   1  1  0  0  0  0  0  0  0   0   0
2   2  0  1  0  0  0  0  0  0   0   0
3   3  0  0  1  0  0  0  0  0   0   0
4   4  0  0  0  1  0  0  0  0   0   0
5   5  0  0  0  0  1  0  0  0   0   0
6   6  0  0  0  0  0  1  0  0   0   0
7   7  0  0  0  0  0  0  1  0   0   0
8   8  0  0  0  0  0  0  0  1   0   0
9   9  0  0  0  0  0  0  0  0   1   0
10 10  0  0  0  0  0  0  0  0   0   1

y ahora vamos a ajustar una regresión lineal a esto:

fit2 <- lm(X1~., data2)

entonces obtenemos las siguientes estimaciones:

> summary(fit2)

Call:
lm(formula = X1 ~ ., data = data2)

Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)       10         NA      NA       NA
X2                -9         NA      NA       NA
X3                -8         NA      NA       NA
X4                -7         NA      NA       NA
X5                -6         NA      NA       NA
X6                -5         NA      NA       NA
X7                -4         NA      NA       NA
X8                -3         NA      NA       NA
X9                -2         NA      NA       NA
X10               -1         NA      NA       NA
X11               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 9 and 0 DF,  p-value: NA

$R^2 = 1$ $X_1$

X_{1} = 10 + X_{2} \times - 9 9 + X_{3} \times - 8 + X_{4 4} \times - 7 7 + X_{5 5} \times - 6 6 + X_{6 6} \times - 5 5 + X_{7 7} \times - 4 4 + X_{8} \times - 3 + X_{9 9} \times - 2

$X_1 = 10 + X_2 \times -9 + X_3 \times -8 + X_4 \times -7 + X_5 \times -6 + X_6 \times -5 + X_7 \times -4 + X_8 \times -3 + X_9 \times -2$

$X_1 = 1$

10 + 1 \times - 9 9 + 0 0 \times - 8 + 0 0 \times - 7 7 + 0 0 \times - 6 6 + 0 0 \times - 5 5 + 0 0 \times - 4 4 + 0 0 \times - 3 + 0 0 \times - 2

$10 + 1 \times -9 + 0 \times -8 + 0 \times -7 + 0 \times -6 + 0 \times -5 + 0 \times -4 + 0 \times -3 + 0 \times -2$

Es bastante autoexplicativo. Puede pensar en el Ejemplo 1 como similar al Ejemplo 2 pero con algo de "ruido" agregado. Si tiene datos lo suficientemente grandes y los utiliza para "predecir" algo, a veces una sola "característica" puede convencerlo de que tiene un "patrón" que describe bien su variable dependiente, aunque podría ser solo una coincidencia. En el Ejemplo 2, nada se predice realmente, pero exactamente en el Ejemplo 1 sucedió exactamente lo mismo, solo los valores de las variables fueron diferentes.

Ejemplos de la vida real

El ejemplo de la vida real para esto es predecir ataques terroristas el 11 de septiembre de 2001 al observar "patrones" en números dibujados al azar por generadores de números pseudoaleatorios por computadora por Global Consciousness Project o "mensajes secretos" en "Moby Dick" que revelan hechos sobre asesinatos de personas famosas (inspirado por hallazgos similares en la Biblia ).

Conclusión

Si te fijas lo suficiente, encontrarás "patrones" para cualquier cosa. Sin embargo, esos patrones no te permitirán aprender nada sobre el universo y no te ayudarán a llegar a conclusiones generales. Se ajustarán perfectamente a sus datos, pero serían inútiles ya que no se adaptarán a nada más que a los datos en sí. No le permitirán hacer predicciones razonables fuera de la muestra, porque lo que harían es preferir imitar a describir los datos.

Tim
fuente

55

Sugeriría poner los ejemplos de la vida real en la parte superior de esta respuesta. Esa es la parte que realmente es relevante para la pregunta: el resto es salsa.

shadowtalker

8

Un problema común que resulta en un sobreajuste en la vida real es que, además de los términos para un modelo especificado correctamente, es posible que hayamos agregado algo extraño: poderes irrelevantes (u otras transformaciones) de los términos correctos, variables irrelevantes o interacciones irrelevantes.

Esto sucede en la regresión múltiple si agrega una variable que no debería aparecer en el modelo especificado correctamente pero no desea descartarla porque tiene miedo de inducir un sesgo de variable omitido . Por supuesto, no tiene forma de saber que lo ha incluido erróneamente, ya que no puede ver a toda la población, solo su muestra, por lo que no puede saber con certeza cuál es la especificación correcta. (Como señala @Scortchi en los comentarios, puede que no exista una especificación de modelo "correcta"; en ese sentido, el objetivo del modelado es encontrar una especificación "suficientemente buena"; evitar el sobreajuste implica evitar una complejidad del modelo mayor de lo que puede sostenerse de los datos disponibles.) Si desea un ejemplo real de sobreajuste, esto sucede cada vezUsted arroja todos los predictores potenciales a un modelo de regresión, en caso de que alguno de ellos no tenga relación con la respuesta una vez que los efectos de los demás se hayan eliminado.

Con este tipo de sobreajuste, la buena noticia es que la inclusión de estos términos irrelevantes no introduce sesgo en sus estimadores, y en muestras muy grandes los coeficientes de los términos irrelevantes deberían ser cercanos a cero. Pero también hay malas noticias: dado que la información limitada de su muestra ahora se está utilizando para estimar más parámetros, solo puede hacerlo con menos precisión, por lo que aumentan los errores estándar en los términos genuinamente relevantes. Eso también significa que es probable que estén más lejos de los valores verdaderos que las estimaciones de una regresión especificada correctamente, lo que a su vez significa que si se les dan nuevos valores de sus variables explicativas, las predicciones del modelo sobreajustado tenderán a ser menos precisas que para El modelo especificado correctamente.

Aquí hay una gráfica del logaritmo del PIB frente a la población logarítmica de 50 estados de EE. UU. En 2010. Se seleccionó una muestra aleatoria de 10 estados (resaltada en rojo) y para esa muestra ajustamos un modelo lineal simple y un polinomio de grado 5. Para la muestra puntos, el polinomio tiene grados adicionales de libertad que le permiten "moverse" más cerca de los datos observados que la línea recta. Pero los 50 estados en su conjunto obedecen a una relación casi lineal, por lo que el rendimiento predictivo del modelo polinómico en los 40 puntos fuera de la muestra es muy pobre en comparación con el modelo menos complejo, particularmente cuando se extrapola. El polinomio se ajustaba efectivamente a parte de la estructura aleatoria (ruido) de la muestra, que no se generalizaba a la población en general. Fue particularmente pobre en la extrapolación más allá del rango observado de la muestra.esta revisión de esta respuesta.)

Extrapolación de modelo excesivamente complejo

R $y_i = 2x_{1,i} + 5 + \epsilon_i$ $x_2$ $x_3$ $x_1$ $x_2$ $x_3$

require(MASS) #for multivariate normal simulation    
nsample <- 25   #sample to regress 
nholdout <- 1e6  #to check model predictions
Sigma <- matrix(c(1, 0.5, 0.4, 0.5, 1, 0.3, 0.4, 0.3, 1), nrow=3)
df <- as.data.frame(mvrnorm(n=(nsample+nholdout), mu=c(5,5,5), Sigma=Sigma))
colnames(df) <- c("x1", "x2", "x3")
df$y <- 5 + 2 * df$x1 + rnorm(n=nrow(df)) #y = 5 + *x1 + e

holdout.df <- df[1:nholdout,]
regress.df <- df[(nholdout+1):(nholdout+nsample),]

overfit.lm <- lm(y ~ x1*x2*x3, regress.df)
correctspec.lm <- lm(y ~ x1, regress.df)
summary(overfit.lm)
summary(correctspec.lm)

holdout.df$overfitPred <- predict.lm(overfit.lm, newdata=holdout.df)
holdout.df$correctSpecPred <- predict.lm(correctspec.lm, newdata=holdout.df)
with(holdout.df, sum((y - overfitPred)^2)) #SSE
with(holdout.df, sum((y - correctSpecPred)^2))

require(ggplot2)
errors.df <- data.frame(
    Model = rep(c("Overfitted", "Correctly specified"), each=nholdout),
    Error = with(holdout.df, c(y - overfitPred, y - correctSpecPred)))
ggplot(errors.df, aes(x=Error, color=Model)) + geom_density(size=1) +
    theme(legend.position="bottom")

Aquí están mis resultados de una ejecución, pero es mejor ejecutar la simulación varias veces para ver el efecto de diferentes muestras generadas.

>     summary(overfit.lm)

Call:
lm(formula = y ~ x1 * x2 * x3, data = regress.df)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.22294 -0.63142 -0.09491  0.51983  2.24193 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.85992   65.00775   0.290    0.775
x1          -2.40912   11.90433  -0.202    0.842
x2          -2.13777   12.48892  -0.171    0.866
x3          -1.13941   12.94670  -0.088    0.931
x1:x2        0.78280    2.25867   0.347    0.733
x1:x3        0.53616    2.30834   0.232    0.819
x2:x3        0.08019    2.49028   0.032    0.975
x1:x2:x3    -0.08584    0.43891  -0.196    0.847

Residual standard error: 1.101 on 17 degrees of freedom
Multiple R-squared: 0.8297,     Adjusted R-squared: 0.7596 
F-statistic: 11.84 on 7 and 17 DF,  p-value: 1.942e-05

$x_1$ $R^2$

>     summary(correctspec.lm)

Call:
lm(formula = y ~ x1, data = regress.df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4951 -0.4112 -0.2000  0.7876  2.1706 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.7844     1.1272   4.244 0.000306 ***
x1            1.9974     0.2108   9.476 2.09e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.036 on 23 degrees of freedom
Multiple R-squared: 0.7961,     Adjusted R-squared: 0.7872 
F-statistic:  89.8 on 1 and 23 DF,  p-value: 2.089e-09

$R^2$ $R^2$

>     with(holdout.df, sum((y - overfitPred)^2)) #SSE
[1] 1271557
>     with(holdout.df, sum((y - correctSpecPred)^2))
[1] 1052217

$R^2$ $\hat{y}$ $y$ (y tenía más grados de libertad para hacerlo que el modelo especificado correctamente, por lo que podría producir un "mejor" ajuste). Mire la Suma de errores al cuadrado para las predicciones en el conjunto de reserva, que no usamos para estimar los coeficientes de regresión, y podemos ver cuánto peor ha funcionado el modelo sobreajustado. En realidad, el modelo correctamente especificado es el que hace las mejores predicciones. No debemos basar nuestra evaluación del desempeño predictivo en los resultados del conjunto de datos que usamos para estimar los modelos. Aquí hay una gráfica de densidad de los errores, con la especificación correcta del modelo que produce más errores cercanos a 0:

Errores de predicción en conjunto de reserva

La simulación representa claramente muchas situaciones relevantes de la vida real (solo imagine cualquier respuesta de la vida real que dependa de un solo predictor, e imagine incluir "predictores" extraños en el modelo) pero tiene el beneficio de que puede jugar con el proceso de generación de datos , los tamaños de muestra, la naturaleza del modelo sobreajustado, etc. Esta es la mejor manera de examinar los efectos del sobreajuste, ya que para los datos observados generalmente no tiene acceso al DGP, y todavía son datos "reales" en el sentido de que puede examinarlos y usarlos. Aquí hay algunas ideas valiosas con las que debería experimentar:

Ejecute la simulación varias veces y vea cómo difieren los resultados. Encontrará más variabilidad utilizando tamaños de muestra pequeños que grandes.
n <- 1e6 $x_1$
Intente reducir la correlación entre las variables predictoras jugando con los elementos fuera de la diagonal de la matriz de varianza-covarianza Sigma. Solo recuerde mantenerlo positivo semi-definido (que incluye ser simétrico). Debería encontrar que si reduce la multicolinealidad, el modelo sobreajustado no funciona tan mal. Pero tenga en cuenta que los predictores correlacionados ocurren en la vida real.
Intente experimentar con la especificación del modelo sobreajustado. ¿Qué pasa si incluye términos polinomiales?
$y$ df$y <- 5 + 2*df$x1 + rnorm(n=nrow(df)) $y$ $x_i$
$y$ $x_2$ $x3$ $x_1$ df$y <- 5 + 2 * df$x1 + 0.1*df$x2 + 0.1*df$x3 + rnorm(n=nrow(df)) $x_2$ $x_3$ $x$ $x_1$ $x_2$ $x_3$ nsample <- 25 $x_1$ $x_2$ $x_3$ nsample <- 1e6, puede estimar los efectos más débiles bastante bien, y las simulaciones muestran que el modelo complejo tiene un poder predictivo que supera al simple. Esto muestra cómo el "sobreajuste" es un problema tanto de la complejidad del modelo como de los datos disponibles.

Silverfish
fuente

1

(-1) Es bastante importante comprender que el sobreajuste no solo resulta de la inclusión de términos "irrelevantes" o "extraños" que no aparecerían en un modelo especificado correctamente. De hecho, podría argumentarse que en muchas aplicaciones la idea de un modelo verdadero simple no tiene mucho sentido y el desafío del modelado predictivo es construir un modelo cuya complejidad sea proporcional a la cantidad de datos disponibles.

Scortchi

1

Enviaré su foto a mi congresista en apoyo de la reforma migratoria

prototipo del

1

(+1) Creo que las ediciones mejoran la explicación del sobreajuste sin sacrificar la comprensibilidad.

Scortchi

1

@ Aksakal Intenté abordar la pregunta: "Necesito ayuda sobre cómo encontrar un ejemplo del mundo real que se aplique al sobreajuste". No está claro si se le pidió a OP que buscara un artículo publicado que se ajustara demasiado, o, un significado más natural de "inventar", para construir su propio ejemplo. Si el sobreajuste es malo, ¿por qué en la vida real alguien sobreajustaría? Mi respuesta es que un analista puede preferir errar en un modelo sobreespecificado frente a un modelo poco especificado (por temor a OVB o sospecha de que una relación es curvilínea) es un buen ejemplo. El gráfico / simulación simplemente muestra la consecuencia: mala predicción fuera de la muestra

Silverfish

1

@ Aksakal No me queda claro que un modelo polinómico sea "irreal" para el gráfico. La característica dominante es lineal, pero ¿sabemos que es completamente lineal? Si tuviéramos acceso a un hipotético millón de unidades políticas y tuviera que arriesgar mi vida de cualquier manera, preferiría apostar que detectaríamos una ligera relación curvilínea que todos los términos polinómicos serían insignificantes. A pesar de esto, ajustando a n bajo, solo un modelo lineal evita el sobreajuste. (No podemos resolver esto debido a la dificultad de muestreo de la población teóricamente infinita de "posibles estados de Estados Unidos"; ¡esta es una ventaja de los datos simulados!)

Silverfish

4

Cuando intentaba entender esto por mí mismo, comencé a pensar en términos de analogías con la descripción de objetos reales, así que supongo que es lo más "real" que puedes obtener, si quieres entender la idea general:

Digamos que desea describir a alguien el concepto de una silla, para que obtenga un modelo conceptual que le permita predecir si un nuevo objeto que encuentra es una silla. Vas a Ikea y obtienes una muestra de sillas, y comienzas a describirlas usando dos variables: es un objeto con 4 patas donde puedes sentarte. Bueno, eso también puede describir un taburete o una cama o muchas otras cosas. Su modelo no está ajustado, como si fuera a tratar de modelar una distribución compleja con muy pocas variables: muchas cosas que no son de silla se identificarán como sillas. Entonces, aumentemos el número de variables, agreguemos que el objeto debe tener un respaldo, por ejemplo. Ahora tiene un modelo bastante aceptable que describe su conjunto de sillas, pero es lo suficientemente general como para permitir que un nuevo objeto se identifique como uno. Su modelo describe los datos y puede hacer predicciones. Sin embargo, supongamos que tiene un juego donde todas las sillas son negras o blancas, y están hechas de madera. Decide incluir esas variables en su modelo y, de repente, no identificará una silla amarilla de plástico como silla. Por lo tanto, ha sobreajustado su modelo, ha incluido características de su conjunto de datos como si fueran características de sillas en general (si lo prefiere, ha identificado "ruido" como "señal", interpretando la variación aleatoria de su muestra como una característica de todas las "sillas del mundo real"). Por lo tanto, puede aumentar su muestra y esperar incluir material y colores nuevos, o disminuir el número de variables en sus modelos. t identifique una silla amarilla de plástico como una silla. Por lo tanto, ha sobreajustado su modelo, ha incluido características de su conjunto de datos como si fueran características de sillas en general (si lo prefiere, ha identificado "ruido" como "señal", interpretando la variación aleatoria de su muestra como una característica de todas las "sillas del mundo real"). Por lo tanto, puede aumentar su muestra y esperar incluir material y colores nuevos, o disminuir el número de variables en sus modelos. t identifique una silla amarilla de plástico como una silla. Por lo tanto, ha sobreajustado su modelo, ha incluido características de su conjunto de datos como si fueran características de sillas en general (si lo prefiere, ha identificado "ruido" como "señal", interpretando la variación aleatoria de su muestra como una característica de todas las "sillas del mundo real"). Por lo tanto, puede aumentar su muestra y esperar incluir material y colores nuevos, o disminuir el número de variables en sus modelos.

Esto puede ser una analogía simplista y un desglose bajo un mayor escrutinio, pero creo que funciona como una conceptualización general ... Avíseme si alguna parte necesita aclaración.

joaofm
fuente

¿Podría explicar con más detalle la idea de "ruido" y "señal" y el hecho de que el modelo sobreajustado describe el ruido porque tengo problemas para entender esto.

quirik

4

En el modelado predictivo, la idea es utilizar los datos disponibles para descubrir las tendencias que existen y que pueden generalizarse a datos futuros. Al incluir variables en su modelo que tienen un efecto menor y no significativo, está abandonando esta idea. Lo que está haciendo es considerar las tendencias específicas en su muestra específica que solo están allí debido al ruido aleatorio en lugar de una verdadera tendencia subyacente. En otras palabras, un modelo con demasiadas variables se ajusta al ruido en lugar de descubrir la señal.

Aquí hay una ilustración exagerada de lo que estoy hablando. Aquí los puntos son los datos observados y la línea es nuestro modelo. Mira que encaja perfectamente, ¡qué gran modelo! ¿Pero realmente descubrimos la tendencia o simplemente nos estamos adaptando al ruido? Probablemente el último.

ingrese la descripción de la imagen aquí

TrynnaDoStat
fuente

4

Una forma de sobreajuste es bastante común en los deportes, a saber, identificar patrones para explicar resultados pasados por factores que no tienen o en el mejor de los casos un poder vago para predecir resultados futuros. Una característica común de estos "patrones" es que a menudo se basan en muy pocos casos, por lo que la casualidad es probablemente la explicación más plausible del patrón.

Los ejemplos incluyen cosas como (las "citas" están hechas por mí, pero a menudo se parecen)

El equipo A ha ganado todos los juegos X desde que el entrenador comenzó a usar su chaqueta roja mágica.

Similar:

No nos afeitaremos durante los playoffs, porque eso nos ha ayudado a ganar los últimos X juegos.

Menos supersticioso, pero también una forma de sobreajuste:

El Borussia Dortmund nunca perdió un partido en casa de la Liga de Campeones ante un oponente español cuando perdió el partido anterior de la Bundesliga por más de dos goles, al haber marcado al menos una vez.

Similar:

Roger Federer ha ganado todas sus apariciones en la Copa Davis ante oponentes europeos cuando al menos había llegado a las semifinales en el Abierto de Australia de ese año.

Los dos primeros son tonterías bastante obvias (al menos para mí). Los dos últimos ejemplos pueden perfectamente ser válidos en la muestra (es decir, en el pasado), pero me encantaría apostar contra un oponente que permitiría que esta "información" afecte sustancialmente sus probabilidades de que Dortmund venza a Madrid si pierde 4: 1 en Schalke el sábado anterior o Federer venció a Djokovic, incluso si ganó el Abierto de Australia ese año.

Christoph Hanck
fuente

3

Aquí hay un ejemplo del "mundo real", no en el sentido de que alguien lo encontró en la investigación, sino en el sentido de que utiliza conceptos cotidianos sin muchos términos estadísticos específicos. Tal vez esta forma de decirlo sea más útil para algunas personas cuya capacitación es en otros campos.

Imagine que tiene una base de datos con datos sobre pacientes con una enfermedad rara. Usted es un estudiante graduado de medicina y desea ver si puede reconocer los factores de riesgo para esta enfermedad. Ha habido 8 casos de la enfermedad en este hospital, y usted ha registrado 100 datos aleatorios sobre ellos: edad, raza, orden de nacimiento, si tuvieron sarampión cuando eran niños, lo que sea. También ha registrado los datos de 8 pacientes sin esta enfermedad.

Decide utilizar la siguiente heurística para los factores de riesgo: si un factor toma un valor dado en más de uno de sus pacientes enfermos, pero en 0 de sus controles, lo considerará un factor de riesgo. (En la vida real, usarías un método mejor, pero quiero que sea simple). Usted descubre que 6 de sus pacientes son vegetarianos (pero ninguno de los controles es vegetariano), 3 tienen antepasados suecos y dos de ellos tienen un tartamudeo tartamudo. Fuera de los otros 97 factores, no hay nada que ocurra en más de un paciente, pero no está presente entre los controles.

Años más tarde, alguien más se interesa por esta enfermedad huérfana y replica su investigación. Debido a que trabaja en un hospital más grande, que tiene una cooperación para compartir datos con otros hospitales, puede usar datos sobre 106 casos, en lugar de sus 8 casos. Y descubre que la prevalencia de tartamudos es la misma en el grupo de pacientes y en el grupo de control; la tartamudez no es un factor de riesgo.

Lo que sucedió aquí es que su pequeño grupo tenía un 25% de tartamudos por azar. Su heurística no tenía forma de saber si esto es médicamente relevante o no. Le dio criterios para decidir cuándo considera un patrón en los datos lo suficientemente "interesante" como para ser incluido en el modelo, y de acuerdo con estos criterios, la tartamudez fue lo suficientemente interesante.

Su modelo ha sido sobreajustado porque incluyó por error un parámetro que no es realmente relevante en el mundo real. Se ajusta a su muestra, los 8 pacientes + 8 controles, muy bien, pero no se ajusta a los datos del mundo real. Cuando un modelo describe su muestra mejor de lo que describe la realidad, se llama sobreajustado.

Si hubiera elegido un umbral de 3 de 8 pacientes con una característica, no habría sucedido, pero habría tenido una mayor probabilidad de perder algo realmente interesante. Especialmente en medicina, donde muchas enfermedades solo suceden en una pequeña fracción de personas que exhiben un factor de riesgo, es una compensación difícil de lograr. Y hay métodos para evitarlo (básicamente, compare con una segunda muestra y vea si el poder explicativo permanece igual o cae), pero este es un tema para otra pregunta.

rumtscho
fuente

Muy reminiscente de xkcd.com/882

Floris

3

Aquí hay un ejemplo de sobreajuste en la vida real que ayudé a perpetrar y luego intenté (sin éxito) evitar:

Tenía varios miles de series temporales independientes y bivariadas, cada una con no más de 50 puntos de datos, y el proyecto de modelado implicaba ajustar un autorregresión vectorial (VAR) a cada una. No se intentó regularizar las observaciones, estimar los componentes de la varianza ni nada de eso. Los puntos de tiempo se midieron en el transcurso de un solo año, por lo que los datos estaban sujetos a todo tipo de efectos estacionales y cíclicos que solo aparecían una vez en cada serie de tiempo.

Un subconjunto de los datos exhibió una tasa increíblemente alta de causalidad de Granger en comparación con el resto de los datos. Las comprobaciones puntuales revelaron que los picos positivos estaban ocurriendo uno o dos rezagos en este subconjunto, pero fue claro por el contexto que ambos picos fueron causados directamente por una fuente externa y que un pico no estaba causando al otro. Los pronósticos fuera de la muestra que usan estos modelos probablemente estarían bastante equivocados, porque los modelos estaban sobreajustados: en lugar de "suavizar" los picos promediando el resto de los datos, hubo pocas observaciones suficientes de que los picos realmente estaban conduciendo Las estimaciones.

En general, no creo que el proyecto haya salido mal, pero no creo que haya producido resultados que fueran tan útiles como podrían haber sido. Parte de la razón de esto es que el procedimiento de VAR independientes de muchos, incluso con solo uno o dos retrasos, estaba teniendo dificultades para distinguir entre datos y ruido, por lo que se ajustaba a este último a expensas de proporcionar información sobre el ex.

Shadowtalker
fuente

1

Muchas personas inteligentes en este hilo --- mucho más versado en estadísticas que yo. Pero todavía no veo un ejemplo fácil de entender para el laico. El ejemplo presidencial no alcanza la factura en términos de sobreajuste típico, porque si bien técnicamente está sobreajustando en cada una de sus afirmaciones salvajes, generalmente un modelo sobreajustado sobreajusta el ruido dado, no solo un elemento de él.

Realmente me gusta el gráfico en la explicación de compensación de la variación de sesgo en wikipedia: http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

(El gráfico más bajo es el ejemplo de sobreajuste).

Me cuesta mucho pensar en un ejemplo del mundo real que no suene como un mumbo-jumbo completo. La idea es que los datos son en parte causados por variables mensurables y comprensibles, en parte ruido aleatorio. Intentar modelar este ruido como un patrón te da inexactitud.

Un ejemplo clásico es el modelado basado SOLO en R ^ 2 en MS Excel (está intentando ajustar una ecuación / modelo literalmente lo más cerca posible de los datos usando polinomios, sin importar cuán absurdas sean).

Digamos que está tratando de modelar las ventas de helados en función de la temperatura. Tienes datos del "mundo real". Traza los datos e intenta maximizar R ^ 2. Si utiliza datos del mundo real, la ecuación de ajuste más cercana no es lineal ni cuadrática (lo que tendría sentido lógico). Como casi todas las ecuaciones, cuantos más términos polinómicos sin sentido agregue (x ^ 6 -2x ^ 5 + 3x ^ 4 + 30x ^ 3-43.2x ^ 2-29x), más se ajustará a los datos. Entonces, ¿cómo relaciona eso sensiblemente la temperatura con las ventas de helados? ¿Cómo explicarías ese polinomio ridículo? La verdad es que no es el verdadero modelo. Has sobreajustado los datos.

Está tomando en cuenta el ruido, que puede deberse a promociones de ventas o alguna otra variable o "ruido" como una mariposa batiendo sus alas en el cosmos (algo nunca predecible) --- e intentó modelar eso en función de la temperatura. Ahora, por lo general, si su ruido / error no promedia a cero o está auto correlacionado, etc., significa que hay más variables por ahí --- y, finalmente, puede obtener un ruido distribuido generalmente al azar, pero aún así, eso es lo mejor que puedo explícalo.

John Babson
fuente

2

Los 'modelos' más tarde en el cómic Presidencial no encajan todo el ruido determinado.

Ben Voigt

El cómic no es análogo a los escenarios más ajustados en mi opinión, a pesar de que las reglas ridículas predecirían con precisión a todos los presidentes anteriores. La mayoría de los pronósticos no predicen una variable dicotómica. También menciona con humor la misma regla que se romperá en las próximas elecciones: en otras palabras, el modelo sobreajustado se garantiza incorrectamente todo el tiempo, lo que lo convierte en un predictor perfecto del futuro. La mayoría de los modelos sobreajustados no se basan en 1 variable errónea que puede ser probada por ser extraña, generalmente se basa en demasiadas variables en el modelo, todo al azar arrojado para reducir R ^ 2.

John Babson

0

La mayoría de los métodos de optimización tienen algunos factores falsos, también conocidos como hiperparámetros. Un verdadero ejemplo:

$N_{min} = 5,\ \ f_{inc} = 1.1,\ \ f_{dec} = 0.5,\ \ \alpha_{start} = 0.1, \ \ f_{\alpha} = 0.99.$

¿Esto es demasiado adecuado o simplemente se ajusta a un conjunto particular de problemas?

denis
fuente

0

Estudiar para un examen memorizando las respuestas al examen del año pasado.

Ingolifs
fuente

0

Mi favorita es la "fórmula 3964" descubierta antes de la competición de fútbol de la Copa Mundial en 1998:

Brasil ganó los campeonatos en 1970 y 1994. Suma estos 2 números y obtendrás 3964; Alemania ganó en 1974 y 1990, sumando nuevamente a 3964; lo mismo con Argentina ganando en 1978 y 1986 (1978 + 1986 = 3964).

Este es un hecho muy sorprendente, pero todos pueden ver que no es aconsejable basar ninguna predicción futura en esa regla. Y de hecho, la regla establece que el ganador de la Copa del Mundo en 1998 debería haber sido Inglaterra desde 1966 + 1998 = 3964 e Inglaterra ganó en 1966. Esto no sucedió y el ganador fue Francia.

sdd
fuente

-2

Un poco intuitivo, pero tal vez ayude. Digamos que quieres aprender un nuevo idioma. ¿Como aprendiste? en lugar de aprender las reglas en un curso, usa ejemplos. Específicamente, programas de televisión. Entonces te gustan los programas de crimen y ves algunas series de algún programa de policías. Luego, tomas otro programa de crimen y ves algunas series de ese. En el tercer programa que ves, ya sabes casi todo, no hay problema. No necesitas los subtítulos en inglés.

Pero luego prueba su idioma recién aprendido en la calle en su próxima visita, y se da cuenta de que no puede hablar de otra cosa que decir "¡oficial! ¡Ese hombre tomó mi bolso y le disparó a esa señora!". Si bien su 'error de entrenamiento' fue cero, su 'error de prueba' es alto, debido a 'sobreajustar' el idioma, estudiar solo un subconjunto limitado de palabras y asumir que es suficiente.

yoki
fuente

8

Eso no es un ajuste excesivo, es solo aprender un subconjunto de idiomas. El sobreajuste sería si después de ver el crimen te muestra que aprendes un idioma completo, pero extraño, que coincide con el inglés en todos los temas relacionados con el crimen, pero es un galimatías total (o tal vez chino) cuando hablas sobre cualquier otro tema.

ameba

¿Qué es un ejemplo del mundo real de "sobreajuste"?

Respuestas: