¿Por qué solemos elegir minimizar la suma de los errores cuadrados (SSE) al ajustar un modelo?

23

La pregunta es muy simple: ¿por qué, cuando tratamos de ajustar un modelo a nuestros datos, lineales o no lineales, generalmente tratamos de minimizar la suma de los cuadrados de errores para obtener nuestro estimador para el parámetro del modelo? ¿Por qué no elegir alguna otra función objetivo para minimizar? Entiendo que, por razones técnicas, la función cuadrática es mejor que algunas otras funciones, por ejemplo, la suma de la desviación absoluta. Pero esta todavía no es una respuesta muy convincente. Aparte de esta razón técnica, ¿por qué en particular las personas están a favor de este 'tipo euclidiano' de función de distancia? ¿Hay un significado o interpretación específica para eso?

La lógica detrás de mi pensamiento es la siguiente:

Cuando tiene un conjunto de datos, primero configura su modelo haciendo un conjunto de supuestos funcionales o de distribución (por ejemplo, alguna condición de momento pero no la distribución completa). En su modelo, hay algunos parámetros (suponga que es un modelo paramétrico), luego necesita encontrar una manera de estimar estos parámetros de manera consistente y, con suerte, su estimador tendrá una varianza baja y algunas otras propiedades agradables. Ya sea que minimice el SSE o LAD o alguna otra función objetivo, creo que son solo métodos diferentes para obtener un estimador consistente. Siguiendo esta lógica, pensé que la gente usa el mínimo cuadrado debe ser 1) produce un estimador consistente del modelo 2) algo más que no sé.

En econometría, sabemos que en el modelo de regresión lineal, si asume que los términos de error tienen 0 condicionamiento medio en los predictores y la homocedasticidad y los errores no están correlacionados entre sí, entonces minimizar la suma del error cuadrado le dará un estimador CONSISTENTE de su modelo parámetros y según el teorema de Gauss-Markov, este estimador es AZUL. Por lo tanto, esto sugeriría que si elige minimizar alguna otra función objetivo que no sea el SSE, entonces no hay garantía de que obtendrá un estimador consistente del parámetro de su modelo. ¿Es correcto mi entendimiento? Si es correcto, minimizar la SSE en lugar de alguna otra función objetiva puede justificarse por la consistencia, que es aceptable, de hecho, mejor que decir que la función cuadrática es más agradable.

En la práctica, en realidad vi muchos casos en los que las personas minimizan directamente la suma de los errores cuadrados sin especificar claramente primero el modelo completo, por ejemplo, los supuestos de distribución (supuestos de momento) en el término de error. Entonces esto me parece que el usuario de este método solo quiere ver qué tan cerca se ajustan los datos al 'modelo' (uso comillas, ya que los supuestos del modelo son probablemente incompletos) en términos de la función de distancia cuadrada.

Una pregunta relacionada (también relacionada con este sitio web) es: ¿por qué, cuando intentamos comparar diferentes modelos usando validación cruzada, usamos nuevamente el SSE como criterio de juicio? es decir, elija el modelo que tenga menos SSE? ¿Por qué no otro criterio?

KevinKim
fuente
Relacionado: stats.stackexchange.com/questions/147001
ameba dice Reinstate Monica

Respuestas:

14

Si bien su pregunta es similar a una serie de otras preguntas en el sitio, los aspectos de esta pregunta (como su énfasis en la coherencia) me hacen pensar que no están lo suficientemente cerca de ser duplicados.

¿Por qué no elegir alguna otra función objetivo para minimizar?

¿Por qué no, de hecho? Si su objetivo es diferente de los mínimos cuadrados, ¡debe abordar su objetivo en su lugar!

Sin embargo, los mínimos cuadrados tienen una serie de buenas propiedades (entre otras, una conexión íntima con los medios de estimación , que muchas personas desean, y una simplicidad que lo convierte en una primera opción obvia cuando se enseña o se intenta implementar nuevas ideas).

Además, en muchos casos las personas no tienen una función objetiva clara, por lo que hay una ventaja en elegir lo que está fácilmente disponible y ampliamente entendido.

Dicho esto, los mínimos cuadrados también tienen algunas propiedades menos agradables (sensibilidad a los valores atípicos, por ejemplo), por lo que a veces las personas prefieren un criterio más sólido.

minimizar la suma del error cuadrado le dará un estimador CONSISTENTE de los parámetros de su modelo

Los mínimos cuadrados no son un requisito para la consistencia. La consistencia no es un obstáculo muy alto: muchos estimadores serán consistentes. Casi todos los estimadores que las personas usan en la práctica son consistentes.

y según el teorema de Gauss-Markov, este estimador es AZUL.

Pero en situaciones donde todos los estimadores lineales son malos (como sería el caso bajo colas pesadas extremas, por ejemplo), no hay mucha ventaja en el mejor.

Si elige minimizar alguna otra función objetivo que no sea el SSE, entonces no hay garantía de que obtendrá un estimador consistente del parámetro de su modelo. ¿Es correcto mi entendimiento?

no es difícil encontrar estimadores consistentes, así que no, eso no es una justificación especialmente buena de mínimos cuadrados

¿Por qué cuando tratamos de comparar diferentes modelos usando validación cruzada, nuevamente, usamos el SSE como criterio de juicio? [...] ¿Por qué no otro criterio?

Si su objetivo se refleja mejor en otra cosa, ¿por qué no?

No faltan personas que utilizan otras funciones objetivas que no sean cuadrados mínimos. Aparece en la estimación M, en los estimadores menos recortados, en la regresión cuantil y cuando las personas usan las funciones de pérdida de LINEX, solo por nombrar algunas.

Estaba pensando que cuando tiene un conjunto de datos, primero configura su modelo, es decir, hace un conjunto de supuestos funcionales o distributivos. En su modelo, hay algunos parámetros (suponga que es un modelo paramétrico),

Presumiblemente, los parámetros de los supuestos funcionales son lo que está tratando de estimar, en cuyo caso, los supuestos funcionales son lo que hace menos cuadrados (o cualquier otra cosa) alrededor ; no determinan el criterio, son lo que el criterio está estimando.

Por otro lado, si tiene una suposición de distribución, entonces tiene mucha información sobre una función objetivo más adecuada, presumiblemente, por ejemplo, querrá obtener estimaciones eficientes de sus parámetros, que en grandes muestras tienden a conducirlo hacia MLE (aunque posiblemente en algunos casos esté integrado en un marco robusto).

entonces necesita encontrar una manera de estimar consistentemente estos parámetros. Ya sea que minimice SSE o LAD o alguna otra función objetivo,

LAD es un estimador cuantil. Es un estimador consistente del parámetro que debería estimar en las condiciones en las que debería esperarse, de la misma manera que lo son los mínimos cuadrados. (Si observa lo que muestra consistencia con mínimos cuadrados, hay resultados correspondientes para muchos otros estimadores comunes. La gente rara vez usa estimadores inconsistentes, por lo que si ve que un estimador se discute ampliamente, a menos que estén hablando de su inconsistencia, es casi ciertamente consistente. *)

* Dicho esto, la consistencia no es necesariamente una propiedad esencial. Después de todo, para mi muestra, tengo un tamaño de muestra particular, no una secuencia de tamaños de muestra que tienden al infinito. Lo que importa son las propiedades en la que tengo, no algunas n infinitamente más grandes que no tengo y que nunca veré . Pero se requiere mucho más cuidado cuando tenemos inconsistencia: podemos tener un buen estimador en n = 20, pero puede ser terrible en n = 2000; se requiere más esfuerzo, en cierto sentido, si queremos usar estimadores consistentes.nortenortenortenorte

Si usa LAD para estimar la media de un exponencial, no será consistente para eso (aunque sería una escala trivial de su estimación), pero de la misma manera si usa mínimos cuadrados para estimar la mediana de un exponencial , no será consistente para eso (y de nuevo, un cambio de escala trivial lo arregla)

Glen_b -Reinstate a Monica
fuente
Supongo que no expresé mi preocupación claramente. Estaba pensando que cuando tienes un conjunto de datos, primero configuras tu modelo, es decir, haces un conjunto de supuestos funcionales o distributivos. En su modelo, hay algunos parámetros (suponga que es un modelo paramétrico), luego necesita encontrar una manera de estimar estos parámetros de manera consistente. Ya sea que minimice el SSE o LAD o alguna otra función objetivo, creo que son solo métodos diferentes para obtener el estimador. Siguiendo esta lógica, pensé que la gente usa el mínimo cuadrado debe ser 1) produce un estimador consistente del modelo 2) algo más
KevinKim
Presumiblemente, los parámetros de los supuestos funcionales son lo que está tratando de estimar, en cuyo caso, los supuestos funcionales son lo que hace menos cuadrados (o cualquier otra cosa) alrededor; No determinan el criterio. Por otro lado, si tiene un supuesto de distribución, entonces tiene mucha información sobre una función objetivo más adecuada, presumiblemente, por ejemplo, querrá obtener estimaciones eficientes de sus parámetros, que en grandes muestras tienden a guiarlo hacia MLE (aunque posiblemente en algunos casos esté integrado en un marco robusto).
Glen_b -Reinstate Monica
Esta respuesta se ajusta a mi mentalidad. Pero todavía tengo una pregunta, ¿qué quieres decir con "no determinan el criterio"? ¿Significa esto que, por ejemplo, en la econométrica 101 en regresión lineal, bajo el supuesto funcional (sin distribución), para obtener el estimador consistente, debe usar ols, no puede usar alguna función objetiva arbitraria para minimizar, ya que no garantía para derivar estimador consistente a partir de ahí?
KevinKim
En "no determinar", permítame ampliar mi respuesta. En consistencia: dije lo contrario en mi respuesta. Permítanme decirlo de nuevo: mínimos cuadrados no es un requisito para la coherencia. Esto incluye la situación que acaba de mencionar; Hay una infinidad de estimadores alternativos que serían consistentes. Casi todos los estimadores que las personas usan en la práctica son consistentes. Editaré mi respuesta para ser más explícito.
Glen_b: reinstala a Mónica el
para su respuesta actualizada, el último párrafo, por lo que para algunos modelos, hay algunas formas en que NO producirá parámetros consistentes para los parámetros de su modelo, aunque puede aplicar esos métodos de todos modos y el compilador le dará algunos números, ¿verdad? Entonces, ¿puedo decir que para un modelo que las personas construyen, con el fin de derivar estimadores para los parámetros en el modelo, las personas NO PUEDEN elegir arbitrariamente una función objetivo para optimizar SÓLO basándose en las buenas propiedades técnicas del mismo?
KevinKim
5

Hiciste una pregunta estadística, y espero que la respuesta de mi ingeniero de sistemas de control sea una puñalada desde una dirección lo suficientemente diferente como para ser esclarecedora.

Aquí hay un formulario de flujo de información "canónico" para la ingeniería de sistemas de control: ingrese la descripción de la imagen aquí

La "r" es para el valor de referencia. Se suma con una transformación "F" de la salida "y" para producir un error "e". Este error es la entrada para un controlador, transformada por la función de transferencia de control "C" en una entrada de control para la planta "P". Se pretende que sea lo suficientemente general como para aplicar a plantas arbitrarias. La "planta" podría ser un motor de automóvil para control de crucero, o el ángulo de entrada de un péndulo inverso.

Digamos que tiene una planta con una función de transferencia conocida con fenomenología adecuada para la siguiente discusión, un estado actual y un estado final deseado. ( tabla 2.1 pp68 ) Hay un número infinito de rutas únicas que el sistema, con diferentes entradas, podría atravesar para llegar del estado inicial al final. Los "enfoques óptimos" del ingeniero de controles de libros de texto incluyen tiempo óptimo ( tiempo más corto / explosión-explosión ), distancia óptima (trayectoria más corta), fuerza óptima (magnitud de entrada máxima más baja) y energía óptima (entrada de energía total mínima).

Al igual que hay un número infinito de caminos, hay un número infinito de "óptimos", cada uno de los cuales selecciona uno de esos caminos. Si elige un camino y dice que es mejor, entonces está eligiendo implícitamente una "medida de bondad" o "medida de optimismo".

En mi opinión personal, creo que a la gente le gusta la norma L-2 (también conocida como energía óptima, también conocido como error al cuadrado) porque es simple, fácil de explicar, fácil de ejecutar, tiene la propiedad de hacer más trabajo contra errores más grandes que los más pequeños, y se va con cero sesgo. Considere las normas de infinito h donde la varianza se minimiza y el sesgo está restringido pero no es cero. Pueden ser bastante útiles, pero son más complejos de describir y más complejos de codificar.

Creo que la norma L2, también conocida como la ruta óptima de minimización de energía, también conocido como ajuste de error al mínimo cuadrado, es fácil y en un sentido vago se ajusta a la heurística de que "los errores más grandes son más malos y los errores más pequeños son menos malos". Hay literalmente un número infinito de formas algorítmicas para formular esto, pero el error al cuadrado es una de las más convenientes. Solo requiere álgebra, para que más personas puedan entenderlo. Funciona en el espacio polinomial (popular). La energía óptima es consistente con gran parte de la física que comprende nuestro mundo percibido, por lo que "se siente familiar". Es decentemente rápido de calcular y no es demasiado horrible en la memoria.

Si tengo más tiempo, me gustaría poner imágenes, códigos o referencias bibliográficas.

EngrStudent - Restablece a Monica
fuente
1

Creo que, durante el montaje de los modelos, por lo general optan por reducir al mínimo la suma de errores al cuadrado ( ), debido al hecho de que S S E tiene una directa (negativa) relación con R 2 , un importante ajuste de bondad de ( GoF) estadística para un modelo, como sigue ( S S TSSmiSSmiR2SST es la suma de los cuadrados totales ):

R2=1-SSmiSST

R2R2RMETROSmi

R2R2SSmiSSmiPAGSRmiSS, que son relevantes para su pregunta al final de la publicación.

SSmi

Aleksandr Blekh
fuente
2
R2R2
R2R2
R2
R2
0

También puede considerar minimizar el error máximo en lugar del ajuste de mínimos cuadrados. Existe una amplia literatura sobre el tema. Para una palabra de búsqueda, intente "Tchebechev" también deletreado polinomios "Chebyshev".

David F Mayer
fuente
1
El máximo es una norma de L-infinito. Si observa Nutonian / Formulize / Eureqa, tienen un buen zoológico de funcionalidades de costos (formas de error) que incluyen error absoluto intercuartílico, error de pérdida de bisagra, ROC-AUC y diferencia firmada. formulize.nutonian.com/documentation/eureqa/general-reference/…
EngrStudent - Reinstate Monica
0

Parece que las personas usan cuadrados porque permiten estar dentro del reino de Álgebra Lineal y no tocar otras cosas más complicadas, como la optimización convexa, que es más poderosa, pero conduce a resolver problemas sin buenas soluciones de forma cerrada.

También la idea de este reino matemático que tiene el nombre de optimización convexa no se ha extendido mucho.

"... ¿Por qué nos preocupamos por el cuadrado de los artículos? Para ser honesto, porque podemos analizarlo ... Si dices que corresponde a Energía y lo compran, entonces continúa rápidamente ..." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

También aquí Stephen P. Boyd describe en 2008 que las personas usan martillo y ad hoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916

bruziuz
fuente
0

En otros comentarios:

pags(tEl |X,w,β)=norte(tEl |y(X,w),β-1)
{X,t}w es dado por
pags(tEl |X,w,β)=norte=1nortenorte(tnorteEl |y(Xnorte,w),β-1).
Maximizando la probabilidad de registro del formulario
-β2norte=1norte{y(Xnorte,w)-tnorte}2+norte2lnorteβ-norte2lnorte(2π)
es lo mismo que minimizar la probabilidad de registro negativa. Podemos descartar el segundo y el tercer término ya que son constantes con respecto aw. También el factor de escalaβ en el primer término se puede descartar, ya que un factor constante no cambia la ubicación del máximo / mínimo, dejándonos con
-12norte=1norte{y(Xnorte,w)-tnorte}2.
Por lo tanto, la ESS ha surgido como consecuencia de maximizar la probabilidad bajo el supuesto de una distribución de ruido gaussiana.
timm
fuente