¿Cuándo dejar de refinar un modelo?

15

He estado estudiando estadísticas de muchos libros durante los últimos 3 años, y gracias a este sitio aprendí mucho. Sin embargo, una pregunta fundamental sigue sin respuesta para mí. Puede tener una respuesta muy simple o muy difícil, pero sé con certeza que requiere una comprensión profunda de las estadísticas.

Al ajustar un modelo a los datos, ya sea un enfoque frecuentista o bayesiano, proponemos un modelo, que puede consistir en una forma funcional de probabilidad, un anterior o un núcleo (no paramétrico), etc. El problema es cualquier modelo se ajusta a una muestra con cierto nivel de bondad. Siempre se puede encontrar un modelo mejor o peor en comparación con lo que está actualmente disponible. En algún momento nos detenemos y comenzamos a sacar conclusiones, generalizamos a los parámetros de la población, informamos los intervalos de confianza, calculamos el riesgo, etc. Por lo tanto, cualquier conclusión que saquemos siempre estará condicionada al modelo con el que decidimos resolver. Incluso si estamos utilizando herramientas para estimar la distancia KL esperada, como AIC, MDL, etc., no dice nada acerca de dónde nos encontramos en una base absoluta, sino que simplemente mejora nuestra estimación en una base relativa.

Ahora suponga que nos gustaría definir un procedimiento paso a paso para aplicar a cualquier conjunto de datos al construir modelos. ¿Qué deberíamos especificar como regla de detención? ¿Podemos al menos vincular el error del modelo que nos dará un punto de detención objetivo (esto es diferente de detener el entrenamiento usando una muestra de validación, ya que también proporciona un punto de detención dentro de la clase de modelo evaluada en lugar de wrt el verdadero DGP)?

Cagdas Ozgenc
fuente
1
Creo que debería agregar otras etiquetas a la pregunta además de la inferencia, por ejemplo, algunas etiquetas de modelado y selección de modelos. Creo que eso podría ser relevante para esto también es la navaja de Occam . Aquí también hay un artículo que lo discute sobre el modelado bayesiano.
Gumeo
A veces construyes un modelo particular porque es particularmente bueno para estimar ciertos parámetros, no porque creas que la distribución general es precisa (ver estimación M, ecuaciones de estimación generalizadas) etc. Entonces, si realmente te importa una estimación decente de la ubicación, Puede que sea mejor con un modelo incorrecto pero que no sea fácilmente arrojado por el ruido (para su parámetro de interés). En general, vea Estimación robusta.
Pregunta muy interesante Solo un comentario que, al menos en el entorno bayesiano, también plantea la cuestión de promediar el subconjunto plausible de modelos en lugar de elegir uno. No estoy seguro de ningún camino teórico a la pregunta del OP y supongo que prácticamente se hace si el modelo elegido es lo suficientemente bueno para el problema que estamos tratando de resolver. ¡Quizás necesitemos la selección del modelo por métodos MCMC o algo así! Puedo imaginar un enfoque MCMC anidado para esto ...
Luca
@Luca Esto se ha hecho. Sin embargo, el problema sigue siendo que el espacio de modelos definidos por el Bayesiano anterior puede o no contener el modelo verdadero. Incluso si lo hizo, el error del modelo sigue ahí, ese es el error del modelo promedio con respecto al verdadero DGP.
Cagdas Ozgenc
1
+1 para la pregunta. En gran parte, las preocupaciones son filosóficas o epistemológica, es decir, no sólo "lo que sabemos y cómo lo sabemos", pero "lo que podemos sabemos y cómo podemos conocemos?" Como dijo el físico Richard Feynman: "Es imposible encontrar una respuesta que algún día no se descubra que está equivocada". En otras palabras, y a menos que sea religioso, existe una duda razonable de si existe una verdad fundamental unívoca y eterna sobre la cual anclar algo. .
Mike Hunter el

Respuestas:

12

Lamentablemente, esta pregunta no tiene una buena respuesta. Puede elegir el mejor modelo en función del hecho de que minimiza el error absoluto, el error al cuadrado, maximiza la probabilidad, utilizando algunos criterios que penalizan la probabilidad (por ejemplo, AIC, BIC) para mencionar solo algunas de las opciones más comunes. El problema es que ninguno de esos criterios le permitirá elegir el mejor modelo objetivamente, sino el mejor con el que lo comparó. Otro problema es que, mientras optimizas, siempre puedes terminar en un máximo / mínimo local. Otro problema es que su elección de criterios para la selección del modelo es subjetiva . En muchos casos, consciente o semi-conscientemente, toma una decisión sobre lo que le interesa y elige los criterios basados ​​en esto. Por ejemplo , el uso de BIC en lugar de AIC conduce a modelos más parsimoniosos, con menos parámetros. Por lo general, para modelarestá interesado en modelos más parsimoniosos que lleven a algunas conclusiones generales sobre el universo, mientras que para predecirlo no tiene que ser así y, a veces, un modelo más complicado puede tener un mejor poder predictivo (pero no tiene que hacerlo y, a menudo, no lo hace) . En otros casos, a veces se prefieren modelos más complicados por razones prácticas , por ejemplo, al estimar el modelo bayesiano con MCMC, el modelo con hiperprecios jerárquicos puede comportarse mejor en simulación que el más simple. Por otro lado, generalmente tenemos miedo de sobreajustary el modelo más simple tiene el menor riesgo de sobreajuste, por lo que es una opción más segura. Un buen ejemplo de esto es una selección automática de modelos paso a paso que generalmente no se recomienda porque conduce fácilmente a estimaciones ajustadas y sesgadas. También hay un argumento filosófico, la navaja de afeitar de Occam , de que el modelo más simple es el preferido. Tenga en cuenta también que estamos discutiendo aquí la comparación de diferentes modelos, mientras que en situaciones de la vida real también puede ser así que el uso de diferentes herramientas estadísticas puede conducir a diferentes resultados, ¡así que hay una capa adicional de elegir el método!

Todo esto lleva a un hecho triste, pero entretenido, que nunca podemos estar seguros. Comenzamos con la incertidumbre, usamos métodos para lidiar con ella y terminamos con la falta de certidumbre. Esto puede ser paradójico, pero recuerde que usamos estadísticas porque creemos que el mundo es incierto y probabilístico (de lo contrario elegiríamos una carrera de profetas), entonces, ¿cómo podríamos llegar a conclusiones diferentes? No existe una regla de detención objetiva, hay varios modelos posibles, todos están equivocados (¡perdón por el cliché!) Porque intentan simplificar la realidad complicada (en constante cambio y probabilística). Encontramos algunos de ellos más útiles que otros para nuestros propósitos y, a veces, hacemosθμ

Puede profundizar aún más y descubrir que no existe tal cosa como "probabilidad" en la realidad: es solo una aproximación de la incertidumbre que nos rodea y también hay formas alternativas de aproximarla, por ejemplo, la lógica difusa (ver Kosko, 1993 Para discusión). Incluso las herramientas y teoremas muy básicos en los que se basan nuestros métodos son aproximaciones y no son los únicos posibles. Simplemente no podemos estar seguros de tal configuración.

La regla de detención que está buscando siempre es específica del problema y subjetiva, es decir, se basa en el llamado juicio profesional. Por cierto, hay muchos ejemplos de investigación que han demostrado que los profesionales a menudo no son mejores y a veces incluso peor en su juicio que los laicos (por ejemplo, revividos en documentos y libros por Daniel Kahneman ), mientras que son más propensos al exceso de confianza (esto es en realidad una discusión sobre por qué deberíamos no tratar de ser "seguro" acerca de nuestros modelos).


Kosko, B. (1993). Pensamiento difuso: la nueva ciencia de la lógica difusa. Nueva York: Hyperion.

Tim
fuente
1
μ
1
La afirmación es cierta cuando se cumplen sus supuestos (por ejemplo, se nos da una muestra fija, lo cual es cierto en la práctica). Tomado fuera de contexto y con violaciones de suposiciones, por supuesto, puede hacerse falso.
Richard Hardy el
1
@CagdasOzgenc es alguien que tiene una metodología para crear un modelo que refleja perfectamente la realidad, que no es necesario detener la regla o medir el error del modelo: el modelo es perfecto por definición. Si conoce las reglas para construir dicho modelo, no hay necesidad de medir la divergencia de su modelo con respecto al verdadero DGP, ya que conocer el verdadero DGP solo utiliza dicho conocimiento. Por otro lado, si su modelo es una simplificación basada en los datos que tiene, entonces se aplican las reglas de estadísticas generales, como se describe en mi respuesta.
Tim
1
@CagdasOzgenc aún, si conoce la "verdad", entonces la regla de detención es simple: deténgase cuando su modelo se ajuste a la "verdad". Si no sabe cuál es la verdad, entonces "todos los modelos están [igualmente] equivocados ..." y tiene que usar estadísticas. Si no lo sabe, no puede medir la divergencia de eso.
Tim
1
@Luca Significa muy poco, pero es abstracto.
Tim
4

Hay un campo completo llamado estadísticas no paramétricas que evita el uso de modelos fuertes. Sin embargo, su preocupación por los modelos de adaptación, per se, es válida. Lamentablemente, no existe un procedimiento mecánico para ajustar modelos que se acepten universalmente como "óptimos". Por ejemplo, si desea definir el modelo que maximiza la probabilidad de sus datos, se le dirigirá a la función de distribución empírica.

Sin embargo, generalmente tenemos algunas suposiciones y restricciones de fondo, como el continuo con el primer y el segundo momento finitos. Para casos como estos, un enfoque es elegir una medida como la Entropía diferencial de Shannon y maximizarla en el espacio de distribuciones continuas que satisfagan sus restricciones de límites.

Lo que me gustaría señalar es que si no solo desea utilizar el ECDF de manera predeterminada, deberá agregar suposiciones, más allá de los datos, para llegar allí, y eso requiere experiencia en el tema y, sí , el temido ..... juicio profesional

Entonces, ¿hay un punto de parada garantizado para el modelado ... la respuesta es no. ¿Hay un buen lugar para detenerse? En general, sí, pero ese punto dependerá de algo más que solo los datos y algunos datos estadísticos, generalmente tendrá en cuenta los riesgos de diferentes errores, las limitaciones técnicas para implementar los modelos y la solidez de sus estimaciones, etc.

Como señaló @Luca, siempre puede promediar una clase de modelos, pero, como señaló correctamente, eso solo llevará la pregunta al siguiente nivel de hiperparámetros. Desafortunadamente, parece que vivimos dentro de una cebolla infinitamente en capas ... ¡en ambas direcciones!


fuente