He estado estudiando estadísticas de muchos libros durante los últimos 3 años, y gracias a este sitio aprendí mucho. Sin embargo, una pregunta fundamental sigue sin respuesta para mí. Puede tener una respuesta muy simple o muy difícil, pero sé con certeza que requiere una comprensión profunda de las estadísticas.
Al ajustar un modelo a los datos, ya sea un enfoque frecuentista o bayesiano, proponemos un modelo, que puede consistir en una forma funcional de probabilidad, un anterior o un núcleo (no paramétrico), etc. El problema es cualquier modelo se ajusta a una muestra con cierto nivel de bondad. Siempre se puede encontrar un modelo mejor o peor en comparación con lo que está actualmente disponible. En algún momento nos detenemos y comenzamos a sacar conclusiones, generalizamos a los parámetros de la población, informamos los intervalos de confianza, calculamos el riesgo, etc. Por lo tanto, cualquier conclusión que saquemos siempre estará condicionada al modelo con el que decidimos resolver. Incluso si estamos utilizando herramientas para estimar la distancia KL esperada, como AIC, MDL, etc., no dice nada acerca de dónde nos encontramos en una base absoluta, sino que simplemente mejora nuestra estimación en una base relativa.
Ahora suponga que nos gustaría definir un procedimiento paso a paso para aplicar a cualquier conjunto de datos al construir modelos. ¿Qué deberíamos especificar como regla de detención? ¿Podemos al menos vincular el error del modelo que nos dará un punto de detención objetivo (esto es diferente de detener el entrenamiento usando una muestra de validación, ya que también proporciona un punto de detención dentro de la clase de modelo evaluada en lugar de wrt el verdadero DGP)?
Respuestas:
Lamentablemente, esta pregunta no tiene una buena respuesta. Puede elegir el mejor modelo en función del hecho de que minimiza el error absoluto, el error al cuadrado, maximiza la probabilidad, utilizando algunos criterios que penalizan la probabilidad (por ejemplo, AIC, BIC) para mencionar solo algunas de las opciones más comunes. El problema es que ninguno de esos criterios le permitirá elegir el mejor modelo objetivamente, sino el mejor con el que lo comparó. Otro problema es que, mientras optimizas, siempre puedes terminar en un máximo / mínimo local. Otro problema es que su elección de criterios para la selección del modelo es subjetiva . En muchos casos, consciente o semi-conscientemente, toma una decisión sobre lo que le interesa y elige los criterios basados en esto. Por ejemplo , el uso de BIC en lugar de AIC conduce a modelos más parsimoniosos, con menos parámetros. Por lo general, para modelarestá interesado en modelos más parsimoniosos que lleven a algunas conclusiones generales sobre el universo, mientras que para predecirlo no tiene que ser así y, a veces, un modelo más complicado puede tener un mejor poder predictivo (pero no tiene que hacerlo y, a menudo, no lo hace) . En otros casos, a veces se prefieren modelos más complicados por razones prácticas , por ejemplo, al estimar el modelo bayesiano con MCMC, el modelo con hiperprecios jerárquicos puede comportarse mejor en simulación que el más simple. Por otro lado, generalmente tenemos miedo de sobreajustary el modelo más simple tiene el menor riesgo de sobreajuste, por lo que es una opción más segura. Un buen ejemplo de esto es una selección automática de modelos paso a paso que generalmente no se recomienda porque conduce fácilmente a estimaciones ajustadas y sesgadas. También hay un argumento filosófico, la navaja de afeitar de Occam , de que el modelo más simple es el preferido. Tenga en cuenta también que estamos discutiendo aquí la comparación de diferentes modelos, mientras que en situaciones de la vida real también puede ser así que el uso de diferentes herramientas estadísticas puede conducir a diferentes resultados, ¡así que hay una capa adicional de elegir el método!
Todo esto lleva a un hecho triste, pero entretenido, que nunca podemos estar seguros. Comenzamos con la incertidumbre, usamos métodos para lidiar con ella y terminamos con la falta de certidumbre. Esto puede ser paradójico, pero recuerde que usamos estadísticas porque creemos que el mundo es incierto y probabilístico (de lo contrario elegiríamos una carrera de profetas), entonces, ¿cómo podríamos llegar a conclusiones diferentes? No existe una regla de detención objetiva, hay varios modelos posibles, todos están equivocados (¡perdón por el cliché!) Porque intentan simplificar la realidad complicada (en constante cambio y probabilística). Encontramos algunos de ellos más útiles que otros para nuestros propósitos y, a veces, hacemosθ μ
Puede profundizar aún más y descubrir que no existe tal cosa como "probabilidad" en la realidad: es solo una aproximación de la incertidumbre que nos rodea y también hay formas alternativas de aproximarla, por ejemplo, la lógica difusa (ver Kosko, 1993 Para discusión). Incluso las herramientas y teoremas muy básicos en los que se basan nuestros métodos son aproximaciones y no son los únicos posibles. Simplemente no podemos estar seguros de tal configuración.
La regla de detención que está buscando siempre es específica del problema y subjetiva, es decir, se basa en el llamado juicio profesional. Por cierto, hay muchos ejemplos de investigación que han demostrado que los profesionales a menudo no son mejores y a veces incluso peor en su juicio que los laicos (por ejemplo, revividos en documentos y libros por Daniel Kahneman ), mientras que son más propensos al exceso de confianza (esto es en realidad una discusión sobre por qué deberíamos no tratar de ser "seguro" acerca de nuestros modelos).
Kosko, B. (1993). Pensamiento difuso: la nueva ciencia de la lógica difusa. Nueva York: Hyperion.
fuente
Hay un campo completo llamado estadísticas no paramétricas que evita el uso de modelos fuertes. Sin embargo, su preocupación por los modelos de adaptación, per se, es válida. Lamentablemente, no existe un procedimiento mecánico para ajustar modelos que se acepten universalmente como "óptimos". Por ejemplo, si desea definir el modelo que maximiza la probabilidad de sus datos, se le dirigirá a la función de distribución empírica.
Sin embargo, generalmente tenemos algunas suposiciones y restricciones de fondo, como el continuo con el primer y el segundo momento finitos. Para casos como estos, un enfoque es elegir una medida como la Entropía diferencial de Shannon y maximizarla en el espacio de distribuciones continuas que satisfagan sus restricciones de límites.
Lo que me gustaría señalar es que si no solo desea utilizar el ECDF de manera predeterminada, deberá agregar suposiciones, más allá de los datos, para llegar allí, y eso requiere experiencia en el tema y, sí , el temido ..... juicio profesional
Entonces, ¿hay un punto de parada garantizado para el modelado ... la respuesta es no. ¿Hay un buen lugar para detenerse? En general, sí, pero ese punto dependerá de algo más que solo los datos y algunos datos estadísticos, generalmente tendrá en cuenta los riesgos de diferentes errores, las limitaciones técnicas para implementar los modelos y la solidez de sus estimaciones, etc.
Como señaló @Luca, siempre puede promediar una clase de modelos, pero, como señaló correctamente, eso solo llevará la pregunta al siguiente nivel de hiperparámetros. Desafortunadamente, parece que vivimos dentro de una cebolla infinitamente en capas ... ¡en ambas direcciones!
fuente