Solo un pensamiento:
Los modelos parsimoniosos siempre han sido la opción predeterminada en la selección de modelos, pero ¿en qué medida este enfoque está desactualizado? Tengo curiosidad acerca de cuánto nuestra tendencia hacia la parsimonia es una reliquia de una época de abaci y reglas de cálculo (o, más en serio, las computadoras no modernas). La potencia informática actual nos permite construir modelos cada vez más complejos con una capacidad de predicción cada vez mayor. Como resultado de este límite máximo en el poder de cómputo, ¿realmente todavía necesitamos gravitar hacia la simplicidad?
Claro, los modelos más simples son más fáciles de entender e interpretar, pero en la era de los conjuntos de datos cada vez mayores con un mayor número de variables y un cambio hacia un mayor enfoque en la capacidad de predicción, esto podría ya no ser alcanzable o necesario.
Pensamientos?
fuente
Respuestas:
La respuesta original de @ Matt hace un gran trabajo al describir uno de los beneficios de la parsimonia, pero no creo que realmente responda a su pregunta. En realidad, la parsimonia no es el estándar de oro. No ahora ni lo ha sido nunca. Un "estándar de oro" relacionado con la parsimonia es el error de generalización. Nos gustaría desarrollar modelos que no se ajusten demasiado. Son tan útiles para la predicción (o como interpretables o con un error mínimo) fuera de la muestra como lo están en la muestra. Resulta (debido a las cosas expuestas anteriormente) que la parsimonia es en realidad un buen proxy para el error de generalización, pero de ninguna manera es el único.
Realmente, piense por qué usamos validación cruzada o bootstrapping o conjuntos de entrenamiento / prueba. El objetivo es crear modelos con buena precisión de generalización. Muchas veces, estas formas de estimar el rendimiento de la muestra terminan eligiendo modelos con menor complejidad pero no siempre. Como ejemplo extremo, imagine que el oráculo nos entrega el modelo verdadero pero extremadamente complejo y un modelo pobre pero parsimonioso. Si la parsimonia fuera realmente nuestro objetivo, elegiríamos el segundo, pero en realidad, el primero es lo que nos gustaría aprender si pudiéramos. Desafortunadamente, muchas veces esa última oración es el pateador, "si pudiéramos".
fuente
Los modelos parsimoniales son deseables no solo por los requisitos informáticos, sino también por el rendimiento de generalización. Es imposible lograr el ideal de datos infinitos que cubran de manera completa y precisa el espacio muestral, lo que significa que los modelos no parsimoniosos tienen el potencial de sobreajustar y modelar ruido o idiosincrasias en la población de la muestra.
Ciertamente es posible construir un modelo con millones de variables, pero estaría utilizando variables que no tienen impacto en la salida para modelar el sistema. Podría lograr un gran rendimiento predictivo en su conjunto de datos de entrenamiento, pero esas variables irrelevantes probablemente disminuirán su rendimiento en un conjunto de pruebas no visto.
Si una variable de salida es realmente el resultado de un millón de variables de entrada, entonces haría bien en incluirlas todas en su modelo predictivo, pero solo si tiene suficientes datos . Para construir con precisión un modelo de este tamaño, necesitaría varios millones de puntos de datos, como mínimo. Los modelos parsimoniosos son agradables porque en muchos sistemas del mundo real, un conjunto de datos de este tamaño simplemente no está disponible y, además, la salida está determinada en gran medida por un número relativamente pequeño de variables.
fuente
Creo que las respuestas anteriores hacen un buen trabajo al hacer puntos importantes:
Quiero agregar algunos comentarios que surgen de mi experiencia laboral diaria.
La generalización del argumento de precisión predictiva es, por supuesto, fuerte, pero tiene un sesgo académico en su enfoque. En general, cuando se produce un modelo estadístico, las economías no son tales que el desempeño predictivo sea una consideración completamente dominante. Muy a menudo hay grandes limitaciones externas sobre cómo se ve un modelo útil para una aplicación determinada:
En los dominios de aplicaciones reales, muchas de estas consideraciones, si no todas, vienen antes , no después , del rendimiento predictivo, y la optimización de la forma y los parámetros del modelo está limitada por estos deseos. Cada una de estas restricciones predispone al científico hacia la parsimonia.
Puede ser cierto que en muchos dominios estas restricciones se están eliminando gradualmente. Pero es el científico afortunado el que los ignora y se centra exclusivamente en minimizar el error de generalización.
Esto puede ser muy frustrante para los científicos por primera vez, recién salidos de la escuela (definitivamente fue para mí, y sigue siéndolo cuando siento que las limitaciones impuestas a mi trabajo no están justificadas). Pero al final, trabajar duro para producir un producto inaceptable es un desperdicio, y eso se siente peor que el aguijón de su orgullo científico.
fuente
Creo que esta es una muy buena pregunta. En mi opinión, la parsimonia está sobrevalorada. La naturaleza rara vez es parsimoniosa, por lo que tampoco debemos esperar necesariamente que los modelos predictivos o descriptivos sean así. Con respecto a la cuestión de la interpretabilidad, si elige un modelo más simple que solo se ajusta modestamente a la realidad simplemente porque puede entenderlo, ¿qué es exactamente lo que está entendiendo? Suponiendo que un modelo más complejo tuviera un mejor poder predictivo, de todos modos parecería estar más cerca de los hechos reales.
fuente
La parsimonia no es un comienzo dorado. Es un aspecto en el modelado. El modelado y especialmente el pronóstico no se pueden programar, es decir, no se puede simplemente entregar un script a un modelador para que lo siga. Prefiere definir principios sobre los que debe basarse el proceso de modelado. Entonces, la parsimonia es uno de estos principios, cuya aplicación no puede ser programada (¡otra vez!). Un modelador considerará la complejidad cuando seleccione un modelo.
El poder computacional tiene poco que ver con esto. Si está en la industria, sus modelos serán consumidos por personas de negocios, personas de productos, como quiera que los llame. Tienes que explicarles tu modelo, debería tener sentido para ellos. Tener modelos parsimoniosos ayuda en este sentido.
Por ejemplo, pronostica ventas de productos. Deberías poder describir cuáles son los impulsores de las ventas y cómo funcionan. Estos deben estar relacionados con los conceptos con los que opera el negocio, y las correlaciones deben ser entendidas y aceptadas por el negocio. Con los modelos complejos, podría ser muy difícil interpretar los resultados del modelo o atribuir las diferencias con los reales. Si no puede explicar sus modelos a las empresas, no se lo valorará.
Una cosa más que es particularmente importante para el pronóstico. Digamos que su modelo depende de N variables exógenas. Esto significa que primero debe obtener los pronósticos de estas variables para pronosticar su variable dependiente. Tener una N más pequeña facilita tu vida, por lo que un modelo más simple es más fácil de usar.
fuente
Quizás tenga una revisión del Criterio de información de Akaike , un concepto que solo descubrí ayer por casualidad. El AIC busca identificar qué modelo y cuántos parámetros son la mejor explicación para las observaciones disponibles, en lugar de cualquier enfoque básico de Occam's Razor o parsimony.
fuente