¿Debería la parsimonia seguir siendo el estándar de oro?

31

Solo un pensamiento:

Los modelos parsimoniosos siempre han sido la opción predeterminada en la selección de modelos, pero ¿en qué medida este enfoque está desactualizado? Tengo curiosidad acerca de cuánto nuestra tendencia hacia la parsimonia es una reliquia de una época de abaci y reglas de cálculo (o, más en serio, las computadoras no modernas). La potencia informática actual nos permite construir modelos cada vez más complejos con una capacidad de predicción cada vez mayor. Como resultado de este límite máximo en el poder de cómputo, ¿realmente todavía necesitamos gravitar hacia la simplicidad?

Claro, los modelos más simples son más fáciles de entender e interpretar, pero en la era de los conjuntos de datos cada vez mayores con un mayor número de variables y un cambio hacia un mayor enfoque en la capacidad de predicción, esto podría ya no ser alcanzable o necesario.

Pensamientos?

el forestalteólogo
fuente
44
Con disculpas a Richard Hamming: el propósito del modelado es la comprensión, no los números. Los modelos complicados impiden la comprensión.
Eric Towers
12
Los modelos que están demasiado simplificados impiden aún más la comprensión.
Frank Harrell
66
Puede depender de la aplicación; en física, creo que el argumento a favor de la parsimonia tendrá una base sólida. Sin embargo, muchas aplicaciones tendrán una serie de pequeños efectos que no se pueden eliminar (considere modelos para preferencias políticas, por ejemplo). Varios trabajadores sugieren que el uso de la regularización (como los métodos que conducen a la reducción o, en muchas aplicaciones, la reducción de las diferencias, o ambas) en lugar de la eliminación de variables tiene más sentido; otros se inclinan hacia alguna selección y contracción (LASSO, por ejemplo, hace ambas cosas).
Glen_b -Reinstate Monica
3
Los modelos parsimoniosos no son el "go-to" en la selección de modelos. De lo contrario, siempre modelaríamos todo con su media de muestra y lo llamaríamos día.
shadowtalker
1
Además, algo de reflexión: Mease y Wyner (2008) recomiendan estudiantes más ricos en AdaBoost, que es un poco poco intuitivo. Una pregunta abierta en esa línea de investigación parece ser si los aprendices de base parsimoniosos realmente conducen a conjuntos parsimoniosos.
shadowtalker

Respuestas:

25

La respuesta original de @ Matt hace un gran trabajo al describir uno de los beneficios de la parsimonia, pero no creo que realmente responda a su pregunta. En realidad, la parsimonia no es el estándar de oro. No ahora ni lo ha sido nunca. Un "estándar de oro" relacionado con la parsimonia es el error de generalización. Nos gustaría desarrollar modelos que no se ajusten demasiado. Son tan útiles para la predicción (o como interpretables o con un error mínimo) fuera de la muestra como lo están en la muestra. Resulta (debido a las cosas expuestas anteriormente) que la parsimonia es en realidad un buen proxy para el error de generalización, pero de ninguna manera es el único.

Realmente, piense por qué usamos validación cruzada o bootstrapping o conjuntos de entrenamiento / prueba. El objetivo es crear modelos con buena precisión de generalización. Muchas veces, estas formas de estimar el rendimiento de la muestra terminan eligiendo modelos con menor complejidad pero no siempre. Como ejemplo extremo, imagine que el oráculo nos entrega el modelo verdadero pero extremadamente complejo y un modelo pobre pero parsimonioso. Si la parsimonia fuera realmente nuestro objetivo, elegiríamos el segundo, pero en realidad, el primero es lo que nos gustaría aprender si pudiéramos. Desafortunadamente, muchas veces esa última oración es el pateador, "si pudiéramos".

Nick Thieme
fuente
¿Cuál es "la respuesta original"?
mattdm
:) lo suficientemente justo. El comentario de Matt.
Nick Thieme
22

Los modelos parsimoniales son deseables no solo por los requisitos informáticos, sino también por el rendimiento de generalización. Es imposible lograr el ideal de datos infinitos que cubran de manera completa y precisa el espacio muestral, lo que significa que los modelos no parsimoniosos tienen el potencial de sobreajustar y modelar ruido o idiosincrasias en la población de la muestra.

Ciertamente es posible construir un modelo con millones de variables, pero estaría utilizando variables que no tienen impacto en la salida para modelar el sistema. Podría lograr un gran rendimiento predictivo en su conjunto de datos de entrenamiento, pero esas variables irrelevantes probablemente disminuirán su rendimiento en un conjunto de pruebas no visto.

Si una variable de salida es realmente el resultado de un millón de variables de entrada, entonces haría bien en incluirlas todas en su modelo predictivo, pero solo si tiene suficientes datos . Para construir con precisión un modelo de este tamaño, necesitaría varios millones de puntos de datos, como mínimo. Los modelos parsimoniosos son agradables porque en muchos sistemas del mundo real, un conjunto de datos de este tamaño simplemente no está disponible y, además, la salida está determinada en gran medida por un número relativamente pequeño de variables.

Wang nuclear
fuente
55
+1. Sugiero leer Los elementos del aprendizaje estadístico (disponible gratuitamente en la web) , que analiza este problema en profundidad.
S. Kolassa - Restablece a Monica el
3
Por otro lado, cuando tienes millones de variables y pocos objetos, es probable que por casualidad algunas variables sean mejores para explicar el resultado que la verdadera interacción. En tal caso, el modelado basado en la parsimonia será más susceptible al sobreajuste que un enfoque de fuerza bruta.
@CagdasOzgenc Por ejemplo, un gran conjunto de subespacio aleatorio.
Siento que algo así como un enfoque de lazo podría aplicarse aquí.
theforestecologist
17

Creo que las respuestas anteriores hacen un buen trabajo al hacer puntos importantes:

  • Los modelos parsimoniosos tienden a tener mejores características de generalización.
  • La parsimonia no es realmente un estándar de oro, sino solo una consideración.

Quiero agregar algunos comentarios que surgen de mi experiencia laboral diaria.

La generalización del argumento de precisión predictiva es, por supuesto, fuerte, pero tiene un sesgo académico en su enfoque. En general, cuando se produce un modelo estadístico, las economías no son tales que el desempeño predictivo sea una consideración completamente dominante. Muy a menudo hay grandes limitaciones externas sobre cómo se ve un modelo útil para una aplicación determinada:

  • El modelo debe ser implementable dentro de un marco o sistema existente.
  • El modelo debe ser entendible por una entidad no técnica.
  • El modelo debe ser eficiente computacionalmente.
  • El modelo debe ser documentable .
  • El modelo debe pasar restricciones regulatorias .

En los dominios de aplicaciones reales, muchas de estas consideraciones, si no todas, vienen antes , no después , del rendimiento predictivo, y la optimización de la forma y los parámetros del modelo está limitada por estos deseos. Cada una de estas restricciones predispone al científico hacia la parsimonia.

Puede ser cierto que en muchos dominios estas restricciones se están eliminando gradualmente. Pero es el científico afortunado el que los ignora y se centra exclusivamente en minimizar el error de generalización.

Esto puede ser muy frustrante para los científicos por primera vez, recién salidos de la escuela (definitivamente fue para mí, y sigue siéndolo cuando siento que las limitaciones impuestas a mi trabajo no están justificadas). Pero al final, trabajar duro para producir un producto inaceptable es un desperdicio, y eso se siente peor que el aguijón de su orgullo científico.

Matthew Drury
fuente
2
No parsimonia no es una consideración. Un procedimiento de inferencia de sonido DEBE clasificar un modelo parsimonioso sobre un modelo no parsimonioso si explican los datos igualmente bien. De lo contrario, la longitud de código comprimido total del modelo y los datos codificados por el modelo no serán los más pequeños. Entonces sí, es un estándar de oro.
Cagdas Ozgenc
3
¡La parsimonia NO es un "estándar de oro"! Esa afirmación es absurda. Si fuera cierto, ¿por qué no siempre construimos modelos que no se ajusten a nada más que a la media incondicional? Cambiamos el sesgo y la varianza con referencia a un conjunto de pruebas o, mejor aún, a observaciones completamente nuevas, y lo hacemos dentro de las limitaciones de nuestro campo, organización y la ley. A veces solo tienes suficiente información para hacer predicciones ingenuas. A veces tienes suficiente para agregar complejidad.
Brash Equilibrium
1
@BrashEquilibrium Creo que lo que dice Cagdas es que, dada la elección entre modelos igualmente predictivos, uno debería elegir el más parsimonioso.
Matthew Drury
1
Ah Eso es algo diferente. Sí, en ese caso, elija el modelo más parsimonioso. Sin embargo, todavía no creo que eso signifique que la parsimonia sea un "patrón oro".
Brash Equilibrium
1
@MatthewDrury Brash, Cagdas. Interesante. Quizás, la parsimonia es solo un componente del patrón oro; que probablemente (o debería estar) mejor basado en la noción de abarcar . Una buena exposición de esta idea se proporciona en la siguiente conferencia de astrofísica de Yale: oyc.yale.edu/astronomy/astr-160/lecture-11 . 7:04 en adelante. La idea también aparece en la literatura econométrica / de pronósticos de David Hendry y Grayham Mizon. Argumentan que abarcar es parte de una estrategia de investigación progresiva, de la cual la parsimonia es un aspecto único.
Graeme Walsh
14

Creo que esta es una muy buena pregunta. En mi opinión, la parsimonia está sobrevalorada. La naturaleza rara vez es parsimoniosa, por lo que tampoco debemos esperar necesariamente que los modelos predictivos o descriptivos sean así. Con respecto a la cuestión de la interpretabilidad, si elige un modelo más simple que solo se ajusta modestamente a la realidad simplemente porque puede entenderlo, ¿qué es exactamente lo que está entendiendo? Suponiendo que un modelo más complejo tuviera un mejor poder predictivo, de todos modos parecería estar más cerca de los hechos reales.

dsaxton
fuente
8
Bien dicho @dsaxton. Hay una gran incomprensión de la parsimonia y una gran subestimación de cuán volátil es la selección de características. La parsimonia es agradable cuando resulta de la especificación previa. La mayor parte de la parsimonia que resulta del dragado de datos es engañosa y solo se entiende porque está equivocada.
Frank Harrell
2
@FrankHarrell ¿Podrías dar más detalles sobre "solo entendido porque está mal", o tal vez vincular a algo que escribiste anteriormente sobre esto? Este es un punto interesante que me gustaría asegurarme de entender.
gui11aume
8
Este es un ejemplo extremo, pero las personas que se dedican a los perfiles raciales piensan que entienden, con una sola característica (por ejemplo, el color de la piel), qué valor tiene alguien. Para ellos la respuesta es simple. Solo lo entienden porque están haciendo un juicio equivocado al simplificar demasiado. La parsimonia suele ser una ilusión (excepto en la mecánica newtoniana y algunas otras áreas).
Frank Harrell
1
"La naturaleza rara vez es parsimoniosa": y un punto donde la naturaleza es particularmente no parsimoniosa son los individuos (¡a diferencia de nuestros tamaños de muestra típicos!). Evolution utiliza una población completamente nueva de individuos nuevos cada generación ... En mi humilde opinión, la parsimonia (el tipo preespecificado de Frank Harrell, que permite que n de m características disponibles en el modelo sea de hecho un modelo muy complejo, incluso si n << m, esta es una fracción no tan pequeña del espacio de búsqueda original) es cómo tratamos de obtener al menos algo de nuestros conjuntos de datos demasiado pequeños.
cbeleites apoya a Monica el
2

La parsimonia no es un comienzo dorado. Es un aspecto en el modelado. El modelado y especialmente el pronóstico no se pueden programar, es decir, no se puede simplemente entregar un script a un modelador para que lo siga. Prefiere definir principios sobre los que debe basarse el proceso de modelado. Entonces, la parsimonia es uno de estos principios, cuya aplicación no puede ser programada (¡otra vez!). Un modelador considerará la complejidad cuando seleccione un modelo.

El poder computacional tiene poco que ver con esto. Si está en la industria, sus modelos serán consumidos por personas de negocios, personas de productos, como quiera que los llame. Tienes que explicarles tu modelo, debería tener sentido para ellos. Tener modelos parsimoniosos ayuda en este sentido.

Por ejemplo, pronostica ventas de productos. Deberías poder describir cuáles son los impulsores de las ventas y cómo funcionan. Estos deben estar relacionados con los conceptos con los que opera el negocio, y las correlaciones deben ser entendidas y aceptadas por el negocio. Con los modelos complejos, podría ser muy difícil interpretar los resultados del modelo o atribuir las diferencias con los reales. Si no puede explicar sus modelos a las empresas, no se lo valorará.

Una cosa más que es particularmente importante para el pronóstico. Digamos que su modelo depende de N variables exógenas. Esto significa que primero debe obtener los pronósticos de estas variables para pronosticar su variable dependiente. Tener una N más pequeña facilita tu vida, por lo que un modelo más simple es más fácil de usar.

Aksakal
fuente
Aunque mencione los pronósticos, la mayor parte de su respuesta parece aplicarse solo a modelos explicativos.
rolando2
@ rolando2, suena así porque en mi dominio no puedes simplemente entregar el pronóstico a los usuarios. Tenemos que explicar el pronóstico, vincularlo con los conductores, etc. Cuando obtiene el pronóstico del tiempo, normalmente no le pide al pronosticador que le explique por qué exactamente piensan que va a llover con un 50% de probabilidad. En mi caso, no solo tengo que hacerlo, sino hacerlo de una manera que mis consumidores entiendan los resultados al vincularlo con los impulsores comerciales con los que tratan a diario. Es por eso que la parsimonia es valiosa por derecho propio
Aksakal
1

Quizás tenga una revisión del Criterio de información de Akaike , un concepto que solo descubrí ayer por casualidad. El AIC busca identificar qué modelo y cuántos parámetros son la mejor explicación para las observaciones disponibles, en lugar de cualquier enfoque básico de Occam's Razor o parsimony.

Philip Oakley
fuente