He escuchado la siguiente expresión antes:
"La optimización es la raíz de todo mal en las estadísticas".
Por ejemplo, la respuesta principal en este hilo hace esa declaración en referencia al peligro de optimizar demasiado agresivamente durante la selección del modelo.
Mi primera pregunta es la siguiente: ¿Es esta cita atribuible a alguien en particular? (por ejemplo, en la literatura estadística)
Por lo que entiendo, la declaración se refiere a los riesgos de sobreajuste. La sabiduría tradicional diría que la validación cruzada adecuada ya lucha contra este problema, pero parece que hay más en este problema que eso.
¿Deben los estadísticos y los profesionales de ML tener cuidado de no optimizar demasiado sus modelos incluso cuando se adhieren a estrictos protocolos de validación cruzada (por ejemplo, 100 CV anidados 10 veces)? Si es así, ¿cómo sabemos cuándo dejar de buscar el "mejor" modelo?
fuente
Respuestas:
La cita es una paráfrasis de una cita de Donald Knuth , que él mismo ha atribuido a Hoare. Tres extractos de la página anterior:
No sé si estoy de acuerdo con la paráfrasis estadística *. Hay un montón de "maldad" en las estadísticas que no se relacionan con la optimización.
Creo que lo fundamental es comprender completamente (o tan completamente como sea posible) las propiedades de los procedimientos que realice.
fuente
Un par de formas en que podría analizar la cotización (en estadísticas), suponiendo que la optimización se refiera a la selección de modelo (basada en datos):
fuente