¿Cuál es la definición de "mejor" como se usa en el término "mejor ajuste" y validación cruzada?

16

Si ajusta una función no lineal a un conjunto de puntos (suponiendo que solo haya una ordenada para cada abscisa), el resultado puede ser:

  1. Una función muy compleja con pequeños residuos.
  2. una función muy simple con grandes residuos

La validación cruzada se usa comúnmente para encontrar el "mejor" compromiso entre estos dos extremos. Pero, ¿qué significa "mejor"? ¿Es "lo más probable"? ¿Cómo comenzarías a probar cuál es la solución más probable?

Mi voz interior me dice que CV está encontrando algún tipo de solución de energía mínima. Esto me hace pensar en la entropía, que vagamente sé que ocurre tanto en las estadísticas como en la física.

Me parece que el "mejor" ajuste se genera minimizando la suma de funciones de complejidad y error, es decir

minimising m where m = c(Complexity) + e(Error)

¿Tiene esto algún sentido? ¿Cuáles serían las funciones c y e?

¿Puede explicar usando un lenguaje no matemático, porque no entenderé muchas matemáticas?

bart
fuente
1
Lo mejor es el modelo con el error futuro más bajo y la validación cruzada le brinda esa estimación. La razón de las fórmulas c (Complejidad) + e (Error) es porque podría usar el error en los datos de entrenamiento como una estimación del error futuro, pero eso es demasiado optimista, por lo que agrega un término para hacer que esta estimación sea imparcial, que generalmente es una función de complejidad del modelo
Yaroslav Bulatov
Por otro lado, el razonamiento a la luz del fenómeno Runge (inspiraciones físicas nuevamente) lleva a la conclusión de que el error futuro es algo relacionado con Complexity / Train_Error.
Matt Krause ha dado una excelente respuesta a una pregunta similar aquí: stats.stackexchange.com/a/21925/14640 Parafraseando su respuesta: El objetivo es equilibrar la complejidad del modelo con el poder explicativo del modelo, por lo que el concepto de parsimonia es mejor medida de la adecuación de un modelo que el concepto de mejor ajuste al error. Esto se debe a que un modelo altamente complejo puede sobreajustar los datos sin ser más capaz de predecir o explicar nuevos resultados.
Assad Ebrahim

Respuestas:

6

Creo que esta es una excelente pregunta. Voy a parafasearlo solo para asegurarme de haberlo hecho bien:

Parece que hay muchas formas de elegir la función de penalización de complejidad y la función de penalización de error . Qué opción es la "mejor". ¿Qué debería significar mejor ?ce

Creo que la respuesta (si hay una) lo llevará más allá de la validación cruzada. Me gusta cómo esta pregunta (y el tema en general) se vincula muy bien con la Navaja de Occam y el concepto general de parsimonia que es fundamental para la ciencia. De ninguna manera soy un experto en esta área, pero esta pregunta me parece enormemente interesante. El mejor texto que conozco sobre este tipo de preguntas es la Inteligencia Artificial Universal de Marcus Hutter (sin embargo, no me haga ninguna pregunta al respecto, no he leído la mayor parte). Fui a una charla de Hutter y hace un par de años y quedé muy impresionado.

Tiene razón al pensar que existe un argumento de entropía mínima en alguna parte (utilizado de alguna manera para la función de penalización de complejidad ). Hutter aboga por el uso de la complejidad de Kolmogorov en lugar de la entropía. Además, la definición de Hutter de "mejor" (hasta donde recuerdo) es (informalmente) el modelo que mejor predice el futuro (es decir, mejor predice los datos que se observarán en el futuro). No recuerdo cómo formaliza esta noción.c

Robby McKilliam
fuente
Entiendes la pregunta. Seguiré los enlaces.
Bart
Debe saber que es poco probable que estos enlaces lo lleven a un lugar 'práctico'. Si está intentando construir algo utilizando la validación cruzada (o algún otro tipo de selección de modelo), en la práctica es probable que siempre se reduzca a algo heurístico y un poco ad-hoc (aunque estoy de acuerdo en que esto no es satisfactorio).
Robby McKilliam
Ahora estamos llegando a alguna parte. en.wikipedia.org/wiki/Minimum_message_length parece ser lo que estaba pensando. ¡Gracias!
Bart
Sin preocupaciones. Esto es solo reflexión, no práctico.
Bart
9

Ofreceré una breve respuesta intuitiva (a un nivel bastante abstracto) hasta que otra persona ofrezca una mejor respuesta:

Primero, tenga en cuenta que las funciones / modelos complejos logran un mejor ajuste (es decir, tienen residuos más bajos) ya que explotan algunas características locales (ruido de pensamiento) del conjunto de datos que no están presentes globalmente (piense en patrones sistemáticos).

En segundo lugar, al realizar la validación cruzada, dividimos los datos en dos conjuntos: el conjunto de entrenamiento y el conjunto de validación.

Por lo tanto, cuando realizamos la validación cruzada, un modelo complejo puede no predecir muy bien porque, por definición, un modelo complejo explotará las características locales del conjunto de entrenamiento. Sin embargo, las características locales del conjunto de capacitación podrían ser muy diferentes en comparación con las características locales del conjunto de validación, lo que da como resultado un rendimiento predictivo deficiente. Por lo tanto, tenemos una tendencia a seleccionar el modelo que captura las características globales de la capacitación y los conjuntos de datos de validación.

En resumen, la validación cruzada protege contra el sobreajuste seleccionando el modelo que captura los patrones globales del conjunto de datos y evitando los modelos que explotan alguna característica local de un conjunto de datos.


fuente
@Srikant Sé todo esto. CV es un medio para encontrar "mejor". ¿Cuál es la definición de "mejor"?
Bart
@bart 'best model' = un modelo que 'mejor' captura patrones globales mientras evita las características locales de un dato. Eso es lo mejor que puedo hacer para una descripción no matemática. Quizás, alguien más pueda elaborar un poco más o ser más específico.
@bart: "mejor" significa la función que mejor se adapta a los datos de entrenamiento y que "generaliza" bien a los datos del conjunto de validación / prueba invisible. Creo que esto está bastante claro por la respuesta de Srikant. Hay muchas formas de definir formalmente un buen comportamiento de generalización. En un sentido no formal, puede pensar que se trata de encontrar una función que sea "fluida" y no demasiado flexible. Intentar ajustarse únicamente a los datos de entrenamiento puede conducir a una función de aspecto ondulado, mientras que la suavidad generalmente garantiza que la función funcione razonablemente bien tanto en los datos de entrenamiento como de validación / prueba.
ebony1
@ebony: Te estás perdiendo el punto. He reformulado la pregunta para que sea más clara
Bart
5

En una vista general de aprendizaje automático, la respuesta es bastante simple: queremos construir un modelo que tenga la mayor precisión al predecir nuevos datos (no vistos durante el entrenamiento). Debido a que no podemos probar esto directamente (no tenemos datos del futuro), hacemos la simulación de Monte Carlo de dicha prueba, y esta es básicamente la idea debajo de la validación cruzada.

Puede haber algunos problemas con respecto a la precisión (por ejemplo, un cliente comercial puede afirmar que el sobreimpulso cuesta 5 € por unidad y el inferior a 0,01 € por unidad, por lo que es mejor construir un modelo menos preciso pero más ofensivo), pero en general es un porcentaje bastante intuitivo de respuestas verdaderas en clasificación y varianza explicada ampliamente utilizada en regresión.


fuente
3

Mucha gente tiene excelentes respuestas, aquí están mis $ 0.02.

Hay dos formas de ver el "mejor modelo" o la "selección de modelo", hablando estadísticamente:

1 Una explicación lo más simple posible, pero no más simple (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 La predicción es el interés, similar al desarrollo de ingeniería.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

Concepción generalizada (errónea):

La elección del modelo es equivalente a elegir el mejor modelo

Para la explicación, debemos estar atentos a la posibilidad de que existan varios modelos explicativos (aproximadamente) igualmente buenos. La simplicidad ayuda tanto a comunicar los conceptos encarnados en el modelo como a lo que los psicólogos llaman generalización, la capacidad de "trabajar" en escenarios muy diferentes de aquellos en los que se estudió el modelo. Por lo tanto, hay una prima en algunos modelos.

Para la predicción: la buena analogía (del Dr. Ripley) es elegir entre opiniones de expertos: si tiene acceso a un gran panel de expertos, ¿cómo usaría sus opiniones?

La validación cruzada se encarga del aspecto de predicción. Para obtener detalles sobre el CV, consulte esta presentación del Dr. BD Ripley . Presentación del Dr. Brian D. Ripley sobre la selección del modelo.

Cita: Tenga en cuenta que todo en esta respuesta es de la presentación citada anteriormente. Soy un gran admirador de esta presentación y me gusta. Otras opiniones pueden variar. El título de la presentación es: "Selección entre grandes clases de modelos" y fue dado en el Simposio en honor del 80 cumpleaños de John Nelder, Imperial College, 29/30 de marzo de 2004, por el Dr. Brian D. Ripley.

suncoolsu
fuente
3

Gran discusión aquí, pero pienso en la validación cruzada de una manera diferente a las respuestas hasta ahora (creo que mbq y yo estamos en la misma página). Entonces, pondré mis dos centavos a riesgo de enturbiar las aguas ...

La validación cruzada es una técnica estadística para evaluar la variabilidad y el sesgo, debido al error de muestreo, en la capacidad de un modelo para ajustar y predecir datos. Por lo tanto, "mejor" sería el modelo que proporciona el error de generalización más bajo, que estaría en unidades de variabilidad y sesgo. Se pueden usar técnicas como el Promedio de modelos Bayesian y Bootstrap para actualizar un modelo de forma algorítmica en función de los resultados del esfuerzo de validación cruzada.

Estas preguntas frecuentes proporcionan buena información para un contexto más de lo que informa mi opinión.

Josh Hemann
fuente
1

La función de error es el error de su modelo (función) en los datos de entrenamiento. La complejidad es alguna norma (p. Ej., Norma al cuadrado l2) de la función que está tratando de aprender. La minimización del término de complejidad favorece esencialmente las funciones suaves, que funcionan bien no solo en los datos de entrenamiento sino también en los datos de prueba. Si representa su función mediante un conjunto de coeficientes (por ejemplo, si está haciendo una regresión lineal), penalizar la complejidad mediante la norma al cuadrado conduciría a valores de coeficiente pequeños en su función (penalizar otras normas conduce a diferentes nociones de control de complejidad).

ébano1
fuente
1

(p,q)1,λ>0

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

es equivalente a

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)(2)λβ^|λ

e()=||ym(x,β)||pp=1p=2m()

usuario603
fuente
1
λ
@Robby:> gracias. Agregué un poco el texto para aclarar la distinción entre parámetros e hiperparámetros.
user603
@kwak: Lamento decir que no tengo idea de lo que esto significa. ¿Qué significan los símbolos p, q, lambda, x, y, my beta?
Bart
@bart:> Mi respuesta es esencialmente la misma que la de Srikant. Cuando proporciona una explicación intuitiva, quería agregar una más rigurosa para los beneficios de los futuros visitantes que pueden tener la misma pregunta que usted, pero están más familiarizados con las matemáticas que con el lenguaje no formal. Todos los símbolos que menciona están definidos en mi respuesta (aunque, de nuevo, esto se hace formalmente).
usuario603
@kwak: ¿Dónde, por ejemplo, se define p?
Bart