Si ajusta una función no lineal a un conjunto de puntos (suponiendo que solo haya una ordenada para cada abscisa), el resultado puede ser:
- Una función muy compleja con pequeños residuos.
- una función muy simple con grandes residuos
La validación cruzada se usa comúnmente para encontrar el "mejor" compromiso entre estos dos extremos. Pero, ¿qué significa "mejor"? ¿Es "lo más probable"? ¿Cómo comenzarías a probar cuál es la solución más probable?
Mi voz interior me dice que CV está encontrando algún tipo de solución de energía mínima. Esto me hace pensar en la entropía, que vagamente sé que ocurre tanto en las estadísticas como en la física.
Me parece que el "mejor" ajuste se genera minimizando la suma de funciones de complejidad y error, es decir
minimising m where m = c(Complexity) + e(Error)
¿Tiene esto algún sentido? ¿Cuáles serían las funciones c y e?
¿Puede explicar usando un lenguaje no matemático, porque no entenderé muchas matemáticas?
Respuestas:
Creo que esta es una excelente pregunta. Voy a parafasearlo solo para asegurarme de haberlo hecho bien:
Creo que la respuesta (si hay una) lo llevará más allá de la validación cruzada. Me gusta cómo esta pregunta (y el tema en general) se vincula muy bien con la Navaja de Occam y el concepto general de parsimonia que es fundamental para la ciencia. De ninguna manera soy un experto en esta área, pero esta pregunta me parece enormemente interesante. El mejor texto que conozco sobre este tipo de preguntas es la Inteligencia Artificial Universal de Marcus Hutter (sin embargo, no me haga ninguna pregunta al respecto, no he leído la mayor parte). Fui a una charla de Hutter y hace un par de años y quedé muy impresionado.
Tiene razón al pensar que existe un argumento de entropía mínima en alguna parte (utilizado de alguna manera para la función de penalización de complejidad ). Hutter aboga por el uso de la complejidad de Kolmogorov en lugar de la entropía. Además, la definición de Hutter de "mejor" (hasta donde recuerdo) es (informalmente) el modelo que mejor predice el futuro (es decir, mejor predice los datos que se observarán en el futuro). No recuerdo cómo formaliza esta noción.c
fuente
Ofreceré una breve respuesta intuitiva (a un nivel bastante abstracto) hasta que otra persona ofrezca una mejor respuesta:
Primero, tenga en cuenta que las funciones / modelos complejos logran un mejor ajuste (es decir, tienen residuos más bajos) ya que explotan algunas características locales (ruido de pensamiento) del conjunto de datos que no están presentes globalmente (piense en patrones sistemáticos).
En segundo lugar, al realizar la validación cruzada, dividimos los datos en dos conjuntos: el conjunto de entrenamiento y el conjunto de validación.
Por lo tanto, cuando realizamos la validación cruzada, un modelo complejo puede no predecir muy bien porque, por definición, un modelo complejo explotará las características locales del conjunto de entrenamiento. Sin embargo, las características locales del conjunto de capacitación podrían ser muy diferentes en comparación con las características locales del conjunto de validación, lo que da como resultado un rendimiento predictivo deficiente. Por lo tanto, tenemos una tendencia a seleccionar el modelo que captura las características globales de la capacitación y los conjuntos de datos de validación.
En resumen, la validación cruzada protege contra el sobreajuste seleccionando el modelo que captura los patrones globales del conjunto de datos y evitando los modelos que explotan alguna característica local de un conjunto de datos.
fuente
En una vista general de aprendizaje automático, la respuesta es bastante simple: queremos construir un modelo que tenga la mayor precisión al predecir nuevos datos (no vistos durante el entrenamiento). Debido a que no podemos probar esto directamente (no tenemos datos del futuro), hacemos la simulación de Monte Carlo de dicha prueba, y esta es básicamente la idea debajo de la validación cruzada.
Puede haber algunos problemas con respecto a la precisión (por ejemplo, un cliente comercial puede afirmar que el sobreimpulso cuesta 5 € por unidad y el inferior a 0,01 € por unidad, por lo que es mejor construir un modelo menos preciso pero más ofensivo), pero en general es un porcentaje bastante intuitivo de respuestas verdaderas en clasificación y varianza explicada ampliamente utilizada en regresión.
fuente
Mucha gente tiene excelentes respuestas, aquí están mis $ 0.02.
Hay dos formas de ver el "mejor modelo" o la "selección de modelo", hablando estadísticamente:
1 Una explicación lo más simple posible, pero no más simple (Attrib. Einstein)
2 La predicción es el interés, similar al desarrollo de ingeniería.
Concepción generalizada (errónea):
La elección del modelo es equivalente a elegir el mejor modelo
Para la explicación, debemos estar atentos a la posibilidad de que existan varios modelos explicativos (aproximadamente) igualmente buenos. La simplicidad ayuda tanto a comunicar los conceptos encarnados en el modelo como a lo que los psicólogos llaman generalización, la capacidad de "trabajar" en escenarios muy diferentes de aquellos en los que se estudió el modelo. Por lo tanto, hay una prima en algunos modelos.
Para la predicción: la buena analogía (del Dr. Ripley) es elegir entre opiniones de expertos: si tiene acceso a un gran panel de expertos, ¿cómo usaría sus opiniones?
La validación cruzada se encarga del aspecto de predicción. Para obtener detalles sobre el CV, consulte esta presentación del Dr. BD Ripley . Presentación del Dr. Brian D. Ripley sobre la selección del modelo.
Cita: Tenga en cuenta que todo en esta respuesta es de la presentación citada anteriormente. Soy un gran admirador de esta presentación y me gusta. Otras opiniones pueden variar. El título de la presentación es: "Selección entre grandes clases de modelos" y fue dado en el Simposio en honor del 80 cumpleaños de John Nelder, Imperial College, 29/30 de marzo de 2004, por el Dr. Brian D. Ripley.
fuente
Gran discusión aquí, pero pienso en la validación cruzada de una manera diferente a las respuestas hasta ahora (creo que mbq y yo estamos en la misma página). Entonces, pondré mis dos centavos a riesgo de enturbiar las aguas ...
La validación cruzada es una técnica estadística para evaluar la variabilidad y el sesgo, debido al error de muestreo, en la capacidad de un modelo para ajustar y predecir datos. Por lo tanto, "mejor" sería el modelo que proporciona el error de generalización más bajo, que estaría en unidades de variabilidad y sesgo. Se pueden usar técnicas como el Promedio de modelos Bayesian y Bootstrap para actualizar un modelo de forma algorítmica en función de los resultados del esfuerzo de validación cruzada.
Estas preguntas frecuentes proporcionan buena información para un contexto más de lo que informa mi opinión.
fuente
La función de error es el error de su modelo (función) en los datos de entrenamiento. La complejidad es alguna norma (p. Ej., Norma al cuadrado l2) de la función que está tratando de aprender. La minimización del término de complejidad favorece esencialmente las funciones suaves, que funcionan bien no solo en los datos de entrenamiento sino también en los datos de prueba. Si representa su función mediante un conjunto de coeficientes (por ejemplo, si está haciendo una regresión lineal), penalizar la complejidad mediante la norma al cuadrado conduciría a valores de coeficiente pequeños en su función (penalizar otras normas conduce a diferentes nociones de control de complejidad).
fuente
es equivalente a
fuente