A diferencia de otros artículos, encontré que la entrada de Wikipedia para este tema es ilegible para una persona que no es matemática (como yo).
Comprendí la idea básica, que favoreces modelos con menos reglas. Lo que no entiendo es cómo pasas de un conjunto de reglas a un "puntaje de regularización" que puedes usar para ordenar los modelos de menor a mayor.
¿Puedes describir un método de regularización simple?
Me interesa el contexto del análisis de los sistemas estadísticos de comercio. Sería genial si pudiera describir si / cómo puedo aplicar la regularización para analizar los siguientes dos modelos predictivos:
Modelo 1 - precio subiendo cuando:
- exp_moving_avg (precio, período = 50)> exp_moving_avg (precio, período = 200)
Modelo 2 - precio subiendo cuando:
- precio [n] <precio [n-1] 10 veces seguidas
- exp_moving_avg (precio, periodo = 200) subiendo
Pero estoy más interesado en tener una idea de cómo se hace la regularización. Entonces, si conoce mejores modelos para explicarlo, hágalo.
fuente
Respuestas:
En términos simples, la regularización es ajustar o seleccionar el nivel preferido de complejidad del modelo para que sus modelos sean mejores para predecir (generalizar). Si no hace esto, sus modelos pueden ser demasiado complejos y sobreajustados o demasiado simples y poco ajustados, de cualquier manera dando malas predicciones.
Si los mínimos cuadrados ajustan un modelo complejo a un pequeño conjunto de datos de entrenamiento que probablemente sobreajuste, esta es la situación más común. La complejidad óptima del modelo depende del tipo de proceso que esté modelando y la calidad de los datos, por lo que no existe una complejidad correcta a priori de un modelo.
Para regularizar necesitas 2 cosas:
Tenga en cuenta que el error de regularización optimizado no será una estimación precisa del error de predicción general, por lo que después de la regularización finalmente tendrá que usar un conjunto de datos de validación adicional o realizar algún análisis estadístico adicional para obtener un error de predicción imparcial.
Una alternativa al uso de las pruebas de validación (cruzada) es usar los Bayesian Priors u otros métodos para penalizar la complejidad o la falta de suavidad, pero estos requieren más sofisticación estadística y conocimiento del problema y las características del modelo.
fuente
Suponga que realiza el aprendizaje a través de la minimización empírica de riesgos.
Más precisamente:
Pero si no tiene suficientes datos y hay una gran cantidad de variables en su modelo, es muy probable que encuentre un modelo que no solo explique patrones sino que también explique el ruido aleatorio en sus datos. Este efecto se llama sobreajuste y conduce a la degradación de la capacidad de generalización de su modelo.
fuente
En términos simples, la regularización se trata de beneficiar las soluciones que esperaría obtener. Como mencionas, por ejemplo, puedes beneficiar soluciones "simples", para alguna definición de simplicidad. Si su problema tiene reglas, una definición puede ser menos reglas. Pero esto depende del problema.
Estás haciendo la pregunta correcta, sin embargo. Por ejemplo, en Support Vector Machines, esta "simplicidad" proviene de romper lazos en la dirección del "margen máximo". Este margen es algo que puede definirse claramente en términos del problema. Hay una muy buena derivación geométrica en el artículo SVM en Wikipedia . Resulta que el término de regularización es, posiblemente al menos, la "salsa secreta" de las SVM.
¿Cómo se hace la regularización? En general, eso viene con el método que usa, si usa SVM está haciendo la regularización L2, si usa LASSO está haciendo la regularización L1 (vea lo que dice hairybeast). Sin embargo, si está desarrollando su propio método, necesita saber cómo distinguir las soluciones deseables de las no deseables, y tener una función que cuantifique esto. Al final, tendrá un término de costo y un término de regularización, y desea optimizar la suma de ambos.
fuente
Las técnicas de regularización son técnicas aplicadas a los modelos de aprendizaje automático que hacen que el límite de decisión / modelo ajustado sea más uniforme. Esas técnicas ayudan a prevenir el sobreajuste.
fuente
En términos simples, la regularización es una técnica para evitar el sobreajuste al entrenar algoritmos de aprendizaje automático. Si tiene un algoritmo con suficientes parámetros libres, puede interpolar con gran detalle su muestra, pero los ejemplos que salen de la muestra podrían no seguir esta interpolación de detalles, ya que solo capturó ruido o irregularidades aleatorias en la muestra en lugar de la verdadera tendencia.
Se evita el sobreajuste limitando el valor absoluto de los parámetros en el modelo. Esto se puede hacer agregando un término a la función de costo que impone una penalización basada en la magnitud de los parámetros del modelo. Si la magnitud se mide en la norma L1, esto se llama "regularización L1" (y generalmente da como resultado modelos escasos), si se mide en la norma L2, esto se llama "regularización L2", y así sucesivamente.
fuente