Estoy leyendo los libros sobre regresión lineal. Hay algunas oraciones sobre la norma L1 y L2. Los conozco, simplemente no entiendo por qué la norma L1 para modelos dispersos. ¿Puede alguien usar dar una explicación
Inclusión de restricciones adicionales (generalmente una penalización por complejidad) en el proceso de ajuste del modelo. Se utiliza para evitar el sobreajuste / mejorar la precisión predictiva.
Estoy leyendo los libros sobre regresión lineal. Hay algunas oraciones sobre la norma L1 y L2. Los conozco, simplemente no entiendo por qué la norma L1 para modelos dispersos. ¿Puede alguien usar dar una explicación
Estoy buscando una definición no técnica del lazo y para qué se
He estado leyendo Elementos de aprendizaje estadístico , y me gustaría saber por qué el Lazo proporciona selección de variables y la regresión de crestas no. Ambos métodos minimizan la suma residual de cuadrados y tienen una restricción sobre los posibles valores de los parámetros . Para Lasso, la...
A diferencia de otros artículos, encontré que la entrada de Wikipedia para este tema es ilegible para una persona que no es matemática (como yo). Comprendí la idea básica, que favoreces modelos con menos reglas. Lo que no entiendo es cómo pasas de un conjunto de reglas a un "puntaje de...
Sigo leyendo esto e intuitivamente puedo ver esto, pero ¿cómo se pasa de la regularización L2 a decir que este es un Prior Gaussiano analíticamente? Lo mismo ocurre con decir que L1 es equivalente a un previo de Laplace. Cualquier otra referencia sería genial.
Para resolver problemas de selección de modelo, varios métodos (LASSO, regresión de cresta, etc.) reducirán los coeficientes de las variables predictoras hacia cero. Estoy buscando una explicación intuitiva de por qué esto mejora la capacidad predictiva. Si el verdadero efecto de la variable fue...
Siempre que se utiliza la regularización, a menudo se agrega a la función de costo, como en la siguiente función de costo. Esto tiene sentido intuitivo para mí ya que minimiza la función de costo significa minimizar el error (el término izquierdo) y minimizar las magnitudes de los coeficientes...
En las estadísticas tradicionales, al construir un modelo, verificamos la multicolinealidad utilizando métodos como las estimaciones del factor de inflación de varianza (VIF), pero en el aprendizaje automático, en su lugar, utilizamos la regularización para la selección de características y no...
La regularización utilizando métodos como Ridge, Lasso, ElasticNet es bastante común para la regresión lineal. Quería saber lo siguiente: ¿Son estos métodos aplicables para la regresión logística? Si es así, ¿hay alguna diferencia en la forma en que deben usarse para la regresión logística? Si...
Momentum se usa para disminuir las fluctuaciones en los cambios de peso en iteraciones consecutivas:αα\alpha dondeE(w)es la función de error,w- el vector de pesos,η- tasa de aprendizaje.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} +...
Tengo algunos problemas con la derivación de la solución para la regresión de crestas. Sé la solución de regresión sin el término de regularización: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Pero después de agregar el término L2 a la función de costo, ¿cómo es que la solución se...
¿Existen estudios empíricos que justifiquen el uso de la única regla de error estándar a favor de la parsimonia? Obviamente, depende del proceso de generación de datos de los datos, pero cualquier cosa que analice un gran conjunto de conjuntos de datos sería una lectura muy interesante. La...
En la página 223 en Introducción al aprendizaje estadístico , los autores resumen las diferencias entre la regresión de cresta y el lazo. Proporcionan un ejemplo (Figura 6.9) de cuándo "el lazo tiende a superar la regresión de cresta en términos de sesgo, varianza y MSE". Entiendo por qué el lazo...
Un problema que he visto con frecuencia planteado en el contexto de las redes neuronales en general, y las redes neuronales profundas en particular, es que están "hambrientos de datos", es decir, no funcionan bien a menos que tengamos un gran conjunto de datos con el que entrenar a la red. Tengo...
Tengo curiosidad por qué hay por lo general sólo y normas de regularización. ¿Hay pruebas de por qué son mejores?L
Estoy tratando de ajustar un modelo de regresión lineal multivariante con aproximadamente 60 variables predictoras y 30 observaciones, por lo que estoy usando el paquete glmnet para la regresión regularizada porque p> n. He estado revisando la documentación y otras preguntas, pero aún no puedo...
¿Se prefiere siempre la regularización de red elástica a Lasso & Ridge, ya que parece resolver los inconvenientes de estos métodos? ¿Cuál es la intuición y cuál es la matemática detrás de la red
¿Cómo se comparan los métodos de regularización de cresta, LASSO y elasticnet? ¿Cuáles son sus respectivas ventajas y desventajas? Cualquier buen documento técnico o apuntes de clase también serán apreciados.
¿Alguien puede recomendar una buena exposición de la teoría detrás de la regresión de mínimos cuadrados parciales (disponible en línea) para alguien que entiende SVD y PCA? He visto muchas fuentes en línea y no he encontrado nada que tuviera la combinación correcta de rigor y accesibilidad. He...
La regularización de Tikhonov y la regresión de crestas son términos que a menudo se usan como si fueran idénticos. ¿Es posible especificar exactamente cuál es la