Estoy buscando una definición no técnica del lazo y para qué se
Inclusión de restricciones adicionales (generalmente una penalización por complejidad) en el proceso de ajuste del modelo. Se utiliza para evitar el sobreajuste / mejorar la precisión predictiva.
Estoy buscando una definición no técnica del lazo y para qué se
Considere los siguientes tres fenómenos. Paradoja de Stein: dados algunos datos de la distribución normal multivariada en , la media muestral no es un muy buen estimador de la media real. Se puede obtener una estimación con un error cuadrático medio menor si se reducen todas las coordenadas de la...
La temporada navideña me ha dado la oportunidad de acurrucarme junto al fuego con The Elements of Statistical Learning . Viniendo desde una perspectiva econométrica (frecuentista), tengo problemas para comprender los usos de los métodos de contracción, como la regresión de crestas, el lazo y la...
Entiendo que la estimación de regresión de cresta es la que minimiza la suma residual del cuadrado y una penalización en el tamaño deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y =...
Para resolver problemas de selección de modelo, varios métodos (LASSO, regresión de cresta, etc.) reducirán los coeficientes de las variables predictoras hacia cero. Estoy buscando una explicación intuitiva de por qué esto mejora la capacidad predictiva. Si el verdadero efecto de la variable fue...
¿Cuál es la fórmula exacta utilizada en R lm() para el R cuadrado ajustado? ¿Cómo puedo interpretarlo? Fórmulas r-cuadrado ajustadas Parece que existen varias fórmulas para calcular el R cuadrado ajustado. Fórmula de Wherry:1 - ( 1 - R2) ( n - 1 )( n - v
He leído tres razones principales para estandarizar variables antes de algo como la Lassoregresión: 1) Interpretabilidad de coeficientes. 2) Capacidad para clasificar la importancia del coeficiente según la magnitud relativa de las estimaciones del coeficiente posterior a la contracción. 3) No...
El documento original de red elástica Zou & Hastie (2005) La regularización y la selección de variables a través de la red elástica introdujeron la función de pérdida neta elástica para la regresión lineal (aquí supongo que todas las variables están centradas y escaladas a la varianza...
Una vez escuché un método de usar el lazo dos veces (como un lazo doble) en el que realizas un lazo en el conjunto original de variables, por ejemplo, S1, obtienes un conjunto disperso llamado S2 y luego vuelves a realizar el lazo en el conjunto S2 para obtener el conjunto S3 . ¿Existe un término...
La regresión de LASSO reduce los coeficientes hacia cero, proporcionando así una selección de modelo efectiva. Creo que en mis datos hay interacciones significativas entre covariables nominales y continuas. No necesariamente, sin embargo, son los 'efectos principales' del verdadero modelo...
Para un modelo lineal , el término de contracción siempre es .y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) ¿Cuál es la razón por la que no término de sesgo (intercepción) ? ¿Deberíamos reducir el término de sesgo en los modelos de redes
La precisión se define como: p = true positives / (true positives + false positives) ¿Es cierto que, como true positivesy false positivesenfoque 0, la precisión se aproxima a 1? La misma pregunta para recordar: r = true positives / (true positives + false negatives) Actualmente estoy...
He estado leyendo sobre el estimador James-Stein. Se define, en estas notas , como θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X He leído la prueba pero no entiendo la siguiente declaración: Geométricamente, el estimador James-Stein reduce cada componente de...
Tengo una pregunta sobre el cálculo del factor de contracción de James-Stein en el artículo de Scientific American de 1977 de Bradley Efron y Carl Morris, "La paradoja de Stein en estadística" . Reuní los datos para los jugadores de béisbol y se dan a continuación: Name, avg45, avgSeason...
La regresión de cresta estima los parámetros ββ\boldsymbol \beta en un modelo lineal by dondeß λ = ( X ⊤ X + λ I ) - 1 X ⊤ y , λy=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \betaβ^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}...
Si comenzamos con un conjunto de datos , le aplicamos Lasso y obtenemos una solución β L , podemos volver a aplicar Lasso al conjunto de datos ( X S , Y ) , donde S es el conjunto de valores distintos de cero. índices de β L , para obtener una solución, β R L , llamada solución 'LASSO relajada'...
Me toma la idea de la contracción de James-Stein (es decir, que una función no lineal de una sola observación de un vector de normales posiblemente independientes puede ser un mejor estimador de las medias de las variables aleatorias, donde 'mejor' se mide por error al cuadrado ) Sin embargo, nunca...
¿Hay resultados analíticos o documentos experimentales con respecto a la elección óptima del coeficiente del término de penalización ℓ1ℓ1\ell_1 ? Por óptimo , me refiero a un parámetro que maximiza la probabilidad de seleccionar el mejor modelo, o que minimiza la pérdida esperada. Pregunto porque a...
Ya hay una publicación en este sitio que habla sobre el mismo problema: ¿Por qué funciona la contracción? Pero, aunque las respuestas son populares, no creo que la esencia de la pregunta se aborde realmente. Está bastante claro que la introducción de algún sesgo en la estimación conlleva una...
La palabra contracción se usa mucho en ciertos círculos. Pero lo que es la contracción, no parece haber una definición clara. Si tengo una serie temporal (o una colección de observaciones de algún proceso), ¿cuáles son las diferentes formas en que puedo medir algún tipo de contracción empírica en...