Preguntas etiquetadas con gradient-descent

14

¿Por qué no utilizamos tasas de aprendizaje no constantes para gradientes decentes para otras cosas que no sean redes neuronales?

La literatura de aprendizaje profundo está llena de trucos inteligentes con el uso de tasas de aprendizaje no constantes en el descenso de gradiente. Cosas como la decadencia exponencial, RMSprop, Adagrad, etc. son fáciles de implementar y están disponibles en todos los paquetes de aprendizaje...

13

¿Por qué el descenso de gradiente es ineficiente para un gran conjunto de datos?

Digamos que nuestro conjunto de datos contiene 1 millón de ejemplos, es decir, , y deseamos utilizar el descenso de gradiente para realizar una regresión logística o lineal en este conjunto de datos.X1, ... , x106 6x1,…,x106x_1, \ldots, x_{10^6} ¿Qué pasa con el método de descenso de gradiente que...

machine-learning gradient-descent large-data

13

Elegir un tamaño de minibatch apropiado para el descenso de gradiente estocástico (SGD)

¿Existe alguna literatura que examine la elección del tamaño del minibatch al realizar el descenso de gradiente estocástico? En mi experiencia, parece ser una opción empírica, que generalmente se encuentra a través de la validación cruzada o el uso de diferentes reglas generales. ¿Es una buena...

machine-learning gradient-descent hyperparameter deep-learning

13

¿Por qué el algoritmo de descenso "Saddle-Free Newton" no se utiliza en la práctica?

Recientemente leí un artículo de Yann Dauphin et al. Identificando y atacando el problema del punto de silla de montar en la optimización no convexa de alta dimensión , donde introducen un interesante algoritmo de descenso llamado Saddle-Free Newton , que parece estar adaptado exactamente para la...

optimization deep-learning gradient-descent

12

Gradiente para la función de pérdida logística

Haría una pregunta relacionada con este . Encontré un ejemplo de escritura de la función de pérdida personalizada para xgboost aquí : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <-...

r machine-learning gradient-descent boosting loss-functions

12

¿Es posible evaluar GLM en Python / scikit-learn usando las distribuciones de Poisson, Gamma o Tweedie como la familia para la distribución de errores?

Intento aprender algo de Python y Sklearn, pero para mi trabajo necesito ejecutar regresiones que utilicen distribuciones de error de las familias Poisson, Gamma y especialmente Tweedie. No veo nada en la documentación sobre ellos, pero están en varias partes de la distribución R, por lo que me...

generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

12

¿El descenso de gradiente no encuentra solución a los mínimos cuadrados ordinarios en este conjunto de datos?

He estado estudiando la regresión lineal y la probé en el siguiente conjunto {(x, y)}, donde x especificó el área de la casa en pies cuadrados e y especificó el precio en dólares. Este es el primer ejemplo en Andrew Ng Notes . 2104,400 1600,330 2400,369 1416,232 3000,540 Desarrollé un código de...

regression least-squares gradient-descent supervised-learning

12

¿Cómo actualiza el descenso de gradiente de minibatch los pesos para cada ejemplo en un lote?

Si procesamos digamos 10 ejemplos en un lote, entiendo que podemos sumar la pérdida para cada ejemplo, pero ¿cómo funciona la propagación hacia atrás en relación con la actualización de los pesos para cada ejemplo? Por ejemplo: Ejemplo 1 -> pérdida = 2 Ejemplo 2 -> pérdida = -2 Esto da...

neural-networks gradient-descent backpropagation tensorflow

11

Cuándo usar la pendiente de gradiente vs Montecarlo como una técnica de optimización numérica

Cuando un conjunto de ecuaciones no puede resolverse analíticamente, entonces podemos usar un algoritmo de descenso de gradiente. Pero parece que también existe el método de simulación de Monte Carlo que puede usarse para resolver problemas que no tienen soluciones analíticas. ¿Cómo saber cuándo...

monte-carlo gradient-descent

11

R / mgcv: ¿Por qué los productos tensoriales te () y ti () producen superficies diferentes?

El mgcvpaquete Rtiene dos funciones para ajustar las interacciones del producto tensorial: te()y ti(). Entiendo la división básica del trabajo entre los dos (ajustar una interacción no lineal versus descomponer esta interacción en efectos principales y una interacción). Lo que no entiendo es por...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

¿Las redes residuales están relacionadas con el aumento de gradiente?

Recientemente, vimos la aparición de la Red Neural Residual, en la que cada capa consta de un módulo computacional y una conexión de acceso directo que preserva la entrada a la capa, como la salida de la capa i-ésima muestra: y i + 1 = c i + y i La red permite extraer características residuales y...

machine-learning neural-networks deep-learning gradient-descent residual-networks

10

¿Cómo entrenar un SVM a través de la propagación inversa?

Me preguntaba si era posible entrenar un SVM (digamos uno lineal, para facilitar las cosas) usando la propagación hacia atrás. Actualmente, estoy en un obstáculo, porque solo puedo pensar en escribir la salida del clasificador

machine-learning neural-networks svm gradient-descent backpropagation

10

Cómo configurar el tamaño de mini lote en SGD en keras

Soy nuevo en Keras y necesito tu ayuda. Estoy entrenando una red neuronal en Keras y mi función de pérdida es la salida cuadrada b / n de la red y el valor objetivo. Quiero optimizar esto usando Gradient Descent. Después de pasar por algunos enlaces en la red, he llegado a saber que generalmente...

neural-networks python gradient-descent keras sgd

10

¿Se puede entrenar un modelo de P (Y | X) a través del descenso de gradiente estocástico a partir de muestras de P (X) sin iid y muestras de P (Y | X)?

Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo...

machine-learning conditional-probability reinforcement-learning gradient-descent

9

¿Cómo está aumentando el gradiente como el descenso del gradiente?

Estoy leyendo la útil entrada de Wikipedia sobre el aumento de gradiente ( https://en.wikipedia.org/wiki/Gradient_boosting ), y trato de entender cómo / por qué podemos aproximar los residuos por el paso de descenso más pronunciado (también llamado pseudo-gradiente ) ¿Alguien puede darme la...

self-study gradient-descent

9

¿Por qué el descenso de gradiente proximal en lugar de los métodos de subgradiente simples para Lasso?

Estaba pensando en resolver Lasso a través de métodos de subgrado de vainilla. Pero he leído personas que sugieren usar el descenso de gradiente proximal. ¿Alguien puede resaltar por qué se usa GD proximal en lugar de los métodos de subgradiente de vainilla para

machine-learning optimization lasso gradient-descent

9

Descenso de gradiente o no para regresión lineal simple

Hay varios sitios web que describen el descenso de gradiente para encontrar los parámetros para la regresión lineal simple ( aquí hay uno de ellos). Google también lo describe en su nuevo curso (para el público) de ML. Sin embargo en Wikipedia , se proporcionan las siguientes fórmulas para...

regression scikit-learn gradient-descent

9

Definición de complejidad de un árbol en xgboost

Investigando sobre el algoritmo xgboost, revisé la documentación . En este enfoque, los árboles se regularizan utilizando la definición de complejidad donde y son parámetros, es el número de hojas terminales y es la puntuación en cada hoja.Ω ( f) = γT+12λ∑j = 1Tw2jΩ(F)=γT+12λ∑j=1Twj2 \Omega(f) =...

cart regularization boosting gradient-descent overfitting

9

Optimización de descenso de gradiente

Estoy tratando de entender la optimización de descenso de gradiente en algoritmos ML (aprendizaje automático). Tengo entendido que hay una función donde el costo es el objetivo de minimizar el error y - y . En un escenario donde los pesos w 1 , w 2 se están optimizando para dar el error mínimo y se...

optimization gradient-descent

9

¿Por qué mis pasos se hacen más pequeños cuando uso un tamaño de paso fijo en descenso de gradiente?

Supongamos que estamos haciendo un ejemplo de juguete en gradiente decente, minimizando una función cuadrática , usando un tamaño de paso fijo . ( )α = 0.03 A = [ 10 , 2 ; 2 , 3 ]XTA xxTAxx^TAxα = 0.03α=0,03\alpha=0.03A = [ 10 , 2 ; 2 , 3 ]UNA=[10,2;2,3]A=[10, 2; 2, 3] Si trazamos el rastro de en...

r machine-learning optimization gradient-descent