SGDにおける「順番」の問題

論文機械学習 SGD

この記事は atma Advent Calendar adventar.org の 12/1 分の記事です。大分遅くなってしまいましたがこの記事では Stochastic Gradient Descent における順番が与える影響とそれにまつわる論文をいくつか紹介したいと思います。 Stochastic Gradient Descen…

2019-08-16

RAdam: Adam の学習係数の分散を考えたOptimizerの論文紹介

論文機械学習 SGD

表題の通り噂の最適化手法 RAdam の論文 On the Variance of the Adaptive Learning Rate and Beyond を読んだので, そのまとめです!! 概要一言でいうと「今までヒューリスティックに行っていた Adam 学習開始時の LR 調整を自動化できるような枠組みをつく…

2019-05-30

Adabound の final_lr と収束性について

Python pytorch ディープラーニング論文 SGD

みなさん optimizer は何を使っていますか? (僕は SGD + Momentum + Nesterov が好きです) adagrad/adadelta/adam などなど NN で用いられる optimizer は数多くありますが, 最近提案された optimizer に adabound というものがあります。 adabound はざっく…

2018-11-03

重みのスケールに依存しないSGD: Path Normalized Optimization in Deep Neural Network

論文機械学習 SGD

表題の論文を読んだのでまとめます！ url: [1506.02617] Path-SGD: Path-Normalized Optimization in Deep Neural Networks Path-SGD を考えたモチベーションニューラルネットワークがこの論文の主題です。 Rescaling 今、あるニューラルネットワークの $i,…

nykergoto’s blog

機械学習とpythonをメインに

SGD

SGDにおける「順番」の問題

RAdam: Adam の学習係数の分散を考えたOptimizerの論文紹介

Adabound の final_lr と収束性について

重みのスケールに依存しないSGD: Path Normalized Optimization in Deep Neural Network