We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Optimizerに関する論文。 OptimizerとしてSGD, Adamが一般的に利用されているが、Adamは収束が早いがfinalの精度が悪く、SGDは収束が遅いがfinalの精度が良い。 このようにSGD, Adamは一長一短の関係にある。 本論では学習初期にSGD, 学習最後にAdamを利用することで、良いところどりしたOptimizerが通れるという論文。
Optimizer SGD, Adam , SWATS
https://arxiv.org/abs/1712.07628
Nitish Shirish Keskar,
2017年
AdamからSGDに切り替えるタイミングで学習率をAdamからの情報を元にSGDに組み込むことで、SGDに切り替え後のSGDの性能はAdamを越すことができる。
本論文ではSWATSの有用性を画像分類(dataset : CIFAR-100, CIFAR-10)、自然言語処理(dataset : ILSVRC 2012)の2つで検証
https://github.com/Mrpatekful/swats
4に記載
画像学習、言語処理の多くの場合、SWATSはSGD, Adamより良い結果を残したが、SWATSは時々不安定になる時があり、SGDやAdamの方が成績が良い時もある。実装時にはいろいろ試す必要あり
The text was updated successfully, but these errors were encountered:
No branches or pull requests
ざっくり言うと
Optimizerに関する論文。
OptimizerとしてSGD, Adamが一般的に利用されているが、Adamは収束が早いがfinalの精度が悪く、SGDは収束が遅いがfinalの精度が良い。
このようにSGD, Adamは一長一短の関係にある。
本論では学習初期にSGD, 学習最後にAdamを利用することで、良いところどりしたOptimizerが通れるという論文。
キーワード
Optimizer
SGD, Adam , SWATS
1. 情報
論文リンク
https://arxiv.org/abs/1712.07628
著者
Nitish Shirish Keskar,
投稿日付
2017年
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
AdamからSGDに切り替えるタイミングで学習率をAdamからの情報を元にSGDに組み込むことで、SGDに切り替え後のSGDの性能はAdamを越すことができる。
4. どうやって有効だと検証した?
本論文ではSWATSの有用性を画像分類(dataset : CIFAR-100, CIFAR-10)、自然言語処理(dataset : ILSVRC 2012)の2つで検証
5. 議論はある?
6. 次に読むべき論文は?
7. 実装の詳細
https://github.com/Mrpatekful/swats
8. データセット
4に記載
9. 結果の詳細
画像学習、言語処理の多くの場合、SWATSはSGD, Adamより良い結果を残したが、SWATSは時々不安定になる時があり、SGDやAdamの方が成績が良い時もある。実装時にはいろいろ試す必要あり
雑感&メモ
The text was updated successfully, but these errors were encountered: