Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【2017】Improving Generalization Performance by Switching from Adam to SGD #48

Open
Yongtae723 opened this issue Aug 25, 2019 · 0 comments

Comments

@Yongtae723
Copy link

ざっくり言うと

Optimizerに関する論文。
OptimizerとしてSGD, Adamが一般的に利用されているが、Adamは収束が早いがfinalの精度が悪く、SGDは収束が遅いがfinalの精度が良い。
このようにSGD, Adamは一長一短の関係にある。
本論では学習初期にSGD, 学習最後にAdamを利用することで、良いところどりしたOptimizerが通れるという論文。

キーワード

Optimizer
SGD, Adam , SWATS

1. 情報

論文リンク

https://arxiv.org/abs/1712.07628

著者

Nitish Shirish Keskar,

投稿日付

2017年

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

AdamからSGDに切り替えるタイミングで学習率をAdamからの情報を元にSGDに組み込むことで、SGDに切り替え後のSGDの性能はAdamを越すことができる。

4. どうやって有効だと検証した?

本論文ではSWATSの有用性を画像分類(dataset : CIFAR-100, CIFAR-10)、自然言語処理(dataset : ILSVRC 2012)の2つで検証

5. 議論はある?

6. 次に読むべき論文は?

7. 実装の詳細

https://github.com/Mrpatekful/swats

8. データセット

4に記載

9. 結果の詳細

画像学習、言語処理の多くの場合、SWATSはSGD, Adamより良い結果を残したが、SWATSは時々不安定になる時があり、SGDやAdamの方が成績が良い時もある。実装時にはいろいろ試す必要あり

雑感&メモ

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant