Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2021] FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS #60

Open
IkokObi opened this issue Oct 22, 2021 · 4 comments
Open

[2021] FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS #60

IkokObi opened this issue Oct 22, 2021 · 4 comments
Labels
NLP Natural Language processing

Comments

@IkokObi
Copy link
Collaborator

IkokObi commented Oct 22, 2021

ざっくり言うと

GPT-3などのzero-shotで使われているpromptingの考えと、pretrain-finetuneの考えを組み合わせた"instruction tuning"を提案した。"instruction tuning"は入力文内にタスク内容の説明文を含める学習方法で、タスクの説明文からその問題の解き方を学習させたいという意図がある。結果としてzero-shotの精度を向上させ、多くのタスクにおいてGPT-2のzero-shotモデルを超え、一部ではGPT-3のfew-shot学習モデルをも超えた。

キーワード

  • zero-shot learning
  • language model
  • prompting

1. 情報

論文リンク

https://arxiv.org/abs/2109.01652

著者

Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le
Google Research

投稿日付

2021/10/5

2. 先行研究と比べてどこがすごい?

  • zero-shot学習の精度比較において、20/25でGPT-3を超えた
  • 6つのタスクではfew-shotのGPT-3の精度を超えた

3. 技術や手法のキモはどこ?

  • タスク内容の説明文を入力内に含ませたうえで(prompting)、個々のfine-tuningタスクを学習させている。これにより新規タスクでもpromptを活用することで精度が向上すると考えられる。
  • prompt自体は、汎用言語モデルを使ってzero-shotを行う方法としてに既に使われている

4. どうやって有効だと検証した?

  • 62個のデータセットをタスクのカテゴリに分割し、カテゴリ毎のleave-one-out CVみたいな感じでzero-shotの精度を検証している

5. 議論はある?

  • 学習するタスクのクラスタ数を増やすと精度は上がる(Figure 5)
  • 学習するタスクの各クラスタ内のデータセット数を増やすと精度は上がる(Figure 8)
  • モデルサイズを変えて"instruction tuning"の効果を検証しており、100 Billionパラメータ以上で改善効果が大きくなる(Figure 6)
  • 各タスクの精度に関しては依然としてfine-tuningされたBERTやT5の方が高い
    • あくまでzero-shot(, few-shot)でGPT-3を大きく上回ったという結果の論文

6. 次に読むべき論文は?

@IkokObi IkokObi changed the title FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS [2021] FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS Oct 22, 2021
@IkokObi IkokObi added the NLP Natural Language processing label Oct 22, 2021
@IkokObi
Copy link
Collaborator Author

IkokObi commented Oct 22, 2021

7. 実装の詳細

  • 命名はFLAN: Finetuned LAnguage Net
  • モデル構造については、"dense left-to-right, decoder-only transformer language model of 137B parameters"という感じの記載で、Vaswani et al., 2017 (Attention is all you need)のdecoderのみ
    • パラメータ数の参考までに、BERT largeは0.34B、GPT-3は175B
  • タスク内容を説明するpromptはデータセット毎にテンプレートを10個作成している
  • 分類タスクを解く際は入力文内に答えるべきクラス一覧を含めるようにしている。GPT-3の論文では各クラス毎に名前を決めてそのクラス名の出力確率を元に分類していたが、クラス名の同義語の存在などにより出力確率が下がる懸念がある。(下記図のイメージ)

スクリーンショット 2021-10-22 18 13 20

@IkokObi
Copy link
Collaborator Author

IkokObi commented Oct 22, 2021

8. データセット

各タスクの詳細はAppendix Fに記載されている。

スクリーンショット 2021-10-22 18 14 06

@IkokObi
Copy link
Collaborator Author

IkokObi commented Oct 22, 2021

9. 結果の詳細

  • 62個のデータセット全結果については論文の本文及びAppendixに記載
  • NLI(パラグラフに基づいたQA), reading comprehensionでは大きな改善が見られ、GPT-3のfew-shotを超えるものも多かった
  • 翻訳ではGPT-3のzero-shotは超えているが、few-shotを超える程ではなかった
  • commonsense reasoningと共参照(文章内の穴埋めタスク)では"instruction tuning"をする前の言語モデル(Base LM)のzero-shotより悪いケースが見られた
    • 事前学習と似たタスクだと効果が薄いのではと議論されている
  • その他のGPT-3が評価されていないtaskでは、基本的にはBase LMのzero-shotを超えていた(一部few-shotも超えていた)
  • summarizationは入力長がtoken数の上限を超えることが多かったため、評価はせず学習のみ(Appendix A)

@IkokObi
Copy link
Collaborator Author

IkokObi commented Oct 22, 2021

雑感&メモ

  • "instruction tuning"はMAMLに近いかもと思った
    • MAMLは学習の仕方を学習する、"instruction tuning"はタスク毎の推論の方法を学習する、というイメージ

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
NLP Natural Language processing
Projects
None yet
Development

No branches or pull requests

1 participant