Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2019] Asking Clarifying Questions in Open-Domain Information-Seeking Conversations #38

Open
IkokObi opened this issue Aug 14, 2019 · 4 comments
Labels
IR Information Retrieval NLP Natural Language processing Query suggestion

Comments

@IkokObi
Copy link
Collaborator

IkokObi commented Aug 14, 2019

ざっくり言うと

  • ユーザからのクエリが曖昧で検索結果が絞りきれない場合に,ユーザの意図を絞り込むのに適切な質問を行うという研究
  • 新たにベンチマークタスクを作成・公開(Qulacという名称)
  • 評価を自動で行えるように絞り込み用の質問のプールを作成しているため,質問を生成するわけではない

キーワード

  • IR
  • clarifying question
  • query suggestion

1. 情報

論文リンク

https://dl.acm.org/citation.cfm?id=3331265

著者

Mohammad Aliannejadi, Hamed Zamani, Fabio Crestani, W. Bruce Croft

投稿日付

2019/7/21-25 (SIGIR 2019)

2. 先行研究と比べてどこがすごい?

  • 推薦の文脈ではなく,検索の文脈で絞り込むような質問を提示するというアプローチを調べた点
  • 分野が進むようにデータセットを作成・公開した点

3. 技術や手法のキモはどこ?

  • ユーザのクエリを受けて,3段階を繰り返すようなモデルを設計
    1. ユーザの意図を絞り込むための「質問」を検索
    2. 検索してきた質問の中から最も適切なものを選択
    3. 質問の返答も考慮して,「文書」を検索

4. どうやって有効だと検証した?

  • TREC Web track 09-12のデータセットをもとにして新しくデータセットを作成
  • 198のトピック,762のfacets(サブトピックのようなもの)が存在
  • 合計2,639の質問と,10,277件の質問-返答ペアを作成

5. 議論はある?

  • データセットの質問が事前に作成されている点
  • 今回の論文では,質問を中断して検索を表示するところには踏み込んでいない

6. 次に読むべき論文は?

@IkokObi IkokObi added IR Information Retrieval NLP Natural Language processing Query suggestion labels Aug 14, 2019
@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 14, 2019

7. 実装の詳細

  1. に記載したように,主に3ステップから成る.

Question Retrieval Model

  • ユーザのクエリ(t)と候補となる質問文(q)をそれぞれBERTでベクトル化し,関連しているか否かの2値分類器を学習
  • BERTはWikipediaの事前学習 + 今回作成したデータセットの文書で3epoch,fine-tuningしている
  • データセット作成の過程で関連する質問が分かっているので,それを予測する形で学習

Question Selection Model

  • ユーザのクエリ(t),それまでの質問&返答の履歴(h),候補の質問(q)を元にして,それぞれのqのスコアを計算し,最も高いものがユーザの意図を絞り込むための質問として提示される
  • BERTの[CLS]トークンのベクトルや,「6. 次に読むべき論文は?」の2番目の引用にあるσ QPPモデルの出力を元に,2そうの全結合ネットワークでスコアを計算

Document Retrieval Model

  • 「6. 次に読むべき論文は?」の1番目の引用にある言語モデルベースの検索モデルを利用

@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 14, 2019

8. データセット

  • TREC Web track 09-12のデータセットをもとにして新しくデータセットを作成しているため,データセットの作成を工夫している
  1. Web trackのデータを元にして,topic(queryとも表現される)とfacets(sub-topicに相当)を決める
  2. クラウドソーシングでtopicを検索してもらい,質問候補を集める
  3. 質問がfacetに対応するか否かを判断
  4. 上の3手順で作成された "query-facet-question" の3つ組に対する答えをクラウドソーシングで集める

スクリーンショット 2019-08-14 18 19 47

@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 14, 2019

9. 結果の詳細

  • question retrieval の部分と,question selectionの性能について検証している.
  • question retrieval については,関連する質問候補を拾えているかを重視(recall重視)
  • question selectionについては,絞り込みの質問を行なった結果,検索結果がどれだけ改善したかを調べている

@IkokObi
Copy link
Collaborator Author

IkokObi commented Aug 14, 2019

雑感&メモ

  • ユーザからの最初の検索ワードはtopicから始まっており,ちょっと人工的なタスクという印象
  • 評価を自動で行うために,質問候補を事前に決めている設定になっているが,ここを柔軟に設計出来るようにしたい(ただ,評価が難しくなる...)
  • 著者のW. Bruce Croftさんは結構な大御所

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
IR Information Retrieval NLP Natural Language processing Query suggestion
Projects
None yet
Development

No branches or pull requests

1 participant