Skip to content

Latest commit

 

History

History
86 lines (74 loc) · 5.04 KB

README.md

File metadata and controls

86 lines (74 loc) · 5.04 KB

YoYAK

Yes or Yes, Attention with gap-sentence for Korean long sequence

안녕하세요 투빅스 제 13회 컨퍼런스 프로젝트 YoYAK의 레포지토리입니다.

YoYAK은 긴 문장도 입력으로 처리할 수 있는 한국어 Abstractive Summarization Model 입니다.

YoYAK은 빅데이터 분석 및 인공지능 대표 연합동아리 투빅스 제 13회 컨퍼런스에서 발표된 모델입니다.

YoYAK 모델 구조

  • Initial Weight : KoBART🤣
  • Attention Layer : Longformer Dilated Sliding Window
  • Objective Function : Gap Sentence Generation(GSG) from PEGASUS

YoYAK 모델 특징

  • 최대 4096 길이의 토큰까지 입력값으로 처리할 수 있습니다.
  • 최대 1024 길이의 토큰까지 생성합니다.
  • 요약 태스크에 맞춘 pretraining(GSG) 과정을 거쳤습니다.

GSG 학습 데이터(약 330만 문서)

  • 국민청원(2017 ~ 2019)
  • 위키피디아
  • 나무위키( ~ 2021.03.10.)
  • 모두의 말뭉치 - 뉴스

Finetuning 학습 데이터

  • AIHub 데이터셋
  • 문서요약
  • 도서자료요약
  • 논문자료요약
  • Dacon 뉴스요약
  • 기타 데이터셋 2개

모델 성능

Under 512 Under 512 Under 512 Over 512 Over 512 Over 512
Metric ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
YoYAK 0.3951 0.3035 0.3573 0.3486 0.2585 0.3100
KoBART 0.3500 0.2629 0.3085 0.3482 0.2583 0.3081

-> 저희 YoYAK 모델이 512 토큰 이상/이하 여부와 관계없이 기존의 KoBART 모델을 abstractive summarization task에 finetuning 시킨 결과보다 더 나은 결과를 보이고 있습니다.

훈련 모델 파일

  • 모델 파일이 필요하시다면 다음 메일로 연락주세요!
  • stapers@naver.com

YoYAK 관련 자료

  • YoYAK과 관련된 자세한 사항은 컨퍼런스 자료를 확인해주세요!
  • Slide
  • Youtube

Reference

Contributors


Keonwoo Kim

Hyowon Cho

Jongwoo Kim

Joonwon Jang
GSG
Post Processing
Longformer
Pre Processing(petition)
Experiment
Post Processing
Experiment
Longformer(model build, training pipeline)
Rouge Score

MinJin Jeon

Sanghyeon Kim

Jaehee Kim
Post Processing
Pre Processing(모두의 말뭉치)
Longformer
Pre Processing(Wikipedia)
Model Finetuning
Pre Processing(NamuWiki, Petition, Dataloader)
Post Processing