Skip to content

scb-mt-en-th-2020 - v1.0

Compare
Choose a tag to compare
@lalital lalital released this 22 Jun 09:45
5fa3288

AI Research Institute of Thailand (AIResearch), with the collaboration between Vidyasirimedhi Institute of Science and Technology (VISTEC) and Digital Economy Promotion Agency (depa), publishes an open English-Thai machine translation dataset, with the sponsorship from Siam Commercial Bank (SCB), namely scb-mt-en-th-2020. The dataset contains parallel sentences from various sources such as task-based conversation, organization websites, Wikipedia articles, and government documents.

To obtain parallel sentences, we hire professional and crowdsourced translators and build a module to automatically align parallel sentence pairs from documents, articles, and web pages.

AIResearch also shares pre-trained models for both Thai→English and English→Thai direction as baseline models. See more information at Thai-English Machine Translation Model)


Dataset statistics

English-Thai machine translation dataset scb-mt-en-th-2020 version 1.0 comprise of 1,001,752 segment pairs. The dataset are from 12 different sources (CSV files) as follows:

Method Sub-dataset Description Number of segment pairs
Professional Translators task_master_1 Task-based dialogs from Taskmaster 1 dataset and translated to Thai by professional translators. 222,733
generated_review_translator Machine-generated product reviews in English and translated to Thai by professional translators. 133,330
Crowd-sourced Translators nus_sms SMS messages in English from the NUS SMS corpus and translated to Thai by crowdsourced translators. 43,750
msr_paraphrase Sentences from Microsoft Research Paraphrase Corpus and translated to Thai by crowdsourced translators. 10,371
mozilla_common_voice English Transcript from Common Voice dataset and translated to Thai by crowdsourced translators. 33,797
generated_review_crowd Machine-generated product reviews in English and translated to Thai by crowdsourced translators. 24,587
Annotation by Translators generated_review_yn Machine-generated product reviews in English which are translated to Thai by Google Translate API (v3) on May 2020, and verified by translators 280,208
Sentence Alignment on PDF Documents assorted_government Aligned segments obtained from Thai government PDF documents. 25,398
Sentence Alignment on Web-crawled Dat thai_websites Aligned segments from web-crawl data from the top-500 domains in Thailand ranked by alexa.com in May 2020 120,280
paracrawl Aligned segments from web-crawl data from the domains listed in ParaCrawl Corpus v5 60,039
wikipedia Aligned segments from parallel English-Thai Wikipedia articles 33,756
apdf Aligned segments from a news site, Asia Pacific Defense Forum 13,503
1,001,752

More statistics of the dataset including the number of words/sentences and examples of parallel sentence pairs can be seen in a notebook via Google Colaboratory


Version

  • Version 1.0 (23 June 2020): English-Thai machien translation dataset scb-mt-en-th-2020 version 1.0 containing 1,001,752 segment pairs.

Sponsorship and license

Siam Commercial Bank PCL has published the dataset to the public under Attribution-ShareAlike 4.0 International license (CC BY-SA 4.0) except the English-Thai sentences pairs from Mozilla Common Voice that will be under CC0; No Rights Reserved.




สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) ซึ่งเกิดจากความร่วมมือระหว่างสถาบันวิทยสิริเมธี (VISTEC) และสำนักงานส่งเสริมเศรษฐกิจดิจิทัล (depa) ได้ทำการเปิดชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย จำนวนกว่า 1 ล้านคู่ประโยคสู่สาธารณะ โดยได้รับการสนับสนุนจาก บมจ. ธนาคารไทยพาณิชย์ (SCB) ภายใต้ชื่อ scb-mt-en-th-2020 ชุดข้อมูลคู่ประโยคนี้ ได้รวบรวมจากหลายข้อมูลแหล่งอาทิเช่น ประโยคจากบทสนทนา ข้อมูลจากเว็บไซต์ข่าวหรือองค์กรที่มีเนื้อหาในสองภาษา บทความวิกิพีเดีย และเอกสารราชการ

การได้มาซึ่งคู่ภาษามีทั้ง การจ้างนักแปลภาษา และ การใช้ Algorithm ในจับคู่ประโยคภาษาไทยและอังกฤษโดยอัตโนมัติ (Sentence alignment) จากหน้าเอกสาร บทความ และเว็บไซต์

โดยชุดข้อมูลนี้ เป็น Model-ready หรือ พร้อมสำหรับการนำไปใช้ฝึกฝนโมเดลแปลภาษาได้ทันที ทางศูนย์วิจัยได้เปิด Pre-trained model สำหรับการนำไปใช้งาน และเป็น Baseline model (สามารถดูเพิ่มเติมที่ Thai-English Machine Translation Model)


สถิติชุดข้อมูล

ชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย scb-mt-en-th-2020 เวอร์ชัน 1.0 โดยมีจำนวนคู่ประโยคทั้งหมด 1,001,752 คู่ประโยค สำหรับข้อมูลในชุดข้อมูลนี้แบ่งเป็น 12 แหล่งที่มา (ไฟล์นามสกุล .csv) ดังนี้


วิธีการ ชุดข้อมูล คำอธิบาย จำนวนคู่ประโยค
การแปลโดยนักแปลมืออาชีพ task_master_1 บทสนทนาจากชุดข้อมูล Taskmaster-1 ในภาษาอังกฤษและแปลเป็นไทยโดยนักแปลมืออาชีพ 222,733
generated_review_translator รีวิวสินค้าที่สร้างขึ้นจากโมเดลและแปลเป็นไทยโดยนักแปลมืออาชีพ 133,330
การแปลโดยนักแปลจาก crowdsourcing แพลตฟอร์ม nus_sms ข้อความ SMS ในภาษาอังกฤษ จากชุดขัอมูล NUS SMS และแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม 43,750
msr_paraphrase ประโยคในภาษาอังกฤษ จากชุดขัอมูล Microsoft Research Paraphrase Identification และแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม 10,371
mozilla_common_voice บทพูดในภาษาอังกฤษจากโครงการ Common Voice และแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม 33,797
generated_review_crowd รีวิวสินค้าที่สร้างขึ้นจากโมเดลและแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม 24,587
การยืนยันความถูกต้องจากนักแปล generated_review_yn รีวิวสินค้าที่สร้างขึ้นจากโมเดลในภาษาอังกฤษ ที่ส่งไปยัง Google Translate API (v3) เมื่อเดือนพฤษภาคม พ.ศ. 2563 เพื่อแปลเป็นไทย และตรวจสอบความถูกต้องจากนักแปล 280,208
การจับคู่ประโยคจากเอกสาร PDF assorted_government คู่ประโยคที่ถูกจับคู่จากชุดข้อมูลเอกสารจากทางราชการประเทศไทย ในรูปแบบไฟล์ PDF 25,398
การจับคู่ประโยคจากข้อมูลเว็บไซต์ thai_websites คู่ประโยคที่ถูกจับคู่จากข้อมูลเว็บไซต์ โดยอิงจากโดเมนเนม 500 อันดับแรกของไทย ที่จัดอันดับโดย alexa.com เมื่อเดือนพฤษภาคม พ.ศ. 2563 120,280
paracrawl คู่ประโยคที่ถูกจับคู่จากข้อมูลเว็บไซต์ โดยอิงจากโดเมนเนม ที่ปรากฎในชุดข้อมูล Paracrawl v5 60,039
wikipedia คู่ประโยคที่ถูกจับคู่จากบทความวิกิพีเดียภาษาไทยและอังกฤษในหัวข้อเดียวกัน 33,756
apdf คู่ประโยคที่ถูกจับคู่จากเว็บไซต์ข่าวชื่อ Asia Pacific Defense Forum 13,503
1,001,752

โดยสามารถเข้าถึง Notebook ที่แสดง สถิติชุดข้อมูล จำนวนคำ จำนวนประโยค และตัวอย่างคู่ประโยค ได้ทาง Google Colaboratory


เวอร์ชัน

  • Version 1.0 (23 June 2020): ชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย จำนวน 1,001,752 คู่ประโยค

ผู้สนับสนุน และสิทธิ์การใช้งาน

บมจ. ธนาคารไทยพาณิชย์ ได้ทำการบริจาคชุดข้อมูลนี้ให้แก่สาธารณะ ภายใต้เงื่อนไขลิขสิทธิ์แบบครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน 4.0 International (CC BY-SA 4.0) ยกเว้นชุดข้อมูลคู่ประโยคภาษาอังกฤษ-ไทย จาก Mozilla Common Voice จะไม่สงวนลิขสิทธิ์ (CC0; No Rights Reserved)