scb-mt-en-th-2020 - v1.0
AI Research Institute of Thailand (AIResearch), with the collaboration between Vidyasirimedhi Institute of Science and Technology (VISTEC) and Digital Economy Promotion Agency (depa), publishes an open English-Thai machine translation dataset, with the sponsorship from Siam Commercial Bank (SCB), namely scb-mt-en-th-2020
. The dataset contains parallel sentences from various sources such as task-based conversation, organization websites, Wikipedia articles, and government documents.
To obtain parallel sentences, we hire professional and crowdsourced translators and build a module to automatically align parallel sentence pairs from documents, articles, and web pages.
AIResearch also shares pre-trained models for both Thai→English and English→Thai direction as baseline models. See more information at Thai-English Machine Translation Model)
Dataset statistics
English-Thai machine translation dataset scb-mt-en-th-2020
version 1.0 comprise of 1,001,752 segment pairs. The dataset are from 12 different sources (CSV files) as follows:
Method | Sub-dataset | Description | Number of segment pairs |
---|---|---|---|
Professional Translators | task_master_1 | Task-based dialogs from Taskmaster 1 dataset and translated to Thai by professional translators. | 222,733 |
generated_review_translator | Machine-generated product reviews in English and translated to Thai by professional translators. | 133,330 | |
Crowd-sourced Translators | nus_sms | SMS messages in English from the NUS SMS corpus and translated to Thai by crowdsourced translators. | 43,750 |
msr_paraphrase | Sentences from Microsoft Research Paraphrase Corpus and translated to Thai by crowdsourced translators. | 10,371 | |
mozilla_common_voice | English Transcript from Common Voice dataset and translated to Thai by crowdsourced translators. | 33,797 | |
generated_review_crowd | Machine-generated product reviews in English and translated to Thai by crowdsourced translators. | 24,587 | |
Annotation by Translators | generated_review_yn | Machine-generated product reviews in English which are translated to Thai by Google Translate API (v3) on May 2020, and verified by translators | 280,208 |
Sentence Alignment on PDF Documents | assorted_government | Aligned segments obtained from Thai government PDF documents. | 25,398 |
Sentence Alignment on Web-crawled Dat | thai_websites | Aligned segments from web-crawl data from the top-500 domains in Thailand ranked by alexa.com in May 2020 | 120,280 |
paracrawl | Aligned segments from web-crawl data from the domains listed in ParaCrawl Corpus v5 | 60,039 | |
wikipedia | Aligned segments from parallel English-Thai Wikipedia articles | 33,756 | |
apdf | Aligned segments from a news site, Asia Pacific Defense Forum | 13,503 | |
1,001,752 |
More statistics of the dataset including the number of words/sentences and examples of parallel sentence pairs can be seen in a notebook via Google Colaboratory
Version
- Version 1.0 (23 June 2020): English-Thai machien translation dataset
scb-mt-en-th-2020
version 1.0 containing 1,001,752 segment pairs.
Sponsorship and license
Siam Commercial Bank PCL has published the dataset to the public under Attribution-ShareAlike 4.0 International license (CC BY-SA 4.0) except the English-Thai sentences pairs from Mozilla Common Voice that will be under CC0; No Rights Reserved.
สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (AIResearch) ซึ่งเกิดจากความร่วมมือระหว่างสถาบันวิทยสิริเมธี (VISTEC) และสำนักงานส่งเสริมเศรษฐกิจดิจิทัล (depa) ได้ทำการเปิดชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย จำนวนกว่า 1 ล้านคู่ประโยคสู่สาธารณะ โดยได้รับการสนับสนุนจาก บมจ. ธนาคารไทยพาณิชย์ (SCB) ภายใต้ชื่อ scb-mt-en-th-2020
ชุดข้อมูลคู่ประโยคนี้ ได้รวบรวมจากหลายข้อมูลแหล่งอาทิเช่น ประโยคจากบทสนทนา ข้อมูลจากเว็บไซต์ข่าวหรือองค์กรที่มีเนื้อหาในสองภาษา บทความวิกิพีเดีย และเอกสารราชการ
การได้มาซึ่งคู่ภาษามีทั้ง การจ้างนักแปลภาษา และ การใช้ Algorithm ในจับคู่ประโยคภาษาไทยและอังกฤษโดยอัตโนมัติ (Sentence alignment) จากหน้าเอกสาร บทความ และเว็บไซต์
โดยชุดข้อมูลนี้ เป็น Model-ready หรือ พร้อมสำหรับการนำไปใช้ฝึกฝนโมเดลแปลภาษาได้ทันที ทางศูนย์วิจัยได้เปิด Pre-trained model สำหรับการนำไปใช้งาน และเป็น Baseline model (สามารถดูเพิ่มเติมที่ Thai-English Machine Translation Model)
สถิติชุดข้อมูล
ชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย scb-mt-en-th-2020
เวอร์ชัน 1.0 โดยมีจำนวนคู่ประโยคทั้งหมด 1,001,752 คู่ประโยค สำหรับข้อมูลในชุดข้อมูลนี้แบ่งเป็น 12 แหล่งที่มา (ไฟล์นามสกุล .csv) ดังนี้
วิธีการ | ชุดข้อมูล | คำอธิบาย | จำนวนคู่ประโยค |
---|---|---|---|
การแปลโดยนักแปลมืออาชีพ | task_master_1 | บทสนทนาจากชุดข้อมูล Taskmaster-1 ในภาษาอังกฤษและแปลเป็นไทยโดยนักแปลมืออาชีพ | 222,733 |
generated_review_translator | รีวิวสินค้าที่สร้างขึ้นจากโมเดลและแปลเป็นไทยโดยนักแปลมืออาชีพ | 133,330 | |
การแปลโดยนักแปลจาก crowdsourcing แพลตฟอร์ม | nus_sms | ข้อความ SMS ในภาษาอังกฤษ จากชุดขัอมูล NUS SMS และแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม | 43,750 |
msr_paraphrase | ประโยคในภาษาอังกฤษ จากชุดขัอมูล Microsoft Research Paraphrase Identification และแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม | 10,371 | |
mozilla_common_voice | บทพูดในภาษาอังกฤษจากโครงการ Common Voice และแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม | 33,797 | |
generated_review_crowd | รีวิวสินค้าที่สร้างขึ้นจากโมเดลและแปลเป็นไทยโดยนักแปลจาก crowdsourcing แพลตฟอร์ม | 24,587 | |
การยืนยันความถูกต้องจากนักแปล | generated_review_yn | รีวิวสินค้าที่สร้างขึ้นจากโมเดลในภาษาอังกฤษ ที่ส่งไปยัง Google Translate API (v3) เมื่อเดือนพฤษภาคม พ.ศ. 2563 เพื่อแปลเป็นไทย และตรวจสอบความถูกต้องจากนักแปล | 280,208 |
การจับคู่ประโยคจากเอกสาร PDF | assorted_government | คู่ประโยคที่ถูกจับคู่จากชุดข้อมูลเอกสารจากทางราชการประเทศไทย ในรูปแบบไฟล์ PDF | 25,398 |
การจับคู่ประโยคจากข้อมูลเว็บไซต์ | thai_websites | คู่ประโยคที่ถูกจับคู่จากข้อมูลเว็บไซต์ โดยอิงจากโดเมนเนม 500 อันดับแรกของไทย ที่จัดอันดับโดย alexa.com เมื่อเดือนพฤษภาคม พ.ศ. 2563 | 120,280 |
paracrawl | คู่ประโยคที่ถูกจับคู่จากข้อมูลเว็บไซต์ โดยอิงจากโดเมนเนม ที่ปรากฎในชุดข้อมูล Paracrawl v5 | 60,039 | |
wikipedia | คู่ประโยคที่ถูกจับคู่จากบทความวิกิพีเดียภาษาไทยและอังกฤษในหัวข้อเดียวกัน | 33,756 | |
apdf | คู่ประโยคที่ถูกจับคู่จากเว็บไซต์ข่าวชื่อ Asia Pacific Defense Forum | 13,503 | |
1,001,752 |
โดยสามารถเข้าถึง Notebook ที่แสดง สถิติชุดข้อมูล จำนวนคำ จำนวนประโยค และตัวอย่างคู่ประโยค ได้ทาง Google Colaboratory
เวอร์ชัน
- Version 1.0 (23 June 2020): ชุดข้อมูลคู่ประโยคในภาษาอังกฤษ-ไทย จำนวน 1,001,752 คู่ประโยค
ผู้สนับสนุน และสิทธิ์การใช้งาน
บมจ. ธนาคารไทยพาณิชย์ ได้ทำการบริจาคชุดข้อมูลนี้ให้แก่สาธารณะ ภายใต้เงื่อนไขลิขสิทธิ์แบบครีเอทีฟคอมมอนส์ แสดงที่มา-อนุญาตแบบเดียวกัน 4.0 International (CC BY-SA 4.0) ยกเว้นชุดข้อมูลคู่ประโยคภาษาอังกฤษ-ไทย จาก Mozilla Common Voice จะไม่สงวนลิขสิทธิ์ (CC0; No Rights Reserved)