สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทยปล่อยโมเดล deep learning แปลไทย-อังกฤษ พร้อมชุดข้อมูล 1...

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 23 มิถุนายน 2020.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) ปล่อยโมเดล deep learning แบบ Transformer ที่ฝึกด้วย toolkitfairseq ของเฟซบุ๊ก ที่ฝึกกับชุดข้อมูลแปลภาษาไทย-อังกฤษมาแล้ว 1 ล้านคู่ประโยค พร้อมปล่อยชุดข้อมูล โดยได้คะแนน BLEU เหนือกว่า Google Translate API

    ทางสถาบันสร้างชุดข้อมูลโดยอาศัยทั้งการจ้างนักแปลโดยตรง, จ้างจากแพลตฟอร์ม crowdsourcing, ใช้นักแปลตรวจสอบการแปลของ Google Translate API, ไปจนถึงเอกสารที่มีการแปลอยู่แล้ว เช่น เอกสารราชการหรือวิกิพีเดีย

    โมเดล Transformer เป็นโมเดลที่กูเกิลเสนอไว้ตั้งแต่ปี 2017 และโมเดลในกลุ่มนี้ยังคงเป็นกลุ่มที่มีความแม่นยำสูงสุด ทางสถาบันวิจัยปัญญาประดิษฐ์ใช้โมเดล Transformer แบบพื้นฐานขนาด 74 ล้านพารามิเตอร์ แล้วทดสอบคะแนนด้วยชุดข้อมูล IWSLT 2015 จำนวน 4,242 ประโยค สร้างโมเดลแปลที่ความแม่นยำตามคะแนน BLEU สูงขึ้นกว่าเดิม โดยก่อนหน้านี้ทางสถาบันเคยใช้ชุดข้อมูล OPUS ขนาด 5.4 ล้านประโยคในการสร้างปัญญาประดิษฐ์แบบเดียวกันมาก่อนแล้ว

    ที่มา - AIResearch.in.th 1, 2

    [​IMG]

    Topics: ThailandArtificial Intelligence
     

แบ่งปันหน้านี้