กูเกิลปล่อยชุดข้อมูล PAWS คู่ประโยคคล้ายกันแต่ความหมายอาจต่างกัน...

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 3 ตุลาคม 2019.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    กูเกิลเปิดชุดข้อมูล Paraphrase Adversaries from Word Scrambling (PAWS) ที่เป็นข้อมูลคู่ประโยคที่ดูคล้ายกันแต่ความหมายอาจจะเหมือนกันหรือต่างกัน เพื่อฝึกปัญญาประดิษฐ์ให้ทำความเข้าใจข้อความของมนุษย์ได้มากขึ้น

    การสื่อสารของมนุษย์นั้นปกติสามารถเล่นคำไปมาโดยที่ได้ความหมายคล้ายเดิมได้ เช่น "เที่ยวบินกรุงเทพ-เชียงใหม่" จะความหมายเดียวกับ "เที่ยวบินไปเชียงใหม่ จากกรุงเทพ" แต่จะต่างจาก "เที่ยวบินเชียงใหม่กรุงเทพ" หากคอมพิวเตอร์พยายามจับเฉพาะจำนวนคำที่ตรงกันก็จะจับกลุ่มประโยคผิดพลาด

    PAWS ประกอบไปด้วยชุดข้อมูลที่บอกว่าวลีมีความหมายเดียวกัน (paraphrase) หรือไม่ โดยพิจาราณาโดยคน จำนวน 108,463 วลี และอีก 656,000 วลีที่อาจจะมีความผิดพลาดบ้าง (noisily label) นอกจากข้อมูลภาษาอังกฤษแล้ว ยังมีข้อมูล PAWS-X อีก 6 ภาษาที่แปลมาจากตัวอย่างของชุดข้อมูล PAWS เดิม 4,000 วลี

    รายงานวิจัยของกูเกิลแสดงให้เห็นว่าเมื่อฝึกโมเดลทำความเข้าใจภาษา เช่น BERT ก็ได้ผลที่น่าพอใจขึ้น สามารถแยกแยะวลีที่เคยแยกผิดพลาดเมื่อใช้ชุดข้อมูลฝึกเล็กกว่านี้ ตัวโมเดล BERT เมื่อใช้ชุดข้อมูล Quora Question Pairs (QQP) ทั้งฝึกและทดสอบ ได้ความแม่นยำมากกว่า 90% แต่เมื่อนำมาทดสอบชุดข้อมูล PAWSQQP กลับเหลือความแม่นยำเพียง 33% ต้องฝึกด้วยชุดข้อมูลฝึก PAWSQQP จึงได้ความแม่นยำกลับมาเป็น 85% แสดงว่าชุดข้อมูลเดิมอาจมีรูปแบบการแปลงวลีที่น้อยเกินไป

    ที่มา - Google AI Blog

    [​IMG]

    Topics: Artificial IntelligenceGoogle
     

แบ่งปันหน้านี้