กูเกิลนำเสนอปัญญาประดิษฐ์ Translatotron แปลภาษาโดยตรงจากเสียงพูดไปเสียงพูด...

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 16 พฤษภาคม 2019.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    กูเกิลนำเสนอสถาปัตยกรรมปัญญาประดิษฐ์สำหรับแปลภาษาในชื่อ Translatotron ที่เป็นการแปลภาษาโดยตรงจากเสียงพูดไปยังเสียงพูด (end-to-end) แทนที่จะเป็นการแปลงเสียงเป็นข้อความ แปลข้อความ แล้วจึงนำมาแปลงเป็นเสียง (cascade) เหมือนเช่นทุกวันนี้

    Translatotron เป็นปัญญาประดิษฐ์แบบ sequence-to-sequence โดยนำข้อมูล spectrogram ของเสียงพูดภาษาต้นทางและปลายทาง

    ตอนนี้ประสิทธิภาพการแปลของ Translatotron ยังต่ำกว่าสถาปัตยกรรมแบบ cascade อยู่ แต่เมื่อพัฒนาให้เสียงที่แปลออกมาเป็นเสียงเดียวกับคนพูดภาษาต้นทาง (original speaker) แทนที่จะเป็นเสียงต้นแบบ (canonical) ตัว Translatotron สามารถรักษาคุณสมบัติของเสียงผู้พูดได้ครบถ้วน ทำให้เหมือนผู้พูดเป็นคนเดียวกันแค่เปลี่ยนภาษา (สามารถฟังเสียงได้จากที่มาข่าว)

    งานวิจัยนี้ร่วมกันระหว่าง Google Brain, Google Translate, และ Google Speech โดยเชื่อว่าเป็นงานวิจัยแรกที่เสนอการแปลภาษาจากเสียงโดยตรง

    ที่มา - Google AI Blog

    [​IMG]

    Topics: GoogleArtificial Intelligence
     

แบ่งปันหน้านี้