กูเกิลเปิดตัว Lyra ปัญญาประดิษฐ์บีบอัดเสียงพูด ฟังได้ชัดเจนแม้ใช้แบนวิดท์เพียง 3kbps

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 1 มีนาคม 2021.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    กูเกิลเปิดตัวปัญญาประดิษฐ์ Lyra สำหรับการบีบอัดเสียงพูด โดยอาศัยโมเดลดึงเอาคุณลักษณะของเสียงในห้วง 40ms ออกมาเป็นข้อมูลขนาดเล็กส่งไปยังปลายทาง และที่ปลายทางจะมีปัญญาประดิษฐ์แบบ generative สร้างเสียงกลับออกมาอีกครั้ง ทำให้ใช้งานได้แม้แบนวิดท์จะต่ำเหลือเพียง 3kbps เท่านั้น (เสียงโทรศัพท์ปกติใช้แบนวิดท์ 64kbps)

    แนวทางของ Lyra คล้ายกับกระบวนการแปลงเสียงเป็นข้อความแล้วเอาข้อความไปอ่านออกเสียงที่ปลายทาง โดยทั่วไปแล้วแนวทางเช่นนี้จะทำให้เสียงที่ปลายทางไม่เป็นธรรมชาติ และฟังออกทันทีว่าเป็นเสียงสังเคราะห์ แต่กูเกิลยืนยันว่า Lyra นั้นให้เสียงที่เป็นธรรมชาติกว่ามาก โดยกูเกิลอาศัยข้อมูลฝึกปัญญาประดิษฐ์จากผู้พูดกว่า 70 ภาษาเพื่อให้แน่ใจว่าโมเดลปัญญาประดิษฐ์สามารถถอดเสียงพูดได้ทุกภาษาเท่าเทียมกัน

    ตัวเข้ารหัสเสียงตัวอื่นๆ ที่ทำงานที่แบนวิดท์ต่ำเท่า Lyra มักมีเสียงแทรกจนฟังได้ลำบาก ขณะที่ Lyra นั้นสามารถส่งพูดได้อย่างชัดเจนแม้ในภาวะที่มีเสียงรบกวนสูงๆ

    กูเกิลเริ่มใช้ Lyra ในแอป Duo สำหรับการโทรศัพท์ในกรณีที่พบว่าผู้ใช้มีแบนด์วิดท์ต่ำมากๆ แล้วและในอนาคตจะพัฒนาต่อเพื่อใช้งานกับกรณีอื่นๆ เช่น ดนตรีหรือเสียงที่ไม่ใช่เสียงพูด

    ที่มา - Google AI Blog

    [​IMG]

    Topics: Artificial IntelligenceGoogle
     

แบ่งปันหน้านี้