กูเกิลเปิดตัว Lyra ปัญญาประดิษฐ์บีบอัดเสียงพูด ฟังได้ชัดเจนแม้ใช้แบนวิดท์เพียง 3kbps

iPokz · 1 มีนาคม 2021

กูเกิลเปิดตัวปัญญาประดิษฐ์ Lyra สำหรับการบีบอัดเสียงพูด โดยอาศัยโมเดลดึงเอาคุณลักษณะของเสียงในห้วง 40ms ออกมาเป็นข้อมูลขนาดเล็กส่งไปยังปลายทาง และที่ปลายทางจะมีปัญญาประดิษฐ์แบบ generative สร้างเสียงกลับออกมาอีกครั้ง ทำให้ใช้งานได้แม้แบนวิดท์จะต่ำเหลือเพียง 3kbps เท่านั้น (เสียงโทรศัพท์ปกติใช้แบนวิดท์ 64kbps)

แนวทางของ Lyra คล้ายกับกระบวนการแปลงเสียงเป็นข้อความแล้วเอาข้อความไปอ่านออกเสียงที่ปลายทาง โดยทั่วไปแล้วแนวทางเช่นนี้จะทำให้เสียงที่ปลายทางไม่เป็นธรรมชาติ และฟังออกทันทีว่าเป็นเสียงสังเคราะห์ แต่กูเกิลยืนยันว่า Lyra นั้นให้เสียงที่เป็นธรรมชาติกว่ามาก โดยกูเกิลอาศัยข้อมูลฝึกปัญญาประดิษฐ์จากผู้พูดกว่า 70 ภาษาเพื่อให้แน่ใจว่าโมเดลปัญญาประดิษฐ์สามารถถอดเสียงพูดได้ทุกภาษาเท่าเทียมกัน

ตัวเข้ารหัสเสียงตัวอื่นๆ ที่ทำงานที่แบนวิดท์ต่ำเท่า Lyra มักมีเสียงแทรกจนฟังได้ลำบาก ขณะที่ Lyra นั้นสามารถส่งพูดได้อย่างชัดเจนแม้ในภาวะที่มีเสียงรบกวนสูงๆ

กูเกิลเริ่มใช้ Lyra ในแอป Duo สำหรับการโทรศัพท์ในกรณีที่พบว่าผู้ใช้มีแบนด์วิดท์ต่ำมากๆ แล้วและในอนาคตจะพัฒนาต่อเพื่อใช้งานกับกรณีอื่นๆ เช่น ดนตรีหรือเสียงที่ไม่ใช่เสียงพูด

ที่มา - Google AI Blog

Topics: Artificial IntelligenceGoogle

เข้าสู่ระบบ

กูเกิลเปิดตัว Lyra ปัญญาประดิษฐ์บีบอัดเสียงพูด ฟังได้ชัดเจนแม้ใช้แบนวิดท์เพียง 3kbps

iPokz ~" iPokz "~ Staff Member

แบ่งปันหน้านี้

เข้าสู่ระบบ

กูเกิลเปิดตัว Lyra ปัญญาประดิษฐ์บีบอัดเสียงพูด ฟังได้ชัดเจนแม้ใช้แบนวิดท์เพียง 3kbps

iPokz ~" iPokz "~ Staff Member

แบ่งปันหน้านี้

Useful Searches