เฟซบุ๊กโอเพนซอร์ส wav2letter++ ปัญญาประดิษฐ์แปลงเสียงเป็นข้อความใช้เวลาประมวลผลต่ำ

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 17 มกราคม 2020.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    ปัญญาประดิษฐ์สำหรับแปลงเสียงเป็นข้อความ (text to speech) มีความแม่นยำสูงขึ้นเรื่อยๆ แต่ส่วนมากแล้วงานวิจัยมักมีเป้าหมายพัฒนาความแแม่นยำอย่างเดียวโดยใช้ข้อมูลเสียงที่อัดไว้ล่วงหน้าเป็นอินพุต แต่งานอีกกลุ่มหนึ่งเช่นการแปลงเสียงบทสนทนานั้นมีเงื่อนไขของระยะเวลาหน่วง (latency) ว่าต้องไม่สูงเกินไป ตอนนี้เฟซบุ๊กก็เปิดซอร์สโครงการ wave2letter++ งานวิจัยแปลงเสียงเป็นข้อความโดยมีระยะเวลาหน่วงต่ำ

    โครงการมาพร้อมกับโมเดลแปลงเสียงเป็นข้อความ 4 แบบ ตัวใหม่ที่สุดคือ Time-Depth Separable (TDS) convolutions and Connectionist Temporal Classification (CTC) หรือ TDS+CTC ที่เฟซบุ๊กเพิ่งเปิดเผยรายงานวิจัยเมื่อสัปดาห์ที่แล้ว

    เฟซบุ๊กระบุว่า TDS+CTC มีอัตราความผิดพลาดต่ำกว่าโมเดลปัญญาประดิษฐ์อื่นที่มีเงื่อนไขระยะเวลาหน่วงต่ำเหมือนกัน ขณะที่ทรูพุตการแปลงเสียงเป็นข้อความสูงกว่าถึงสามเท่าตัว และระยะเวลาหน่วงจากเสียงจนถึงข้อความที่แสดงออกมานั้นอยู่ที่ 1.09 วินาทีเท่านั้น เมื่อวิเคราะห์เสียงทีละ 0.75 วินาที

    ที่มา - Facebook AI Blog

    [​IMG]

    Topics: FacebookArtificial Intelligence
     

แบ่งปันหน้านี้