งานวิจัย Deep Speech ของ Baidu ทำงานได้ดีกว่าบริการที่มีอยู่ในตลาดทุกตัว

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 19 ธันวาคม 2014.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    Baidu ประกาศความสำเร็จในการพัฒนา Deep Speech ระบบจดจำเสียงที่ใช้โครงสร้าง deep learning เข้ามาเรียนรู้เสียงจากโลกความเป็นจริงทำได้สามารถจดจำเสียงได้อย่างแม่นยำ

    Andrew Ng ระบุว่างานวิจัย Deep Speech นี้สามารถฟังข้อความได้ถูกต้องแม้จะอยู่ในพื้นที่ที่มีเสียงรบกวนสูง รวมถึงพื้นที่ที่ระบบจดจำเสียงทุกวันนี้ไม่สามารถฟังข้อความเข้าใจได้ โดยเขาทดสอบกับระบบที่มีอยู่ในตลาด รวมถึง Google API, Apple Dictation, และ Baidu Speech เอง ระบบ Deep Speech นี้สามารถทำงานได้ดีว่าทุกระบบ

    ทีมงานใช้เสียงที่บันทึกจากคน 9,600 คน รวมทั้งหมด 7,000 ชั่วโมง จากนั้นจึงใส่เสียงรบกวนเข้าไปในเสียงด้วยรูปแบบต่างๆ ทำให้ได้ข้อมูลถึง 100,000 ชั่วโมง จากนั้นให้ซอฟต์แวร์เรียนรู้จากข้อมูลที่ใส่เข้าไป โดยซอฟต์แวร์ deep learning ทำงานบนชิปกราฟิก มีความสามารถในการกระจายโหลดออกไปให้ประมวลผลขนานกันได้ (scalable)

    Andrew ระบุว่ายังบอกไม่ได้แน่ชัดว่าระบบ Deep Speech นี้จะให้บริการจริงได้เมื่อไหร่ แต่เมื่อนักข่าวถามว่าต้องรอเป็นปีเลยไหม เขาตอบว่า "ไม่หรอก" ("Jesus Christ no!")

    ที่มา - Forbes, Facebook: Andrew Ng

    [​IMG]

    Baidu, Research, Speech Recognition
     

แบ่งปันหน้านี้