กูเกิลรายงานวิธีแปลงรายมือเป็นตัวอักษรใน Gboard: แปลงภาพเป็นเวคเตอร์ แล้วใช้โมเดล Deep...

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 8 มีนาคม 2019.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    กูเกิลรายงานถึงการเปลี่ยนแปลงเทคนิคในการแปลงลายมือเป็นอักษรใน Gboard จากเดิมที่พยายามตัดตัวอักษรออกเป็นตัวๆ (segment and decode) ก็พยายามสร้างโมเดลที่สามารถอ่านข้อความจากลายมือได้ทีเดียวทั้งหมด

    กระบวนการแปลงภาพเป็นตัวอักษร มี 3 ขั้นตอนหลักๆ ขั้นแรก คือการแปลงภาพให้เป็นเวคเตอร์แบบ Bézier curve กระบวนการนี้ทำให้ข้อมูลมีขนาดเล็กลงมาก จากจุดสัมผัสจอแต่ละจุดกลายเป็นเพียงเส้นโค้งที่มีพารามิเตอร์ไม่กี่ตัวเท่านั้น จากนั้นจึงนำภาพเวคเตอร์นี้ไปอ่านตัวอักษรออกมา ด้วยโมเดล quasi-recurrent neural networks (QRNN) เนื่องจากโมเดลมีขนาดเล็ก, น่าจะประมวลผลขนานได้ง่าย, และความแม่นยำดีพอสมควร ขั้นสุดท้ายคือการแปลงเป็นคำด้วยตัวจัดหมวดหมู่ Connectionist Temporal Classification (CTC) ที่จะให้คะแนนชุดอักษรที่สมเหตุสมผลต่อภาษาที่กำลังใช้งาน

    โมเดลทั้งหมดพัฒนาบน TensorFlow ปกติ แต่นำมา quantize ให้ค่า weight แต่ละตัวกินพื้นที่เพียงไบต์เดียวและทำงานได้เร็วขึ้น

    ตอนนี้โมเดลใหม่ใช้งานกับภาษาที่เป็นตัวอักษรละตินแล้ว

    ที่มา - Google AI

    [​IMG]

    Topics: GoogleArtificial Intelligence
     

แบ่งปันหน้านี้