งานวิจัย MIT ทำภาพนิ่งให้ตอบสนองการดึง-ดันได้แบบสมจริงโดยไม่ต้องร่างโมเดล 3 มิติ

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 9 สิงหาคม 2016.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    ทีมวิจัย CSAIL แห่ง MIT ได้เผยแพร่งานวิจัยใหม่ในชื่อ Interactive Dynamic Video ซึ่งเป็นเทคนิคเพิ่มลูกเล่นให้ภาพนิ่งที่ได้จากการถ่ายวิดีโอให้ตอบสนองทำปฏิสัมพันธ์กับการดึง-ดันวัตถุในภาพได้ โดยไม่ต้องทำการสร้างโมเดลกราฟิกแบบ 3 มิติใส่ลงในภาพนั้น

    อธิบายให้เห็นภาพมากขึ้น ผู้ใช้สามารถใช้เม้าส์เพื่อไกวเปลในภาพนิ่งให้แกว่งได้, ใช้เม้าส์เพื่อเขย่าต้นไม้ให้สั่นไหว หรือดันพุ่มไม้ให้ยกตัวขึ้นก็ได้เช่นกัน (ไม่ใช่ในลักษณะก้อนโพลีกอนที่มีพื้นผิวสีเขียวเหมือนต้นไม้ หากแต่มีการแสดงผลให้เห็นการสั่นไหวของแต่ละกิ่งก้าน แต่ละใบอย่างเป็นธรรมชาติ) หรืออีกตัวอย่างก็เช่นสามารถใช้เม้าส์ดันสะพานแขวนในภาพให้ไหวเอน ทำได้แม้กระทั่งกดวางวัตถุลงในภาพสะพานในบริเวณต่างๆ ซึ่งจะมีผลทำให้ภาพสะพานแขวนยุบตัวลงได้ราวกับเป็นการตอบสนองของกราฟิก 3 มิติ

    เบื้องหลังการทำงานของเทคนิคที่ว่านี้เริ่มต้นจากการบันทึกภาพวิดีโอของวัตถุที่ต้องการใส่ลูกเล่นให้กับมัน ในระหว่างที่บันทึกวิดีโอนั้นตัววัตถุจะต้องมีการเคลื่อนไหวหรือสั่นสะเทือน (เช่นหากเป็นพุ่มไม้ ก็ควรเก็บภาพในตอนที่ลมพัดจนใบและกิ่งไม้ไหว หรือหากเป็นวัตถุอื่นที่ถ่ายในร่มก็อาจต้องมีการเร้าจากภายนอกด้วยแรงกระทำให้เกิดการสั่นสะเทือนเล็กน้อย) และด้วยความยาวของวิดีโอไม่ถึง 1 นาทีที่บันทึกมาได้ อัลกอริทึมของ CSAIL จะทำการวิเคราะห์วัตถุในภาพนั้นเพื่อให้เข้าใจรูปร่างทางกายภาพของมัน

    การวิเคราะห์วัตถุในภาพเพื่อให้เข้าใจรูปร่างทางกายภาพนี้ อาศัยการแยกแยะแต่ละส่วนของวัตถุว่ามีการเคลื่อนไหวตามความถี่ธรรมชาติแตกต่างกันอย่างไร ตัวอย่างในวิดีโอท้ายข่าว แสดงภาพหุ่นตุ๊กตาทำจากลวดที่ยืดหยุ่นเด้งได้ โดยในส่วนลำตัว, แขน และขาของหุ่นจะสั่นสะเทือนโยกไหวรุนแรงแตกต่างกันในยามที่มีแรงกระเทือนจากภายนอกมากระทำ ส่วนขาที่ยึดกับพื้นจะแทบไม่สั่นเลย ในขณะที่ช่วงลำตัวจะโยกสั่นเล็กน้อย ส่วนปลายแขนที่ยื่นออกจะสั่นแกว่งรุนแรงที่สุด

    จากตัวอย่างของหุ่นตุ๊กตาลวดที่ว่ามานี้ เมื่ออัลกอริทึมทำการวิเคราะภาพวิดีโอ ก็จะพบว่าที่การสั่นสะเทือนในระดับความถี่ต่ำ ทุกส่วนทั้งลำตัว, แขน และจะขยับสั่นไหวในระดับใกล้เคียงกัน แต่ที่ภาพวิดีโอในช่วงที่แสดงความถี่ของการสั่นสะเทือนที่สูงขึ้นมา การสั่นไหวในบริเวณลำตัวและแขนก็จะยิ่งแกว่งรุนแรงแตกต่างจากขามากยิ่งขึ้น และเมื่อวิเคราะห์ภาพจากวิดีโอในช่วงที่ตุ๊กตาสั่นด้วยความถี่ที่สูงขึ้นไปอีก ซอฟต์แวร์ก็จะยิ่งเห็นได้อย่างชัดเจนว่าส่วนแขนแกว่งรุนแรงกว่าส่วนลำตัวและขา ซึ่งเมื่อถึงจุดนี้อัลกอริทึมก็จะเข้าใจแล้วว่าในการแสดงผลตอบสนองผู้ใช้นั้นควรมีการแบ่งแยกส่วนลำตัว, แขน และขาของตุ๊กตาให้โยกเอนไปตามการคลิกหรือลากเม้าส์ในระดับที่แตกต่างกัน

    แนวคิดการใช้ประโยชน์จากงานวิจัยนี้ก็มีทั้งการตัดต่อใส่ลูกเล่นให้ภาพนิ่งหรือภาพวิดีโอ โดยลดความยุ่งยากในการทำกราฟิกด้วยคอมพิวเตอร์ หรือจะใช้เพื่องาน SHM (Structural Health Monitoring) ซึ่งเป็นการตรวจสอบโครงสร้างก็ได้ (ลองนึกถึงสถานการณ์การถ่ายวิดีโอของสะพานแขวนมาใช้กับอัลกอริทึมนี้ จากนั้นก็สามารถทำการจำลองใส่แรงกดลงที่บางจุดของสะพานแขวนเพื่อดูการตอบสนองของสะพานแขวนในภาพ โดยไม่ต้องไปทดลองกับสะพานของจริง)

    สามารถศึกษาข้อมูลเพิ่มเติมได้จากเอกสารงานวิจัย และชมภาพตัวอย่างพร้อมการอธิบายหลักการทำงานของงานวิจัย Interactive Dynamic Video ได้จากคลิปวิดีโอท้ายข่าว

    ที่มา - Quartz

    Topics: MITComputer VisionVideo
     

แบ่งปันหน้านี้