DeepMind เผยแพร่ความคืบหน้าของปัญญาประดิษฐ์ MuZero ที่พัฒนาต่อจาก AlphaZero โดยตั้งเป้าหมายเพื่อหาอัลกอริทึมสำหรับโจทย์แบบไม่เจาะจง สามารถเอาชนะในเกมใด ๆ ก็ตาม ที่ไม่รู้กฎกติกามาก่อน ที่ผ่านมาปัญญาประดิษฐ์ของ DeepMind จะแก้ปัญหาได้เฉพาะเรื่อง (Domain) และอาศัยองค์ความรู้ (Knowledge) ทั้งข้อมูลการเล่นในอดีต จนถึงกติกาการเล่น ซึ่งแนวทางนี้จะพบปัญหาเมื่อต้องเล่นเกมแบบ Atari ที่รูปแบบกติกาไม่ได้บอกชัดเจนมาก และเกมก็ซับซ้อนขึ้น (ดูภาพประกอบด้านล่าง) DeepMind อธิบายเพิ่มเติมว่าปัญญาประดิษฐ์แบบนี้ ถอดแบบจากการคิดแก้ปัญหาของมนุษย์มากขึ้น เช่น เมื่อเราเจอเมฆครึ้ม เราก็จะเดาว่าฝนน่าจะตก (Predict) และหยิบร่มติดตัวเพื่อไม่ให้เปียกฝน (Decide) ระบบการคิดดังกล่าวเป็นการตัดสินใจจากสภาพที่เผชิญอยู่ตอนนั้น ไม่ใช่การดูภาพรวมทั้งหมด (เช่นการดูสภาพอากาศรวมทั้งแผนที่) โดย MuZero ใช้ 3 องค์ประกอบหลักในการตัดสินใจคือ คุณค่าของตำแหน่งปัจจุบัน (Value), การกระทำที่ดีที่สุด (Policy) และผลลัพธ์จากการกระทำก่อนหน้า (Reward) ตัวอย่างที่ DeepMind นำมาอธิบายคือเกม Ms Pac-Man พบว่ายิ่งให้เวลาตัดสินใจต่อครั้งมากขึ้น ผลลัพธ์ก็ดีขึ้นตาม เช่นเดียวกับจำนวนทางเลือก หากให้ทางเลือกที่มากขึ้น ผลลัพธ์ก็ดีขึ้นเช่นกัน และแม้จำกัดทางเลือกต่อครั้งเหลือเพียง 6-7 วิธี ซึ่งน้อยมาก ผลลัพธ์ในการเล่นเกมก็ยังออกมาดี ที่มา: DeepMind และ Engadget Topics: DeepMindArtificial IntelligenceMuZero