Facebook เผย ทีมวิศวกรทำให้ศูนย์ข้อมูลตนเองล่มกันจริงๆ เพื่อทดสอบแผนรับมือวิกฤต

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 3 กันยายน 2016.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    Jay Parikh รองประธานผู้ดูแลฝ่ายวิศวกรรมของ Facebook ได้เปิดเผยข้อมูลว่าในปัจจุบัน Facebook ได้ทำการทดสอบซ้อมแผนการรับมือสถานการณ์วิกฤต โดยทีมวิศวกรได้ทดลองทำให้ศูนย์ข้อมูลของตนเองล่มกันจริงๆ เพื่อการทดสอบนี้

    Parikh ได้กล่าวบรรยายถึงเรื่องนี้ในงานสัมมนา @Scale งานดังกล่าวเป็นงานที่รวบรวมเอาเจ้าหน้าที่ผู้สร้างและบำรุงรักษาระบบคอมพิวเตอร์ขนาดใหญ่ที่รองรับผู้ใช้งานจำนวนมหาศาล ซึ่งมีเหล่าวิศวกรจากบริษัทใหญ่ๆ อาทิ Google, Airbnb, Dropbox, Spotify, Netflix และบริษัทอื่นอีกมาเข้าร่วมกันมากมาย

    Parikh อธิบายถึงที่มาที่ไปของเรื่องนี้ว่า Facebook ในปี 2012 ซึ่งพายุเฮอร์ริเคน Sandy ได้พัดผ่านถล่มพื้นที่ซึงมีศูนย์ข้อมูลของ Facebook ตั้งอยู่ 2 แห่ง แม้ว่าศูนย์ข้อมูลของ Facebook จะผ่านวาตภัยครั้งนั้นมาได้โดยไม่ได้รับความเสียหาย แต่นั่นก็ทำให้บริษัทตระหนักถึงความเสี่ยงของระบบและคิดจัดตั้งทีม SWAT ขึ้น พร้อมตั้งโครงการ "Project Storm" ซึ่งมีเป้าหมายในการวางแผนและดำเนินการซักซ้อมทดสอบการกู้สถานการณ์ในกรณีที่ศูนย์ข้อมูลของ Facebook ล่มลง

    เวลาผ่านไป 2 ปี Parikh คิดว่าถึงเวลาแล้วที่โครงการ Project Storm พร้อมที่จะเข้าสู่การทดสอบในโลกแห่งความจริง แม้ว่าผู้บริหารหลายคนของ Facebook จะไม่ค่อยอยากเชื่อนักว่าทีม SWAT จะตัดสินใจทดสอบทำให้ศูนย์ข้อมูลของตนเองล่มจริงๆ เพื่องานนี้ แต่ Parikh เชื่อว่าการวางแผนเตรียมขั้นตอนการรับมือวิกฤิตศูนย์ข้อมูลล่มไว้เพียงแค่บนกระดาษโดยขาดการทดลองทำกับเหตุการณ์จริงนั้นไม่เพียงพอ

    Parikh เล่าว่าการทดลองทำให้ศูนย์ข้อมูลล่มในครั้งแรกเล่นเอาทีมวิศวกรและผู้คนในส่วนอื่นของ Facebook โกลาหลกันพอสมควร แต่สำหรับฝั่งผู้ใช้แล้วไม่มีใครสังเกตถึงสิ่งที่กำลังเกิดขึ้นในตอนนั้นเลย

    Parikh เผยว่าทุกวันนี้ทีม SWAT ยังคงเดินหน้าโครงการ Project Storm และยังมีการทดสอบด้วยการทำให้ศูนย์ข้อมูลล่มอยู่เพื่อปรับปรุงกระบวนการทำงานให้ดีขึ้นอยู่เรื่อยๆ

    ที่มา - IEEE Spectrum

    Topics: FacebookData Center
     

แบ่งปันหน้านี้