Apache Spark ซอฟต์แวร์ประมวลผล Big Data ความเร็วสูง ออกเวอร์ชัน 2.0 แล้ว

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 31 กรกฎาคม 2016.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop

    ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น

    • API เวอร์ชันใหม่ ที่สัญญาว่าจะคง API นี้ไปตลอดสาย 2.x ไม่เปลี่ยนแปลง
    • รวม API เกี่ยวกับแหล่งข้อมูลสองตัวสำคัญคือ DataFrame และ Dataset เข้าด้วยกัน (สำหรับภาษา Java และ Scala)
    • รองรับคำสั่ง SQL ของ SQL2003, ตัว parse คำสั่ง SQL ตัวใหม่
    • รองรับการดึงข้อมูลแบบ CSV โดยตรง
    • ปรับปรุงประสิทธิภาพให้ดีขึ้น 2-10 เท่าตามแต่ละกรณี เป็นผลมาจาก Project Tungsten โครงการย่อยของ Spark ที่ปรับปรุงวิธีจัดการหน่วยความจำให้ดีขึ้น
    • SparkR ตัวเชื่อมต่อกับภาษา R มีฟีเจอร์เพิ่มขึ้นหลายอย่าง โดยเฉพาะพัฒนาอัลกอริทึมสำหรับงานด้าน machine learning
    • Structured Streaming เป็น API สำหรับการสตรีมข้อมูลตัวใหม่ ยังอยู่ในสถานะทดลอง (experimental)

    ที่มา - Apache Spark, Infoworld

    [​IMG]

    Topics: Apache SparkBig DataOpen Source
     

แบ่งปันหน้านี้