ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น API เวอร์ชันใหม่ ที่สัญญาว่าจะคง API นี้ไปตลอดสาย 2.x ไม่เปลี่ยนแปลง รวม API เกี่ยวกับแหล่งข้อมูลสองตัวสำคัญคือ DataFrame และ Dataset เข้าด้วยกัน (สำหรับภาษา Java และ Scala) รองรับคำสั่ง SQL ของ SQL2003, ตัว parse คำสั่ง SQL ตัวใหม่ รองรับการดึงข้อมูลแบบ CSV โดยตรง ปรับปรุงประสิทธิภาพให้ดีขึ้น 2-10 เท่าตามแต่ละกรณี เป็นผลมาจาก Project Tungsten โครงการย่อยของ Spark ที่ปรับปรุงวิธีจัดการหน่วยความจำให้ดีขึ้น SparkR ตัวเชื่อมต่อกับภาษา R มีฟีเจอร์เพิ่มขึ้นหลายอย่าง โดยเฉพาะพัฒนาอัลกอริทึมสำหรับงานด้าน machine learning Structured Streaming เป็น API สำหรับการสตรีมข้อมูลตัวใหม่ ยังอยู่ในสถานะทดลอง (experimental) ที่มา - Apache Spark, Infoworld Topics: Apache SparkBig DataOpen Source