Apache Spark ซอฟต์แวร์ประมวลผล Big Data ความเร็วสูง ออกเวอร์ชัน 2.0 แล้ว

iPokz · 31 กรกฎาคม 2016

ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop

ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น

API เวอร์ชันใหม่ ที่สัญญาว่าจะคง API นี้ไปตลอดสาย 2.x ไม่เปลี่ยนแปลง

รวม API เกี่ยวกับแหล่งข้อมูลสองตัวสำคัญคือ DataFrame และ Dataset เข้าด้วยกัน (สำหรับภาษา Java และ Scala)

รองรับคำสั่ง SQL ของ SQL2003, ตัว parse คำสั่ง SQL ตัวใหม่

รองรับการดึงข้อมูลแบบ CSV โดยตรง

ปรับปรุงประสิทธิภาพให้ดีขึ้น 2-10 เท่าตามแต่ละกรณี เป็นผลมาจาก Project Tungsten โครงการย่อยของ Spark ที่ปรับปรุงวิธีจัดการหน่วยความจำให้ดีขึ้น

SparkR ตัวเชื่อมต่อกับภาษา R มีฟีเจอร์เพิ่มขึ้นหลายอย่าง โดยเฉพาะพัฒนาอัลกอริทึมสำหรับงานด้าน machine learning

Structured Streaming เป็น API สำหรับการสตรีมข้อมูลตัวใหม่ ยังอยู่ในสถานะทดลอง (experimental)

ที่มา - Apache Spark, Infoworld

Topics: Apache SparkBig DataOpen Source

เข้าสู่ระบบ

Apache Spark ซอฟต์แวร์ประมวลผล Big Data ความเร็วสูง ออกเวอร์ชัน 2.0 แล้ว

iPokz ~" iPokz "~ Staff Member

แบ่งปันหน้านี้

เข้าสู่ระบบ

Apache Spark ซอฟต์แวร์ประมวลผล Big Data ความเร็วสูง ออกเวอร์ชัน 2.0 แล้ว

iPokz ~" iPokz "~ Staff Member

แบ่งปันหน้านี้

Useful Searches