เปิดตัว Azure Data Lake แพลตฟอร์มวิเคราะห์ข้อมูลขนาดใหญ่ พร้อมภาษาใหม่ U-SQL

หัวข้อกระทู้ ใน 'เทคโนโลยี' เริ่มโพสต์โดย iPokz, 4 ตุลาคม 2015.

  1. iPokz

    iPokz ~" iPokz "~ Staff Member

    ไมโครซอฟท์เปิดตัวบริการใหม่ Azure Data Lake แพลตฟอร์มสำหรับจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ (big data) บนกลุ่มเมฆ

    Azure Data Lake ประกอบด้วยชิ้นส่วนย่อย ดังนี้

    • Azure Data Lake Store เป็นบริการสำหรับจัดเก็บข้อมูล (data store) จากแหล่งอื่น เช่น เว็บไซต์ เซ็นเซอร์ หรืออุปกรณ์ต่างๆ จุดเด่นของมันคือเก็บข้อมูลอยู่บนแพลตฟอร์มของ Azure และเข้ากันได้กับระบบไฟล์ HDFS สามารถนำไปประมวลผลต่อด้วยแอพพลิเคชัน Hadoop ได้
    • Azure Data Lake Analytics เป็นบริการตัวใหม่สำหรับวิเคราะห์ข้อมูล โดยไมโครซอฟท์นำโค้ดของโครงการ Apache YARN มาปรับปรุงให้ทำงานบน Azure ได้ดีขึ้น
    • Azure HDInsight ดิสโทร Hadoop/Spark/HBase/Storm เวอร์ชันของไมโครซอฟท์ที่พัฒนามาได้สักระยะแล้ว ล่าสุดออกเวอร์ชันลินุกซ์แล้ว
      [​IMG]

    ส่วนของ Analytics ไมโครซอฟท์ยังพัฒนาภาษาใหม่ชื่อ U-SQL (ย่อมาจาก unified) โดยรวมเอาจุดเด่นของภาษาคิวรีข้อมูล SQL มาผสมกับภาษาโปรแกรมมิ่ง (อิงจาก C#) และภาษา SCOPE ที่ไมโครซอฟท์พัฒนาขึ้นใช้ภายใน การสร้างภาษา U-SQL ช่วยให้การวิเคราะห์ข้อมูลขนาดใหญ่ทำได้ง่ายขึ้น จบในภาษาเดียว และยังคง syntax ที่คุ้นเคยจาก ANSI SQL (ที่ใช้ใน SQL Server) และ C# อีกด้วย

    ไมโครซอฟท์จะเปิดบริการ Azure Data Lake รุ่นพรีวิวช่วงปลายปีนี้

    ที่มา - Microsoft (Data Lake), Microsoft (U-SQL)

    ตัวอย่างภาษา U-SQL


    @t = EXTRACT date string
    , time string
    , author string
    , tweet string
    FROM "/input/MyTwitterHistory.csv"
    USING Extractors.Csv();

    @res = SELECT author
    , COUNT(*) AS tweetcount
    FROM @t
    GROUP BY author;

    OUTPUT @res TO "/output/MyTwitterAnalysis.csv"
    ORDER BY tweetcount DESC
    USING Outputters.Csv();

    Microsoft Azure, Big Data, Hadoop, Cloud Computing, SQL
     

แบ่งปันหน้านี้