Databricks
Databricks คือ Unified Analytics Platform ที่ทำงาน Azure โดยออกแบบมาสำหรับระบบ Cloud โดยเฉพาะ มีฟีเจอร์ต่างๆมาให้ครบครัน เช่น One-click deployment, Auto-scaling และมีระบบ Optimized Databricks Runtime ที่ช่วยเร่งประสิทธิภาพของ Spark Job เมื่อทำงานบน Cloud ได้เร็วขึ้น 10-100 เท่าเลยทีเดียว ในขณะเดียวกันยังมีเครื่องมือที่ช่วยอำนวยความสะดวกในการใช้งาน เช่น Interactive Notebook Environment, Monitoring Tools และ Security Control เพื่อช่วยตอบโจทย์การใช้งาน ในองค์กรที่มีผู้ใช้งานจำนวนมากได้
จุดเด่นของ Azure Databricks ที่น่าสนใจ มีดังนี้
- มี Connector เพื่อเชื่อมต่อกับ Azure Storage Service เช่น Azure Blob Store และ Azure Data Lake
- มีระบบ Auto-scaling และ Auto-termination สำหรับ Spark Cluster เพื่อลดค่าใช้จ่ายให้น้อยที่สุด
- มีการทำ Performance Optimization ระดับ Caching, Indexing และ Advanced query optimization เพื่อเพิ่มประสิทธิภาพการทำงาน
- มีระบบ Notebooks เพื่อให้ผู้ใช้งานสามารถแชร์ข้อมูลระหว่างกันได้ภายในองค์กรได้แบบ Real-time
- มาพร้อม Analytics Libraries เช่น Python และ R ให้เริ่มต้นใช้งานได้อย่างรวดเร็ว
- สามารถเลือก VM Types ได้หลายแบบ เช่น F-series สำหรับงาน Machine Learning, M-series สำหรับงานที่ต้องการ Memory จำนวนมาก และ D-series สำหรับงานทั่วไป
- รองรับการเชื่อมต่อกับ Azure Power BI เพื่อแสดงผลการวิเคราะห์ข้อมูลได้ทันที
- รองรับการเชื่อมต่อกับ Azure Active Directory เพื่อกำหนดสิทธิการเข้าใช้งานของผู้ใช้งานได้
- รองรับการเชื่อมต่อกับ Azure SQL Data Warehouse, Azure SQL DB และ Azure CosmosDB เพื่อทำการอัปโหลดข้อมูลเข้าไปยัง Service เหล่านี้ได้
โครงการจัดการข้อมูล ของ Azure Databricks
Azure Databricks เป็นแกนหลักของโซลูชัน แพลตฟอร์มนี้ทำงานได้อย่างราบรื่นกับบริการอื่นๆ เช่น Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics และ Power BI
ส่วนประกอบหลัก
- Azure Databricksเป็นแพลตฟอร์มการวิเคราะห์ข้อมูล คลัสเตอร์ Spark ที่มีการจัดการเต็มรูปแบบจะประมวลผลข้อมูลจำนวนมากจากหลายแหล่ง Azure Databricks ทำความสะอาดและแปลงชุดข้อมูลแบบไม่มีโครงสร้าง โดยจะรวมข้อมูลที่ประมวลผลเข้ากับข้อมูลที่มีโครงสร้างจากฐานข้อมูลการปฏิบัติงานหรือคลังข้อมูล Azure Databricks ยังฝึกอบรมและปรับใช้การเรียนรู้ของเครื่องและโมเดลการเรียนรู้เชิงลึกที่ปรับขนาดได้
- Event Hubsเป็นแพลตฟอร์มสตรีมมิ่งข้อมูลขนาดใหญ่ ในฐานะแพลตฟอร์มในฐานะบริการ (PaaS) บริการนำเข้าเหตุการณ์นี้ได้รับการจัดการอย่างเต็มรูปแบบ
- Data Factoryเป็นบริการบูรณาการข้อมูลแบบไฮบริด คุณสามารถใช้โซลูชันแบบไร้เซิร์ฟเวอร์ที่มีการจัดการเต็มรูปแบบนี้เพื่อสร้าง กำหนดเวลา และประสานเวิร์กโฟลว์การแปลงข้อมูล
- Data Lake Storage Gen2เป็น Data Lake ที่ปรับขนาดได้และปลอดภัยสำหรับปริมาณงานการวิเคราะห์ที่มีประสิทธิภาพสูง บริการนี้สามารถจัดการข้อมูลหลายเพตะไบต์ในขณะที่รักษาปริมาณงานได้หลายร้อยกิกะบิต ข้อมูลอาจมีโครงสร้าง กึ่งโครงสร้าง หรือไม่มีโครงสร้าง โดยทั่วไปจะมาจากแหล่งที่มาที่แตกต่างกันหลายแหล่ง เช่น บันทึก ไฟล์ และสื่อ
- Azure Databricks SQL Analyticsรันการสืบค้นบน Data Lake บริการนี้ยังแสดงภาพข้อมูลในแดชบอร์ดอีกด้วย
- Machine Learningคือสภาพแวดล้อมบนคลาวด์ที่ช่วยคุณสร้าง ปรับใช้ และจัดการโซลูชันการวิเคราะห์เชิงคาดการณ์ ด้วยแบบจำลองเหล่านี้ คุณสามารถคาดการณ์พฤติกรรม ผลลัพธ์ และแนวโน้มได้
- AKSเป็นบริการ Kubernetes ที่พร้อมใช้งานสูง ปลอดภัย และมีการจัดการเต็มรูปแบบ AKS ช่วยให้ปรับใช้และจัดการแอปพลิเคชันแบบคอนเทนเนอร์ได้ง่าย
- Azure Synapseเป็นบริการวิเคราะห์สำหรับคลังข้อมูลและระบบข้อมูลขนาดใหญ่ บริการนี้ทำงานร่วมกับ Power BI, Machine Learning และบริการ Azure อื่นๆ
- ตัวเชื่อมต่อ Azure Synapseมอบวิธีการเข้าถึง Azure Synapse จาก Azure Databricks ตัวเชื่อมต่อเหล่านี้ถ่ายโอนข้อมูลปริมาณมากระหว่างคลัสเตอร์ Azure Databricks และอินสแตนซ์ Azure Synapse ได้อย่างมีประสิทธิภาพ
- พูล SQLจัดเตรียมคลังข้อมูลและสภาพแวดล้อมการประมวลผลใน Azure Synapse พูลเข้ากันได้กับ Azure Storage และ Data Lake Storage Gen2
- Delta Lakeเป็นเลเยอร์การจัดเก็บข้อมูลที่ใช้รูปแบบไฟล์เปิด เลเยอร์นี้ทำงานบนที่เก็บข้อมูลบนคลาวด์ เช่น Data Lake Storage Gen2 Delta Lake รองรับการกำหนดเวอร์ชันข้อมูล การย้อนกลับ และธุรกรรมสำหรับการอัพเดต การลบ และการรวมข้อมูล
- MLflowเป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับวงจรการเรียนรู้ของเครื่อง ส่วนประกอบต่างๆ จะตรวจสอบโมเดลแมชชีนเลิร์นนิงระหว่างการฝึกซ้อมและการใช้งาน MLflow ยังจัดเก็บโมเดลและโหลดโมเดลเหล่านี้ในการผลิต