Databricks
Databricks คือ Unified Analytics Platform ที่ทำงาน Azure โดยออกแบบมาสำหรับระบบ Cloud โดยเฉพาะ มีฟีเจอร์ต่างๆมาให้ครบครัน เช่น One-click deployment, Auto-scaling และมีระบบ Optimized Databricks Runtime ที่ช่วยเร่งประสิทธิภาพของ Spark Job เมื่อทำงานบน Cloud ได้เร็วขึ้น 10-100 เท่าเลยทีเดียว ในขณะเดียวกันยังมีเครื่องมือที่ช่วยอำนวยความสะดวกในการใช้งาน เช่น Interactive Notebook Environment, Monitoring Tools และ Security Control เพื่อช่วยตอบโจทย์การใช้งาน ในองค์กรที่มีผู้ใช้งานจำนวนมากได้
จุดเด่นของ Azure Databricks ที่น่าสนใจ มีดังนี้
- มี Connector เพื่อเชื่อมต่อกับ Azure Storage Service เช่น Azure Blob Store และ Azure Data Lake
- มีระบบ Auto-scaling และ Auto-termination สำหรับ Spark Cluster เพื่อลดค่าใช้จ่ายให้น้อยที่สุด
- มีการทำ Performance Optimization ระดับ Caching, Indexing และ Advanced query optimization เพื่อเพิ่มประสิทธิภาพการทำงาน
- มีระบบ Notebooks เพื่อให้ผู้ใช้งานสามารถแชร์ข้อมูลระหว่างกันได้ภายในองค์กรได้แบบ Real-time
- มาพร้อม Analytics Libraries เช่น Python และ R ให้เริ่มต้นใช้งานได้อย่างรวดเร็ว
- สามารถเลือก VM Types ได้หลายแบบ เช่น F-series สำหรับงาน Machine Learning, M-series สำหรับงานที่ต้องการ Memory จำนวนมาก และ D-series สำหรับงานทั่วไป
- รองรับการเชื่อมต่อกับ Azure Power BI เพื่อแสดงผลการวิเคราะห์ข้อมูลได้ทันที
- รองรับการเชื่อมต่อกับ Azure Active Directory เพื่อกำหนดสิทธิการเข้าใช้งานของผู้ใช้งานได้
- รองรับการเชื่อมต่อกับ Azure SQL Data Warehouse, Azure SQL DB และ Azure CosmosDB เพื่อทำการอัปโหลดข้อมูลเข้าไปยัง Service เหล่านี้ได้
โครงการจัดการข้อมูล ของ Azure Databricks
![](http://www.fusionsol.com/wp-content/uploads/sites/2/2023/09/image-1024x791.png)
Azure Databricks เป็นแกนหลักของโซลูชัน แพลตฟอร์มนี้ทำงานได้อย่างราบรื่นกับบริการอื่นๆ เช่น Azure Data Lake Storage Gen2, Azure Data Factory, Azure Synapse Analytics และ Power BI
ส่วนประกอบหลัก
- Azure Databricksเป็นแพลตฟอร์มการวิเคราะห์ข้อมูล คลัสเตอร์ Spark ที่มีการจัดการเต็มรูปแบบจะประมวลผลข้อมูลจำนวนมากจากหลายแหล่ง Azure Databricks ทำความสะอาดและแปลงชุดข้อมูลแบบไม่มีโครงสร้าง โดยจะรวมข้อมูลที่ประมวลผลเข้ากับข้อมูลที่มีโครงสร้างจากฐานข้อมูลการปฏิบัติงานหรือคลังข้อมูล Azure Databricks ยังฝึกอบรมและปรับใช้การเรียนรู้ของเครื่องและโมเดลการเรียนรู้เชิงลึกที่ปรับขนาดได้
- Event Hubsเป็นแพลตฟอร์มสตรีมมิ่งข้อมูลขนาดใหญ่ ในฐานะแพลตฟอร์มในฐานะบริการ (PaaS) บริการนำเข้าเหตุการณ์นี้ได้รับการจัดการอย่างเต็มรูปแบบ
- Data Factoryเป็นบริการบูรณาการข้อมูลแบบไฮบริด คุณสามารถใช้โซลูชันแบบไร้เซิร์ฟเวอร์ที่มีการจัดการเต็มรูปแบบนี้เพื่อสร้าง กำหนดเวลา และประสานเวิร์กโฟลว์การแปลงข้อมูล
- Data Lake Storage Gen2เป็น Data Lake ที่ปรับขนาดได้และปลอดภัยสำหรับปริมาณงานการวิเคราะห์ที่มีประสิทธิภาพสูง บริการนี้สามารถจัดการข้อมูลหลายเพตะไบต์ในขณะที่รักษาปริมาณงานได้หลายร้อยกิกะบิต ข้อมูลอาจมีโครงสร้าง กึ่งโครงสร้าง หรือไม่มีโครงสร้าง โดยทั่วไปจะมาจากแหล่งที่มาที่แตกต่างกันหลายแหล่ง เช่น บันทึก ไฟล์ และสื่อ
- Azure Databricks SQL Analyticsรันการสืบค้นบน Data Lake บริการนี้ยังแสดงภาพข้อมูลในแดชบอร์ดอีกด้วย
- Machine Learningคือสภาพแวดล้อมบนคลาวด์ที่ช่วยคุณสร้าง ปรับใช้ และจัดการโซลูชันการวิเคราะห์เชิงคาดการณ์ ด้วยแบบจำลองเหล่านี้ คุณสามารถคาดการณ์พฤติกรรม ผลลัพธ์ และแนวโน้มได้
- AKSเป็นบริการ Kubernetes ที่พร้อมใช้งานสูง ปลอดภัย และมีการจัดการเต็มรูปแบบ AKS ช่วยให้ปรับใช้และจัดการแอปพลิเคชันแบบคอนเทนเนอร์ได้ง่าย
- Azure Synapseเป็นบริการวิเคราะห์สำหรับคลังข้อมูลและระบบข้อมูลขนาดใหญ่ บริการนี้ทำงานร่วมกับ Power BI, Machine Learning และบริการ Azure อื่นๆ
- ตัวเชื่อมต่อ Azure Synapseมอบวิธีการเข้าถึง Azure Synapse จาก Azure Databricks ตัวเชื่อมต่อเหล่านี้ถ่ายโอนข้อมูลปริมาณมากระหว่างคลัสเตอร์ Azure Databricks และอินสแตนซ์ Azure Synapse ได้อย่างมีประสิทธิภาพ
- พูล SQLจัดเตรียมคลังข้อมูลและสภาพแวดล้อมการประมวลผลใน Azure Synapse พูลเข้ากันได้กับ Azure Storage และ Data Lake Storage Gen2
- Delta Lakeเป็นเลเยอร์การจัดเก็บข้อมูลที่ใช้รูปแบบไฟล์เปิด เลเยอร์นี้ทำงานบนที่เก็บข้อมูลบนคลาวด์ เช่น Data Lake Storage Gen2 Delta Lake รองรับการกำหนดเวอร์ชันข้อมูล การย้อนกลับ และธุรกรรมสำหรับการอัพเดต การลบ และการรวมข้อมูล
- MLflowเป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับวงจรการเรียนรู้ของเครื่อง ส่วนประกอบต่างๆ จะตรวจสอบโมเดลแมชชีนเลิร์นนิงระหว่างการฝึกซ้อมและการใช้งาน MLflow ยังจัดเก็บโมเดลและโหลดโมเดลเหล่านี้ในการผลิต