Analytics Data
Analytics Data คือ ขบวนการวิเคราะห์ข้อมูลจากการทำงาน โดยสามารถให้ได้มุมมองที่นำไปพัฒนาการทำงานของบริษัท ให้มีประสิทธิภาพยิ่งขึ้น
ทำไมต้องเป็น AZURE DATA
- เพราะการเริ่มต้นธุรกิจต้องทำอย่างรวดเร็ว และ Azure Data เป็นคำตอบที่ง่ายที่สุด เพียงไม่กี่นาที เราสามารถสร้าง Database สำหรับจัดเก็บข้อมูลได้ในทันที ภายใต้งบประมาณที่ประหยัดที่สุด ( หมวด PaaS )
- เป็น Cloud เพียงยี่ห้อเดียวที่เป็นเจ้าของ Technology เอง ทำให้เมื่อเทียบค่าใช้จ่ายในการเช่าแล้ว Microsoft ทำได้ประหยัดที่สุด
- มาพร้อมเครื่องมือในการบริการจัดการ เช่น เครื่องในการ debug ที่หาไม่ได้จาก ยี่ห้ออืน
- มีหลากหลาย Solution พร้อมใช้งานให้เลือก เช่น Big Data , Data Warehouse , IoT
ขบวนการทำงาน
เพื่อให้ได้ผลตามต้องการ จะต้องมีขั้นตอนการเตรียมข้อมูล ในหลายขั้นตอนก่อนที่จะนำข้อมูลมาวิเคราะห์ได้
- แหล่งข้อมูล
- ที่เก็บข้อมูล Data ที่เป็น Structure
- ไฟล์คงที่สร้างโดยแอปพลิเคชันเช่นไฟล์บันทึกของเว็บเซิร์ฟเวอร์
- แหล่งข้อมูลแบบเรียลไทม์เช่นอุปกรณ์ IoT
- การจัดเก็บข้อมูล
- Data lake เก็บไฟล์แบบกระจาย ซึ่งสามารถเก็บไฟล์ขนาดใหญ่ในรูปแบบต่างๆ ได้เป็นจำนวนมาก
- หรือเก็บใน blob container ใน Azure Storage
- การประมวลผลแบบกลุ่ม
- การอ่านไฟล์ต้นฉบับประมวลผล และเขียนผลลัพธ์ไปยังไฟล์ใหม่
- การเรียกใช้งาน U-SQL ใน Azure Data Lake Analytics โดยใช้ Hive, Pig หรืองานแผนที่
- ลดที่กำหนดเองในคลัสเตอร์ HDInsight Hadoop
- หรือใช้โปรแกรม Java, Scala หรือ Python ในคลัสเตอร์ HDInsight Spark
- การอ่านไฟล์ต้นฉบับประมวลผล และเขียนผลลัพธ์ไปยังไฟล์ใหม่
- การนำเข้าข้อความแบบเรียลไทม์
- ต้องมีที่เก็บการนำเข้าข้อความเพื่อทำหน้าที่เป็นบัฟเฟอร์สำหรับข้อความ และเพื่อสนับสนุนการประมวลผลแบบขยายขนาดการส่งที่เชื่อถือได้ ตัวเลือก ได้แก่ Azure Event Hubs, Azure IoT Hubs และ Kafka
- ต้องมีที่เก็บการนำเข้าข้อความเพื่อทำหน้าที่เป็นบัฟเฟอร์สำหรับข้อความ และเพื่อสนับสนุนการประมวลผลแบบขยายขนาดการส่งที่เชื่อถือได้ ตัวเลือก ได้แก่ Azure Event Hubs, Azure IoT Hubs และ Kafka
- การประมวลผลสตรีม
- ข้อมูลสตรีมที่ประมวลผลแล้วจะถูกเขียนไปยังซิงก์เอาท์พุท Azure Stream Analytics ให้บริการประมวลผลสตรีมที่มีการจัดการโดยยึดตามคำสั่ง SQL ที่รันอยู่ตลอดเวลา
- ข้อมูลสตรีมที่ประมวลผลแล้วจะถูกเขียนไปยังซิงก์เอาท์พุท Azure Stream Analytics ให้บริการประมวลผลสตรีมที่มีการจัดการโดยยึดตามคำสั่ง SQL ที่รันอยู่ตลอดเวลา
- ที่เก็บข้อมูลเชิงวิเคราะห์
- Azure Synapse Analytics ให้บริการที่มีการจัดการสำหรับคลังข้อมูลบนคลาวด์ขนาดใหญ่ HDInsight รองรับ Interactive Hive, HBase และ Spark SQL ซึ่งสามารถใช้เพื่อให้บริการข้อมูลสำหรับการวิเคราะห์
- Azure Synapse Analytics ให้บริการที่มีการจัดการสำหรับคลังข้อมูลบนคลาวด์ขนาดใหญ่ HDInsight รองรับ Interactive Hive, HBase และ Spark SQL ซึ่งสามารถใช้เพื่อให้บริการข้อมูลสำหรับการวิเคราะห์
- การวิเคราะห์ และการรายงาน
- Microsoft Power BI หรือ Microsoft Excel การวิเคราะห์และการรายงานยังสามารถอยู่ในรูปแบบของการสำรวจข้อมูลเชิงโต้ตอบโดยนักวิทยาศาสตร์ข้อมูลหรือนักวิเคราะห์ข้อมูล สำหรับสถานการณ์เหล่านี้บริการ Azure จำนวนมากรองรับสมุดบันทึกเชิงวิเคราะห์
- Microsoft Power BI หรือ Microsoft Excel การวิเคราะห์และการรายงานยังสามารถอยู่ในรูปแบบของการสำรวจข้อมูลเชิงโต้ตอบโดยนักวิทยาศาสตร์ข้อมูลหรือนักวิเคราะห์ข้อมูล สำหรับสถานการณ์เหล่านี้บริการ Azure จำนวนมากรองรับสมุดบันทึกเชิงวิเคราะห์
- การจัดเตรียม
- ในการทำให้เวิร์กโฟลว์เหล่านี้เป็นไปโดยอัตโนมัติคุณสามารถใช้เทคโนโลยีการจัดระเบียบเช่น Azure Data Factory หรือ Apache Oozie และ Sqoop
เครื่องมือในการวิเคราะห์ข้อมูล
ปัจจุบันมีเครื่องมือที่ใช้ได้ง่ายกว่าแต่ก่อน และ เป็นการเช่าใช้แบบเป็นช่วงเวลา ช่วยให้ประหยัดค่าใช้จ่ายได้มาก
Azure Synapse เครื่องมือในการวิเคราะห์ข้อมูลแบบง่าย
Azure Synapse เป็นเครื่องมือ ของ Microsoft ที่มาแทน เครื่องมือเดิม ๆ ที่ใช้งานยาก และ การเลือก config ก็ทำได้ง่ายกว่าแบบเดิม
Azure Synapse มีรากฐานอยู่บนเอนจินประมวลผลคำสั่ง SQL รุ่นใหม่ ที่ออกแบบขึ้นเพื่อการทำงานบนคลาวด์โดยเฉพาะ รองรับการประมวลผลได้ในหลากหลายสภาวะการใช้งาน นับตั้งแต่ทรัพยากรระบบในระดับแค่หน่วยประมวลผลตัวเดียว ไปจนถึงการกระจายงานสู่โหนดนับพัน ส่วนการผนึกเอา Apache Spark เข้าไว้เป็นส่วนหนึ่งของ Synapse ยังช่วยให้ขั้นตอนการเตรียมความพร้อมของข้อมูลและการวิเคราะห์ด้วย Machine Learning มีศักยภาพที่หลากหลายและครบครันมากยิ่งขึ้น เพิ่มทางเลือกควบคู่ไปกับการใช้งาน SQL
นอกจากนี้ ยังทำงานประสานกับโซลูชั่นข้อมูลของไมโครซอฟท์อย่าง Power BI และ Azure Machine Learning ได้อย่างลงตัว โดยผู้ใช้สามารถใช้งาน Power BI เพื่อสร้างรายงานหรือแดชบอร์ดจากข้อมูลได้จากใน Synapse Studio โดยตรง จึงสามารถเตรียมข้อมูลเพื่อนำเสนอได้อย่างรวดเร็ว ขณะที่ Azure Machine Learning ก็สามารถวิเคราะห์ข้อมูลเพื่อค้นหารูปแบบและคาดการณ์แนวโน้มในอนาคตได้ทันที โดยไม่ต้องถ่ายโอนข้อมูลไปวิเคราะห์ด้วยเครื่องมืออื่น