Azure Data Factory
Extract (กระบวนการดึงข้อมูล)
เป็นกระบวนการเริ่มต้นของระบบดึงข้อมูลจาก แหล่งของข้อมูล โดยทั่วไปแล้วระบบ Data warehouse จะประกอบด้วย ข้อมูลจากหลายๆ ที่ ข้อมูลที่อยู่ต่างที่กันนั้นอาจจะอยู่ในรูปแบบที่แตกต่างกันด้วยยกตัวอย่างเช่น อาจจะอยู่ในรูปแบบของฐานข้อมูลคนละชนิด หรือ ไม่ใช่ฐานข้อมูลแท้จริงซึ่งอาจจะเป็นระบบไฟล์ข้อมูลธรรมดา (Flat Files) หรือ ในอีกกรณีคือเป็นข้อมูลในฐานข้อมูลที่ไม่ใช่ระบบ RDBMS (Relational Database System) เช่นข้อมูลในรูปแบบของInformation Management System (IMS) หรือ ข้อมูลอื่นใดนอกระบบเช่น Virtual Storage Access Method (VSAM) หรือ Indexed Sequential Access Method (ISAM) หรือแม้กระทั่งการดึงจากข้อมูลรูปแบบ อื่นๆ ที่ดึงกันสด ๆจากระบบอื่นเลยเช่น Web Spider หรือ Screen scraping ข้อมูลจะถูกดึงเข้าสู่ระบบแบบ on-the-fly เป้าหมายของกระบวนการ Extract นี้คือดึงข้อมูลเข้ามาสู่รูปแบบมาตรฐานเดียวกัน เพื่อให้เหมาะสมต่อการแปลงรูปร่างของข้อมูลในขั้นตอนถัดไป เนื้อแท้ของกระบวนการนี้จะยุ่งเกี่ยวกับกระบวนอ่านข้อมูลที่ถูกดึงเข้าสู่ ระบบ ส่งผลให้เกิดกระบวนการตรวจสอบข้อมูลว่า ตรงตามรูปแบบที่กำหนดไว้เบื้องต้นหรือไม่ ทั้งรูปแบบของข้อมูล และ โครงสร้างของข้อมูล ซึ่งถ้าหากเกิดข้อมูลนั้นไม่ได้มาตรฐานหรือรูปแบบที่กำหนดเอาไว้เบื้องต้น ก็จะเกิดกระบวนการปฏิเสธ (Reject) ข้อมูลนั้นๆ
ในโลกของบิ๊กดาต้า ข้อมูลดิบที่ไม่มีการรวบรวมกันมักจะถูกจัดเก็บในระบบการจัดเก็บข้อมูลเชิงสัมพันธ์ ไม่ใช่เชิงสัมพันธ์ และระบบการจัดเก็บข้อมูลอื่นๆ อย่างไรก็ตาม ข้อมูลดิบเองนั้นไม่มีบริบทหรือความหมายที่เหมาะสมในการให้ข้อมูลเชิงลึกที่มีความหมายแก่นักวิเคราะห์ นักวิทยาศาสตร์ด้านข้อมูล หรือผู้มีอำนาจตัดสินใจทางธุรกิจ
ข้อมูลขนาดใหญ่ต้องการบริการที่สามารถประสานและดำเนินการกระบวนการต่างๆ เพื่อปรับแต่งแหล่งข้อมูลดิบจำนวนมหาศาลเหล่านี้ให้เป็นข้อมูลเชิงลึกทางธุรกิจที่นำไปดำเนินการได้ Azure Data Factory คือบริการระบบคลาวด์ที่มีการจัดการซึ่งสร้างขึ้นสำหรับไฮบริด extract-transform-load (ETL), extract-load-transform (ELT) และโครงการการรวมข้อมูลที่ซับซ้อนเหล่านี้
คุณสมบัติของระบบ
- สามารถขยายขนาดกำลังในการประมวลผลเพื่อย้ายข้อมูลแบบไร้เซิร์ฟเวอร์ได้อย่างง่ายดายด้วยประสิทธิภาพสูง ความยืดหยุ่น และความสามารถในการปรับขนาด และคุณจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น โปรดทราบสิ่งต่อไปนี้ด้วย:
- ไม่มีข้อจำกัดเกี่ยวกับปริมาณข้อมูลหรือจำนวนไฟล์
- สามารถใช้เครือข่ายและแบนด์วิดท์พื้นที่เก็บข้อมูลของคุณได้อย่างเต็มที่ เพื่อให้ได้ปริมาณการรับส่งข้อมูลการย้ายข้อมูลสูงสุดในสภาพแวดล้อมของคุณ
- ใช้วิธีจ่ายตามการใช้งาน ดังนั้นคุณจะจ่ายเฉพาะเวลาที่คุณใช้จริงเพื่อเรียกใช้การย้ายข้อมูลไปยัง Azure เท่านั้น
- สามารถดำเนินการได้ทั้งการโหลดในอดีตและการโหลดที่เพิ่มขึ้นตามกำหนดการ
- ใช้รันไทม์การรวม Azure (IR) เพื่อย้ายข้อมูลระหว่าง data lake ที่เข้าถึงได้แบบสาธารณะและปลายทางของคลังข้อมูล นอกจากนี้ยังสามารถใช้ IR ที่โฮสต์ด้วยตนเองเพื่อย้ายข้อมูลสำหรับ data Lake และปลายทางของคลังข้อมูลภายใน Azure Virtual Network (VNet) หรือหลังไฟร์วอลล์
- มีการรักษาความปลอดภัยระดับองค์กร: คุณสามารถใช้ Windows Installer (MSI) หรือ Service Identity สำหรับการรวมบริการกับบริการที่ปลอดภัย หรือใช้ Azure Key Vault สำหรับการจัดการข้อมูลประจำตัว
- มอบประสบการณ์การเขียนที่ปราศจากโค้ดและแดชบอร์ดการตรวจสอบในตัวที่สมบูรณ์
Azure Data Factory สถานการณ์การใช้งาน
ตัวอย่างเช่น ลองนึกภาพบริษัทเกมที่รวบรวมบันทึกเกมหลายเพตะไบต์ที่สร้างโดยเกมในคลาวด์ บริษัทต้องการวิเคราะห์บันทึกเหล่านี้เพื่อรับข้อมูลเชิงลึกเกี่ยวกับความชอบของลูกค้า ข้อมูลประชากร และพฤติกรรมการใช้งาน นอกจากนี้ยังต้องการระบุโอกาสในการขายเพิ่มและขายต่อเนื่อง พัฒนาคุณสมบัติใหม่ที่น่าสนใจ ขับเคลื่อนการเติบโตของธุรกิจ และมอบประสบการณ์ที่ดียิ่งขึ้นให้กับลูกค้า
ในการวิเคราะห์บันทึกเหล่านี้ บริษัทจำเป็นต้องใช้ข้อมูลอ้างอิง เช่น ข้อมูลลูกค้า ข้อมูลเกม และข้อมูลแคมเปญการตลาดที่อยู่ในที่เก็บข้อมูลภายในองค์กร บริษัทต้องการใช้ข้อมูลนี้จากที่เก็บข้อมูลภายในองค์กร รวมกับข้อมูลบันทึกเพิ่มเติมที่มีอยู่ในที่เก็บข้อมูลบนคลาวด์
ในการดึงข้อมูลเชิงลึก หวังที่จะประมวลผลข้อมูลที่เข้าร่วมโดยใช้คลัสเตอร์ Spark ในระบบคลาวด์ (Azure HDInsight) และเผยแพร่ข้อมูลที่แปลงแล้วไปยังคลังข้อมูลบนระบบคลาวด์ เช่น Azure Synapse Analytics เพื่อสร้างรายงานเพิ่มเติมได้อย่างง่ายดาย พวกเขาต้องการทำให้เวิร์กโฟลว์นี้เป็นอัตโนมัติ และตรวจสอบและจัดการตามกำหนดการประจำวัน พวกเขายังต้องการดำเนินการเมื่อไฟล์ลงจอดในคอนเทนเนอร์ของ Blob Store
เป็นแพลตฟอร์มที่ช่วยแก้ไขสถานการณ์ข้อมูลดังกล่าว เป็นบริการ ETL บนคลาวด์และการรวมข้อมูลที่ช่วยให้คุณสร้างเวิร์กโฟลว์ที่ขับเคลื่อนด้วยข้อมูลเพื่อจัดการการเคลื่อนย้ายข้อมูลและแปลงข้อมูลตามขนาด คุณสามารถสร้างและกำหนดเวลาเวิร์กโฟลว์ที่ขับเคลื่อนด้วยข้อมูล (เรียกว่าไปป์ไลน์) ที่สามารถนำเข้าข้อมูลจากที่เก็บข้อมูลที่แตกต่างกัน คุณสามารถสร้างกระบวนการ ETL ที่ซับซ้อนซึ่งแปลงข้อมูลเป็นภาพด้วยกระแสข้อมูลหรือโดยการใช้บริการประมวลผล เช่น Azure HDInsight Hadoop, Azure Databricks และฐานข้อมูล Azure SQL
นอกจากนี้ คุณสามารถเผยแพร่ข้อมูลที่แปลงแล้วของคุณไปยังที่เก็บข้อมูล เช่น Azure Synapse Analytics สำหรับแอปพลิเคชันข่าวกรองธุรกิจ (BI) เพื่อใช้ ในท้ายที่สุด ผ่าน Azure Data Factory ข้อมูลดิบสามารถจัดเป็นที่เก็บข้อมูลที่มีความหมายและ Data Lake เพื่อการตัดสินใจทางธุรกิจที่ดีขึ้น
มันทำงานอย่างไร?
Data Factory ประกอบด้วยชุดของระบบที่เชื่อมต่อถึงกันซึ่งเป็นแพลตฟอร์มแบบ end-to-end ที่สมบูรณ์สำหรับวิศวกรข้อมูล