Azure Data Factory
Azure Data Factory Extract (กระบวนการดึงข้อมูล) เป็นกระบวนการเริ่มต้นของระบบดึงข้อมูลจาก แหล่งของข้อมูล โดยทั่วไปแล้วระบบ Data warehouse จะประกอบด้วย ข้อมูลจากหลายๆ ที่ ข้อมูลที่อยู่ต่างที่กันนั้นอาจจะอยู่ในรูปแบบที่แตกต่างกันด้วยยกตัวอย่างเช่น อาจจะอยู่ในรูปแบบของฐานข้อมูลคนละชนิด หรือ ไม่ใช่ฐานข้อมูลแท้จริงซึ่งอาจจะเป็นระบบไฟล์ข้อมูลธรรมดา (Flat Files) หรือ ในอีกกรณีคือเป็นข้อมูลในฐานข้อมูลที่ไม่ใช่ระบบ RDBMS (Relational Database System) เช่นข้อมูลในรูปแบบของInformation Management System (IMS) หรือ ข้อมูลอื่นใดนอกระบบเช่น Virtual Storage Access Method (VSAM) หรือ Indexed Sequential Access Method (ISAM) หรือแม้กระทั่งการดึงจากข้อมูลรูปแบบ อื่นๆ ที่ดึงกันสด ๆจากระบบอื่นเลยเช่น Web Spider หรือ Screen scraping ข้อมูลจะถูกดึงเข้าสู่ระบบแบบ on-the-fly เป้าหมายของกระบวนการ Extract นี้คือดึงข้อมูลเข้ามาสู่รูปแบบมาตรฐานเดียวกัน เพื่อให้เหมาะสมต่อการแปลงรูปร่างของข้อมูลในขั้นตอนถัดไป เนื้อแท้ของกระบวนการนี้จะยุ่งเกี่ยวกับกระบวนอ่านข้อมูลที่ถูกดึงเข้าสู่ ระบบ ส่งผลให้เกิดกระบวนการตรวจสอบข้อมูลว่า ตรงตามรูปแบบที่กำหนดไว้เบื้องต้นหรือไม่ ทั้งรูปแบบของข้อมูล และ โครงสร้างของข้อมูล ซึ่งถ้าหากเกิดข้อมูลนั้นไม่ได้มาตรฐานหรือรูปแบบที่กำหนดเอาไว้เบื้องต้น ก็จะเกิดกระบวนการปฏิเสธ (Reject) ข้อมูลนั้นๆ ในโลกของบิ๊กดาต้า ข้อมูลดิบที่ไม่มีการรวบรวมกันมักจะถูกจัดเก็บในระบบการจัดเก็บข้อมูลเชิงสัมพันธ์ ไม่ใช่เชิงสัมพันธ์ และระบบการจัดเก็บข้อมูลอื่นๆ อย่างไรก็ตาม ข้อมูลดิบเองนั้นไม่มีบริบทหรือความหมายที่เหมาะสมในการให้ข้อมูลเชิงลึกที่มีความหมายแก่นักวิเคราะห์ นักวิทยาศาสตร์ด้านข้อมูล หรือผู้มีอำนาจตัดสินใจทางธุรกิจ…