SSIS คือ
SSIS ย่อมาจาก SQL Server Integration Services เป็นแพลตฟอร์มสำหรับสร้างโซลูชันการรวมข้อมูลระดับองค์กรและการแปลงข้อมูล ใช้บริการการรวมเพื่อแก้ปัญหาทางธุรกิจที่ซับซ้อนโดยการคัดลอกหรือดาวน์โหลดไฟล์ โหลดคลังข้อมูล ล้างข้อมูลและขุดข้อมูล และจัดการวัตถุและข้อมูลของ SQL Server
สรุปง่าย ๆ คือเครื่องมือที่ช่วยในการ รวบรวมข้อมูล จากแหล่งข้อมูล เช่น Excel SQL Oracle SAP เข้าสู่ระบบ Data Warehouse นั้นเอง
ETL คืออะไร (Extract-Transform-Load) คือ กระบวนการหนึ่งในระบบ Data Warehouse โดยระบบที่ออกแบบเอาไว้จะดึงข้อมูลออกมาจากหลายๆ ที่, นำกระบวนการตรวจสอบคุณภาพของข้อมูลมาประยุกต์ใช้, มีการเชื่อมโยงและปรับข้อมูลให้เป็นไปในรูปแบบเดียวกันเพื่อให้ ข้อมูลจากหลายๆ แหล่งสามารถใช้งานร่วมกันได้ และท้ายที่สุดทำการส่งมอบ (Delivery)
การใช้งาน
ปัจจุบัน เราอาจจะไม่ค่อยคุ้นในชื่อ SSIS เพราะตอนนี้ Microsoft เค้าตั้งชื่อ Service ใหม่ในชื่อว่า Data Factory นี่แหละครับ แต่ว่ามีการ รวมชุด Service ใหม่ ปรับปรุง Interface ใหม่ แล้วก็ ตั้งชื่อใหม่ด้วย
SSIS เป็นกระบวนการเริ่มต้นของระบบดึงข้อมูลจาก แหล่งของข้อมูล โดยทั่วไปแล้วระบบ Data warehouse จะประกอบด้วย ข้อมูลจากหลายๆ ที่ ข้อมูลที่อยู่ต่างที่กันนั้นอาจจะอยู่ในรูปแบบที่แตกต่างกันด้วยยกตัวอย่างเช่น อาจจะอยู่ในรูปแบบของฐานข้อมูลคนละชนิด หรือ ไม่ใช่ฐานข้อมูลแท้จริงซึ่งอาจจะเป็นระบบไฟล์ข้อมูลธรรมดา (Flat Files) หรือ ในอีกกรณีคือเป็นข้อมูลในฐานข้อมูลที่ไม่ใช่ระบบ RDBMS (Relational Database System)
เช่นข้อมูลในรูปแบบของInformation Management System (IMS) หรือ ข้อมูลอื่นใดนอกระบบเช่น Virtual Storage Access Method (VSAM) หรือ Indexed Sequential Access Method (ISAM) หรือแม้กระทั่งการดึงจากข้อมูลรูปแบบ อื่นๆ ที่ดึงกันสด ๆจากระบบอื่นเลยเช่น Web Spider หรือ Screen scraping
ข้อมูลจะถูกดึงเข้าสู่ระบบแบบ on-the-fly เป้าหมายของกระบวนการ Extract นี้คือดึงข้อมูลเข้ามาสู่รูปแบบมาตรฐานเดียวกัน เพื่อให้เหมาะสมต่อการแปลงรูปร่างของข้อมูลในขั้นตอนถัดไป เนื้อแท้ของกระบวนการนี้จะยุ่งเกี่ยวกับกระบวนอ่านข้อมูลที่ถูกดึงเข้าสู่ ระบบ ส่งผลให้เกิดกระบวนการตรวจสอบข้อมูลว่า ตรงตามรูปแบบที่กำหนดไว้เบื้องต้นหรือไม่ ทั้งรูปแบบของข้อมูล และ โครงสร้างของข้อมูล ซึ่งถ้าหากเกิดข้อมูลนั้นไม่ได้มาตรฐานหรือรูปแบบที่กำหนดเอาไว้เบื้องต้น ก็จะเกิดกระบวนการปฏิเสธ (Reject) ข้อมูลนั้นๆ
ความสามารถ ( ETL )
Integration Services สามารถดึงและแปลงข้อมูลจากแหล่งที่หลากหลาย เช่น ไฟล์ข้อมูล XML ไฟล์แฟล็ต และแหล่งข้อมูลเชิงสัมพันธ์ จากนั้นโหลดข้อมูลลงในปลายทางอย่างน้อยหนึ่งแห่ง
บริการบูรณาการรวมถึง:
- ชุดงานและการเปลี่ยนแปลงในตัวที่หลากหลาย
- เครื่องมือกราฟิกสำหรับการสร้างแพ็คเกจ
- ฐานข้อมูลแค็ตตาล็อก SSIS เพื่อจัดเก็บ เรียกใช้ และจัดการแพ็คเกจ
คุณสามารถใช้เครื่องมือ Integration Services แบบกราฟิกเพื่อสร้างโซลูชันโดยไม่ต้องเขียนโค้ดบรรทัดเดียว คุณยังสามารถตั้งโปรแกรมโมเดลอ็อบเจ็กต์ Integration Services ที่ครอบคลุมเพื่อสร้างแพ็กเกจโดยทางโปรแกรม และโค้ดงานที่กำหนดเองและอ็อบเจ็กต์แพ็กเกจอื่นๆ
ทำไมถึงใช้ Azure Data Factory
Azure Data Factory เป็นแพลตฟอร์มที่ช่วยแก้ไขสถานการณ์ข้อมูลดังกล่าว เป็นบริการ ETL บนคลาวด์และการรวมข้อมูลที่ช่วยให้คุณสร้างเวิร์กโฟลว์ที่ขับเคลื่อนด้วยข้อมูลเพื่อจัดการการเคลื่อนย้ายข้อมูลและแปลงข้อมูลตามขนาด เมื่อใช้ Azure Data Factory คุณสามารถสร้างและกำหนดเวลาเวิร์กโฟลว์ที่ขับเคลื่อนด้วยข้อมูล (เรียกว่าไปป์ไลน์) ที่สามารถนำเข้าข้อมูลจากที่เก็บข้อมูลที่แตกต่างกัน คุณสามารถสร้างกระบวนการ ETL ที่ซับซ้อนซึ่งแปลงข้อมูลเป็นภาพด้วยโฟลว์ข้อมูลหรือโดยการใช้บริการประมวลผล เช่น Azure HDInsight Hadoop, Azure Databricks และฐานข้อมูล Azure SQL
นอกจากนี้ คุณสามารถเผยแพร่ข้อมูลที่แปลงแล้วของคุณไปยังที่เก็บข้อมูล เช่น Azure Synapse Analytics สำหรับแอปพลิเคชันข่าวกรองธุรกิจ (BI) เพื่อใช้ ในท้ายที่สุด ผ่าน Azure Data Factory ข้อมูลดิบสามารถจัดเป็นที่เก็บข้อมูลที่มีความหมายและ Data Lake เพื่อการตัดสินใจทางธุรกิจที่ดีขึ้น
ตัวอย่างการสร้าง Data Warehouse
การทำเป็นขั้นตอนหนึ่งในการทำ DW ดังนั้นเป้าหมายของการทำคือ ทำให้ได้คือ การนำเข้าข้อมูลเข้าสู่ DW ดังนั้น ลองมาดูเรื่องการ Setup DW บน Azure กันครับว่ามีขั้นตอนยังไงบ้าง