Review ETL Process

Review ETL Process ขั้นตอนยากที่สุดในการทำ Project เกี่ยวกับ Data ทุกคนบอกเป็นเสียงเดียวกันว่า ETL ยากสุด วันนี้เราจะมาทำความรู้จักเกี่ยวกับ ETL กันครับ ETL คืออะไร  (Extract-Transform-Load) คือ กระบวนการหนึ่งในระบบ Data Warehouse โดยระบบที่ออกแบบเอาไว้จะดึงข้อมูลออกมาจากหลายๆ ที่, นำกระบวนการตรวจสอบคุณภาพของข้อมูลมาประยุกต์ใช้, มีการเชื่อมโยงและปรับข้อมูลให้เป็นไปในรูปแบบเดียวกันเพื่อให้ ข้อมูลจากหลายๆ แหล่งสามารถใช้งานร่วมกันได้ และท้ายที่สุดทำการส่งมอบ (Delivery) Extract – กระบวน การดึงข้อมูลจากแหล่งของข้อมูลภายนอก Transforming – แปลง ข้อมูลเพื่อให้ได้ตรงตามกับความต้องการ ซึ่งเป็นกระบวนการที่ต้องใช้วิธีการเชิงคุณภาพ Loading – นำ ข้อมูลเข้าสู่ระบบปลายทางที่ต้องการ ซึ่งโดยทั่วไปจะหมายถึงระบบ Data Warehouse หรือ ฐานข้อมูลอื่นใด Extract (กระบวนการดึงข้อมูล) เป็นกระบวนการเริ่มต้นของระบบดึงข้อมูลจาก แหล่งของข้อมูล โดยทั่วไปแล้วระบบ Data warehouse จะประกอบด้วย ข้อมูลจากหลายๆ ที่ ข้อมูลที่อยู่ต่างที่กันนั้นอาจจะอยู่ในรูปแบบที่แตกต่างกันด้วยยกตัวอย่างเช่น อาจจะอยู่ในรูปแบบของฐานข้อมูลคนละชนิด หรือ ไม่ใช่ฐานข้อมูลแท้จริงซึ่งอาจจะเป็นระบบไฟล์ข้อมูลธรรมดา (Flat Files) หรือ ในอีกกรณีคือเป็นข้อมูลในฐานข้อมูลที่ไม่ใช่ระบบ RDBMS (Relational Database System) เช่นข้อมูลในรูปแบบของInformation Management…