บทที่ 11-How to join data
วิธีการ ง่าย ๆ ด้วย AzureML
เมื่อเราต้องการนำข้อมูลของเรามารวมกันทั้งรวมกัน 2 dataset หรือการรวมกันมากกว่านั้นเราคงหนีไม่พ้นที่จะต้องค้นหาวิธีการ join data หรือการเอาข้อมูลมารวมกันตามอินเทอร์เน็ตใช่ไหมล่ะคะ ในบทความนี้จึงมานำเสนอวิธีการ join data ที่สามารถทำได้ง่าย ๆ ผ่าน AzureML ค่ะ
ก่อนที่เราจะไปถึงวิธีการ เราต้องมาทำความเข้าใจในรูปแบบต่าง ๆ กันก่อนค่ะ Dataset ที่เราจะนำมาเชื่อมต่อกันได้นั้นต้องมีคอลัมน์ key ที่เกี่ยวข้องกัน เช่นมีเลข ID เดียวกันเป็นต้นค่ะ
โดยวิธีการ join ใน AzureML สามารถทำได้จะมีด้วยกัน 4 แบบ ดังนี้ค่ะ
- Inner Join : เป็นการ join เฉพาะตัวที่มี key เหมือนกัน
- Left Outer Join : เป็นการ join ที่ยึด key ของทางซ้ายเป็นหลัก
- Full Outer Join : เป็นการนำมารวมกันทั้งหมด
- Left Semi Join : เป็นการ join โดยมีแค่ข้อมูลของตัวซ้าย แต่จำนวนข้อข้อมูลจะมีเท่ากับจำนวน key ที่ dataset ทั้งสองมีเหมือนกัน
โดยมีวิธีการ join ทั้งสีวิธีที่สามารถทำได้ง่าย ๆ ดังนี้
ลาก dataset ทั้งสอง dataset หรือมากกว่านั้นมาวางไว้บน Workspace
ค้นหา module ที่ชื่อว่า Join Data แล้วลากมาวางไว้บน Workspace แล้วลาเส้นเชื่อมจาก dataset แรกมาเชื่อมกับวงกลมแรกและลากเส้นเชื่อมจาก dataset ชุดที่สองมาเชื่อมกับวงกลมวงที่สองโดยข้อมูลทั้งสองจะมีลักษณะดังนี้
เลือกคอลัมน์ของทั้งสอง dataset เป็น เป็นคอลัมน์ที่มี key ร่วมกัน ซึ่งในตัวอย่างคือคอลัมน์ที่ชื่อว่า EmpID
ตั้งค่า parameter ที่ชื่อว่า Join type โดยเราสามารถเลือกวิธีการ join ที่เราต้องการได้ และเมื่อเราต้องการให้ dataset ใหม่ของเรามี key แค่ชุดเดียวเราต้องนำเครื่องหมายถูกหน้าข้อความ Keep right key columns in joined table ออกซึ่งให้ผลลัพธ์ต่างกันดังนี้
มีเครื่องหมายถูก
ไม่มีเครื่องหมายถูก
แต่ละวิธีการ join ให้ผลลัพธ์ดังนี้
Link to Implement Azure , Implement Power BI
Reference : Microsoft how to join data