How to clean missing data by AzureML

บทที่ 9-How to clean missing data by AzureML วิธีการ Clean Missing Data โดยใช้ AzureML เมื่อเราทำงานกับข้อมูลปัญหาที่เรามักพบบ่อย ๆ ในกระบวนการจัดการกับข้อมูลคือ มีข้อมูลบางส่วนขาดหายไปนั้นคือ missing data นั้นเอง แล้วเราจะมีวิธีจัดการกับปัญหานี้อย่างไร บทความนี้จะมาไขข้อสงสัยนี้ค่ะ การที่เราจะทำการ clean missing data นั้นเราต้องรู้ก่อนว่าข้อมูลอะไรที่หายไปบ้าง หายไปจำนวนเท่าไหร่ และชนิดของข้อมูลที่หายไปคือข้อมูลชนิดไหน สามารถทำได้ง่าย ๆ ดังนี้เลยค่ะ ลากข้อมูลที่เราต้องการ Clean หรือต้องการสร้างโมเดลมาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets จากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่น เช่น นำเข้าข้อมูลจากเว็บ เราก็เลือก module นั้นมาวางได้เลย จากนั้นเราจะดูรายละเอียดของจำนวน Missing และชนิดของแต่ละคอลัมน์โดยการคลิกขวาที่วงกลมเล็ก ๆ…

How to remove duplicate by AzureML

บทที่ 8-How to remove duplicate by AzureML วิธีการลบข้อมูลที่ซ้ำกันง่าย ๆ ด้วย AzureML กระบวนการเตรียมข้อมูลก่อนนำไปสร้างโมเดลนั้นเป็นกระบวนการที่ใช้เวลานานที่สุดเนื่องจากชุดข้อมูลที่เราได้มานั้นไม่ได้อยู่ในรูปแบบที่สมบูรณ์และหนึ่งในปัญหาของกระบวนการเตรียมข้อมูลคือ การที่มีข้อมูลซ้ำกันหรือที่เรียกว่า Duplication ซึ่งมีส่งผลกับกระบวนการผลของ Train ของโมเดล ทำให้เราต้องจัดการกับข้อมูลที่ซ้ำกันหล่านี้ก่อนการสร้างโมเดลนั้นเองค่ะ โดยมีตัวอย่างของข้อมูลที่ซ้ำกัน ดังรูป โดยเราสามารถจัดการกับข้อมูลที่ Duplication ได้ง่าย ๆ โดยใช้ AzureML  ดังนี้ ลากข้อมูลที่เราต้องการลบแถวที่ซ้ำกันหรือต้องการสร้างโมเดลมาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets หรือจากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่น เช่น นำเข้าข้อมูลจากเว็บ เราก็เลือก module นั้นมาวางได้เลย หา Module ที่ชื่อว่า Remove Duplicate row แล้วลากมาวางบน Workspace จากนั้นลากเส้นเชื่อม Module กับชุดข้อมูลของเรา กด…

How to change data type and change columns name

บทที่ 7-How to change data type and change columns name วิธีการเปลี่ยนชนิดของข้อมูลและชื่อคอลัมน์โดยใช้ AzureML ในกระบวนการเตรียมข้อมูล (Preprocess) นั้นปัญหาที่เรามักพบและต้องทำการแก้ไขในกระบวนการการเตรียมข้อมูลนี้คือชนิดของข้อมูลในแต่ละคอลัมน์ไม่ตรงกับที่เราต้องการเช่น เราต้องการข้อมูลแบบ category แต่ข้อมูลของเราดันเป็น numeric  หรือการที่เรานำเข้าข้อมูลมา หรือมีการเปลี่ยนแปลข้อมูลในกระบวนการก่อนหน้าทำให้เราต้องแก้ไขชื่อคอลัมน์เหล่านั้นซึ่งสิ่งเหล่านี้สามารถทำได้โดยใช้ module ที่ชื่อว่า Edit Metadata ซึ่งมีขั้นตอนใน AzureML ดังนี้ ลากข้อมูลที่เราต้องการเปลี่ยนชนิดของข้อมูลหรือเปลี่ยนชื่อคอลัมน์มาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets จากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace  และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่น เช่น นำเข้าข้อมูลจากเว็บ เราก็เลือก module นั้นมาวางได้เลย จากนั้นเราจะดูรายละเอียดของชนิดของข้อมูลโดยการคลิกขวาที่วงกลมเล็ก ๆ ใต้ชุดข้อมูลที่เรานำมาวาง แล้วเลือก Visualize เพื่อดูว่ามีคอลัมน์ไหนที่ชนิดของข้อมูลไม่ตรงหรือมีคอลัมน์ที่ต้องการเปลี่ยนชื่อหรือไม่ เช่นในตัวอย่างเราต้องการเปลี่ยนคอลัมน์ Income จาก string เป็น…

How to add rows and columns by AzureML

บทที่ 6 How to add rows and columns by AzureML วิธีการเพิ่มแถวและคอลัมน์แบบชิว ๆ ได้ด้วย AzureML เมื่อเราพูดถึงกระบวนการเตรียมข้อมูล (Preprocess) หนึ่งในกระบวนการเตรียมข้อมูลที่เราต้องพูดถึงคือกระบวนการเพิ่มแถวและคอลัมน์ ซึ่งกระบวนการเหล่านี้เกิดมาจากการที่เรามีแหล่งเก็บข้อมูลหลายที่หรือการเก็บหลายรอบทำให้มีไฟล์ข้อมูลแยกกันเราจึงต้องนำข้อมูลเหล่านี้มารวมกันก่อนจะนำข้อมูลไปสร้างโมเดลของเราที่เราต้องการซึ่งการเพิ่มแถวและคอลัมน์นี้ AzureM สามารถช่วยคุณได้ โดยมีวิธีการง่าย ๆ ดังนี้ ลากข้อมูลที่เราต้องการเพิ่มแถวหรือเพิ่มคอลัมน์หรือต้องการสร้างโมเดลมาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets จากนั้นลากชุดข้อมูลที่เราต้องการทั้งสองข้อมูลมาไว้บน Workspace และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่นเราก็เลือก module นั้นมาวางได้เลยค่ะ  โดยในตัวอย่างของเรา ไฟล์แรกมี 8 แถวและไฟล์ที่สองมี 17 แถว ดังรูป เมื่อเราต้องการจะเพิ่มแถวให้กับไฟล์แรกโดยนำแถวในไฟล์ที่สองมาต่อสามารถทำได้โดยการหา Module ที่ชื่อว่า Add Rows จากนั้นลากมาวางบน Workspace แล้วลากเส้นเชื่อมจากข้อมูลทั้งสองไฟล์มาเชื่อมกับ Module ที่เราลากมาไว้แล้ว ดังรูป กด…