Outliers

บทที่ 12-Outliers วิธีการจัดการกับ Outliers ด้วย AzureML เมื่อเราต้องการวิเคราะห์หรือสร้างโมเดลเพื่อใช้ในการทำนายนั้น เรามักจะมีปัญหาที่พบบ่อย ๆ และต้องจัดการกับมัน คือ Outliers คือข้อมูลที่มีระยะห่างจากข้อมูลตัวอื่น ๆ มากและส่งผลต่อผลการทำนายของเรา ซึ่งทำให้ผลการทำนายของเรามีความคาดเคลื่อนมาก โดยวิธีการแก้ปัญหานี้ คือ การ visualize เพื่อดูข้อมูลจากกราฟ การกำหนดไม่ให้มีค่าเกิน Percentile ที่เราต้องการ ซึ่งวิธีการเหล่านี้สามารถทำได้โดยใช้ module ที่ชื่อว่า Clip Values โดยตัวอย่างที่เราจะแสดงให้เห็นการจัดการกับ outliers คือ Employee Dataset เมื่อเรา visualize ดู  ข้อมูลคอลัมน์ Years of Experience กับ Monthly Income เราจะได้กราฟดังนี้     จากกราฟข้างต้นเราจะพบว่ามี จำนวน 4 ข้อมูลในวงกลมสีแดง ซึ่งเป็นข้อมูลที่เราต้องการจะจัดการโดยในข้อมูลนี้วิธีการดังนี้   นำข้อมูล Employee…

How to join data

บทที่ 11-How to join data วิธีการ ง่าย ๆ ด้วย AzureML เมื่อเราต้องการนำข้อมูลของเรามารวมกันทั้งรวมกัน 2 dataset หรือการรวมกันมากกว่านั้นเราคงหนีไม่พ้นที่จะต้องค้นหาวิธีการ join data หรือการเอาข้อมูลมารวมกันตามอินเทอร์เน็ตใช่ไหมล่ะคะ ในบทความนี้จึงมานำเสนอวิธีการ join data ที่สามารถทำได้ง่าย ๆ ผ่าน AzureML ค่ะ ก่อนที่เราจะไปถึงวิธีการ เราต้องมาทำความเข้าใจในรูปแบบต่าง ๆ กันก่อนค่ะ Dataset ที่เราจะนำมาเชื่อมต่อกันได้นั้นต้องมีคอลัมน์ key ที่เกี่ยวข้องกัน เช่นมีเลข ID เดียวกันเป็นต้นค่ะ โดยวิธีการ join ใน AzureML สามารถทำได้จะมีด้วยกัน 4 แบบ ดังนี้ค่ะ Inner Join : เป็นการ join เฉพาะตัวที่มี key เหมือนกัน Left Outer Join…

How to clean missing data by AzureML

บทที่ 9-How to clean missing data by AzureML วิธีการ Clean Missing Data โดยใช้ AzureML เมื่อเราทำงานกับข้อมูลปัญหาที่เรามักพบบ่อย ๆ ในกระบวนการจัดการกับข้อมูลคือ มีข้อมูลบางส่วนขาดหายไปนั้นคือ missing data นั้นเอง แล้วเราจะมีวิธีจัดการกับปัญหานี้อย่างไร บทความนี้จะมาไขข้อสงสัยนี้ค่ะ การที่เราจะทำการ clean missing data นั้นเราต้องรู้ก่อนว่าข้อมูลอะไรที่หายไปบ้าง หายไปจำนวนเท่าไหร่ และชนิดของข้อมูลที่หายไปคือข้อมูลชนิดไหน สามารถทำได้ง่าย ๆ ดังนี้เลยค่ะ ลากข้อมูลที่เราต้องการ Clean หรือต้องการสร้างโมเดลมาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets จากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่น เช่น นำเข้าข้อมูลจากเว็บ เราก็เลือก module นั้นมาวางได้เลย   จากนั้นเราจะดูรายละเอียดของจำนวน Missing และชนิดของแต่ละคอลัมน์โดยการคลิกขวาที่วงกลมเล็ก…

How to remove duplicate by AzureML

บทที่ 8-How to remove duplicate employee by AzureML วิธีการลบข้อมูลที่ซ้ำกันง่าย ๆ ด้วย AzureML กระบวนการเตรียมข้อมูลก่อนนำไปสร้างโมเดลนั้นเป็นกระบวนการที่ใช้เวลานานที่สุดเนื่องจากชุดข้อมูลที่เราได้มานั้นไม่ได้อยู่ในรูปแบบที่สมบูรณ์และหนึ่งในปัญหาของกระบวนการเตรียมข้อมูลคือ การที่มีข้อมูลซ้ำกันหรือที่เรียกว่า Duplication ซึ่งมีส่งผลกับกระบวนการผลของ Train ของโมเดล ทำให้เราต้องจัดการกับข้อมูลที่ซ้ำกันหล่านี้ก่อนการสร้างโมเดลนั้นเองค่ะ โดยมีตัวอย่างของข้อมูลที่ซ้ำกัน ดังรูป   โดยเราสามารถจัดการกับข้อมูลที่ Duplication ได้ง่าย ๆ โดยใช้ AzureML  ดังนี้ ลากข้อมูลที่เราต้องการลบแถวที่ซ้ำกันหรือต้องการสร้างโมเดลมาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets หรือจากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่น เช่น นำเข้าข้อมูลจากเว็บ เราก็เลือก module นั้นมาวางได้เลย หา Module ที่ชื่อว่า Remove Duplicate row แล้วลากมาวางบน Workspace จากนั้นลากเส้นเชื่อม Module…

How to change data type and change columns name

บทที่ 7-How to change data type and change columns name วิธีการเปลี่ยนชนิดของข้อมูลและชื่อคอลัมน์โดยใช้ AzureML ในกระบวนการเตรียมข้อมูล (Preprocess) นั้นปัญหาที่เรามักพบและต้องทำการแก้ไขในกระบวนการการเตรียมข้อมูลนี้คือชนิดของข้อมูลในแต่ละคอลัมน์ไม่ตรงกับที่เราต้องการเช่น เราต้องการข้อมูลแบบ category แต่ข้อมูลของเราดันเป็น numeric  หรือการที่เรานำเข้าข้อมูลมา หรือมีการเปลี่ยนแปลข้อมูลในกระบวนการก่อนหน้าทำให้เราต้องแก้ไขชื่อคอลัมน์เหล่านั้นซึ่งสิ่งเหล่านี้สามารถทำได้โดยใช้ module ที่ชื่อว่า Edit Metadata ซึ่งมีขั้นตอนใน AzureML ดังนี้ ลากข้อมูลที่เราต้องการเปลี่ยนชนิดของข้อมูลหรือเปลี่ยนชื่อคอลัมน์มาไว้บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets จากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace  และหากเราต้องการนำเข้าข้อมูลในรูปแบบอื่น เช่น นำเข้าข้อมูลจากเว็บ เราก็เลือก module นั้นมาวางได้เลย   จากนั้นเราจะดูรายละเอียดของชนิดของข้อมูลโดยการคลิกขวาที่วงกลมเล็ก ๆ ใต้ชุดข้อมูลที่เรานำมาวาง แล้วเลือก Visualize เพื่อดูว่ามีคอลัมน์ไหนที่ชนิดของข้อมูลไม่ตรงหรือมีคอลัมน์ที่ต้องการเปลี่ยนชื่อหรือไม่ เช่นในตัวอย่างเราต้องการเปลี่ยนคอลัมน์ Income จาก string…

How to know details of dataset by AzureML

เราสามารถดูรายละเอียดของชุดข้อมูลของเรา โดย Azure ML ได้อย่างไร             เมื่อเราต้องการที่จะสร้างโมเดลของเราเองจากชุดข้อมูลที่เรามีอยู่นั้น ก่อนที่เราจะทำการสร้างโมเดลเราจะต้องรายละเอียดของข้อมูลเบื้องต้นก่อน เพื่อที่เราจะได้เลือกวิธีการจัดการกับข้อมูลให้เหมาะสมกับข้อมูลของเรา โดยมีวิธีการดังนี้   1. ลากข้อมูลที่เราต้องการสร้างโมเดลมาไว้ที่บน Workspace โดยนำข้อมูลที่เรานำเข้ามาจาก Saved Dataset เลือก My Datasets จากนั้นลากชุดข้อมูลที่เราต้องการมาไว้บน Workspace ได้เลย 2. จากนั้นเราจะดูรายละเอียดข้องข้อมูลข้อเราอย่างจำนวน Missing, Mean, Max, Min, SD, ชนิดของข้อมูล และกราฟของข้อมูลแต่ละคอลัมน์โดยการคลิกขวาที่วงกลมเล็ก ๆ ใต้ชุดข้อมูลที่เรานำมาวาง แล้วเลือก Visualize   เมื่อเรามาที่หน้า Visualize เราจะเห็นข้อมูลจำนวนแถว จำนวนคอลัมน์ของเรา   รวมถึงข้อมูลในแต่ละคอลัมน์ และเมื่อเรากดไปที่แต่ละคอลัมน์จะปรากฏข้อมูลเบื้องต้นในแต่ละคอลัมน์ที่เราต้องการ อีกทั้งยังสามารถเปรียบเทียบกราฟของข้อมูลแต่ละคอลัมน์ได้อีกด้วย ดังรูป     นอกจากนี้เรายงสามารถดูข้อมูลทางสถิติของชุดข้อมูลของเราได้มากกว่านี้ โดยการลาก Module ที่ชื่อว่า Summarize มาวางบน Workspace แล้วลากเส้นเชื่อมจากชุดข้อมูลของเราจากนั้นกด…

วิธีการนำข้อมูลเข้า Azure ML

วิธีการนำข้อมูลเข้า Azure ML บทที่ 5 ความนี้เราจะมาพูดถึงวิธีการ Get the data จากบทความที่แล้วในกระบวนการสร้าง Machine Learning ซึ่งกระบวนการ Get the data หรือกระบวนการนำข้อมูลเข้า Azure ML นี้มีหลักอยู่ด้วยกัน 3 รูปแบบคือ การนำเข้าจากข้อมูลที่เรามีอยู่ในเครื่อง การนำเข้าจากแหล่งข้อมูลต่าง ๆ เช่น อินเทอร์เน็ต การสร้างข้อมูลขนาดเล็กด้วยตนเอง การนำเข้าข้อมูลจากเครื่อง กด NEW บริเวณแถบด้านล่างของหน้าจอระบบ กดตรง DATASET กดตรง From local File เพื่อเลือกข้อมูลที่อยู่ในเครื่องของเราเข้ามา เลือกนามสกุลไฟล์ และเลือกว่าไฟล์ที่เรานำเข้ามาต้องการให้มี header หรือชื่อคอลัมน์ไหมตามที่เราต้องการ และกดตรงเครื่องหมายถูก การนำเข้าจากแหล่งข้อมูลต่าง ๆ เช่น อินเทอร์เน็ต การนำเข้าข้อมูลจากแหล่งข้อมูลต่าง ๆ เราทำได้โดยการลาก module ที่มีชื่อว่า Import data จาก…

ขั้นตอนสร้าง Machine Learning ด้วย AzureML

บทที่ 3 เป็นขั้นตอนการสร้างแล้วครับ ตอนนี้เรามาดูหัวข้อหลักของการสร้างให้เห็นภาพรวมกันก่อนที่จะลงในรายละเอียด ขั้นตอนสร้าง Machine Learning  ด้วย AzureML Get the data คือการนำข้อมูลเราเรามาเข้าหน้า Experiments ทั้งชุดข้อมูลจากเครื่องของเราเอง ชุดข้อมูลจากแหล่งข้อมูลต่าง ๆ หรือแม้กระทั้งชุดข้อมูลเล็กที่เราสามารถสร้างเองได้จาก Module ที่มี Prepare the data คือการเตรียมข้อมูลให้อยู่ในรูปที่พร้อมจะนำไปวิเคราะห์ต่อได้ ทั้งการจัดการกับ Missing data การจัดการกับคอลัมน์ แถว การจัดการกับชนิดของข้อมูล แยกข้อมูลเพื่อเรียนรู้และทดสอบ เป็นต้น Built-in ML Algorithms คือกระบวนการที่เราสามารถเลือกโมเดลที่เราต้องการหรือโมเดลที่เหมาะสมกับชุดข้อมูลของเราเพื่อนำชุดข้อมูลของเรามา Train โดยโมเดลที่เราเลือก Train and Evaluate the model คือกระบวนการที่เรานำชุดข้อมูลของเรามา Train โดยโมเดลที่เราเลือกจากนั้นเราจะนำโมเดลที่เราได้มาทดสอบประสิทธิภาพของโมเดลของเรา โดยการสร้างโมเดลของเราในหน้า Experiments จะมีหน้าตาดังนี้ Fusion ให้บริการวิเคราห์และออกแบบระบบ Machine Learning ด้วยเครื่องมือ ของMicrosoft…

Resource group Microsoft azure

สร้าง Resource group บน Microsoft Azure

Resource group คือ กลุ่มของ Resource ต่างๆ วัตถุประสงค์ของ Resource group คือเพื่อทำการจัดการ Resource ต่างๆ ให้อยู่ในกลุ่มเดียวกัน เพื่อจะได้บริหารจัดการได้ง่ายขึ้น ซึ่งลักษณะของ Resource group จะคล้ายกันกับ Folder ที่เอาไว้ใส่ Files เพื่อจะได้จัดการได้ง่ายขึ้น เช่น ถ้าลบ Folder ไฟล์ที่อยู่ใน Folder ก็จะถูกลบไปด้วย เช่นเดียวกัน ถ้าลบ Resource group, Resource ที่อยู่ใน Resource group ก็จะถูกลบไปด้วย สร้าง Resource Group บน Microsoft Azure ล็อกอินที่ Azure portal. 2. ไปที่  Resource groups 3. เลือก Add. (ตามรูปด้านบน) 4. ใส่ข้อมูลข้างล่างนี้ : Subscription: ทำการเลือก Azure subscription. Resource group: ใส่ชื่อ resource group ที่ต้องการ Region: เลือก Region ตามต้องการ 5. เลือก Review + Create 6. เลือก Create. แล้วรอสักครู่…

Power BI on Azure

Power BI on Azure Power BI on Azure เป็นการรวมกันของ สุดยอด Solution ด้วย Data เอาไว้ แถมยังเป็น Solution ที่ทำราคาที่จับต้องได้ง่ายกว่าการทำ Data Warehouse เองด้วยในแง่ของ Budget แล้วถือว่า มีจุดเด่นมาก และ ยังได้ Solution ที่เก่งกว่า แถมยังมีความเสถียนกว่าการทำ Server เองอีก   Budget ประมาณการเบื้องต้น   License Power BI Pro ราคาต่อ License ประมาณ 4,000 บาท License Azure Data Warehouse License ( SaaS ) ประมาณ เดือนละ 20,000 บาท…