how to reduce dimension with PCA

บทที่ 10-how to reduce dimension with PCA การลด Dimension ของข้อมูลด้วยการทำ PCA ใน AzureML ในการจัดการกับข้อมูลขนาดใหญ่มาก ๆ นั้นสิ่งที่เกิดขึ้นเป็นประจำคือข้อมูลเหล่านั้นมีจำนวน Feature หรือจำนวน dimension เป็นจำนวนมากอาจจะมีจำนวนเป็นหลักร้อยหรือหลักพัน ซึ่งหากเรานำข้อมูลที่มีจำนวน dimension มาวิเคราะห์อาจทำให้ผลลัพธ์ที่ได้มีความแม่นยำน้อยลง ใช้เวลาในการ RUN ข้อมูลที่นานและอาจทำให้เกิดการ Overfitting ได้ ดังนั้นเราจึงต้องทำการลด dimension ของข้อมูลก่อนที่จะนำข้อมูลของเราไปวิเคราะห์หรือสร้างโมเดลโดยการใช้วิธีที่ชื่อว่า Principal Component Analysis (PCA) สร้าง coordinates สำหรับข้อมูลใหม่ แสดงโครงสร้างภายในของข้อมูลที่อธิบาย variance ของข้อมูลได้ดีที่สุด ลดจำนวน dimension ของข้อมูล ซึ่งการทำ PCA ใน AzureML เราจะใช้ module ที่ชื่อว่า Principal Component Analysis ซึ่งมาวิธีการดังนี้…