Big Data คือ
ความหมายตรง ๆ คือพื้นที่เก็บข้อมูลทุกอย่างที่เรามีอยู่ในบริษัททั้งข้อมูลที่มีแหล่งที่มาจากภายในบริษัทเองและข้อมูลที่มาจากแหล่งที่มาภายนอกอย่าง Social medias ซึ่งทั้งหมดเป็นข้อมูลที่สามารถนำมาวิเคราะห์ได้ทั้งนี้ข้อมูลเหล่านี้สามารถนำมาวิเคราะห์ได้ด้วยวิธีการหลากหลายวิธีการ ขึ้นอยู่กับว่าคุณต้องการนำข้อมูลเหล่านั้นไปใช้งานด้านไหน ในปัจจุบันนิยมทำ Analysis เพื่อใช้ในการสำหรับการคาดการณ์เหตุการณ์ในอนาคต หรือ ก็คือ เพื่อใช้ดูแนวโน้มสิ่งที่จะเกิดขึ้นนั้นเอง
บริการสร้างเครื่องมือ Azure Cloud Synapse ที่มีความยืดหยุ่นสามารถรองรับข้อมูลที่เป็น Structure หรือ non Structure ได้เหมาะสำหรับความต้องการรวบรวมข้อมูลที่มีความหลากหลาย และ ที่สำคัญคือ Budget ที่ประหยัดกว่าการสร้าง โดยใช้ Hadoop เองหลายเท่าด้วย
Service by Fusion Solution
- ที่ปรึกษาออกแบบระบบ On Azure
- Develop App สำหรับเชื่อมโยงข้อมูลภายนอกหน่วยงาน เช่น You tube
- ออกแบบ Design SQL Cube
- ออกแบบ Warehouse
- ออกแบบ ETL Process
- Fusion Master Management ( Application สำเร็จรูป ช่วยในการบริหาร และ จัดเตรียมข้อมูลก่อนทำ ETL )
- Performance Monitor on Azure Center
- Outsource Team สำหรับดูแลระบบ โดยเฉพาะ
BD เป็น Solution สำหรับการรวบรวมข้อมูลที่มีความหลากหลาย ทั้งข้อมูลที่เป็น Structure และ ไม่เป็น Structure เป็นข้อมูลที่อาจจะมีจำนวนมาก ๆ และเกิดขึ้นอย่างรวดเร็ว ซึ่งโครงสร้างของ Data Warehouse แบบเดิมๆ ที่เป็น Data Structure ไม่สามารถรองรับได้ ไม่ใช่ตอนจบของความต้องการใน Business แต่เป็นแค่จุดเริ่มต้นของการทำ Data Analytic เท่านั้น
ตัวอย่างประโยชน์ของ Big Data
หลังจากที่เราทำการรวบรวมข้อมูลมาได้แล้ว ก็สามารถส่งข้อมูลเข้าไปวิเคราะห์ต่อด้วย Machine Learning ได้ทันที โดยตัวอย่างที่นำเสนอเป็นการวิเคราะห์ข้อมูล เพื่อการแนะนำสินค้าให้ลูกค้า
ใหญ่แค่ไหนถึงเรียกว่า Big Data
- เราต้องมีข้อมูลมากแค่ไหน ถึง เรียกว่าเรามี BD ผมอ่านมาหลาย Web แล้วก็ยังไม่มีนิยามคำนี้ที่ชัดเจน ครับ เราคงต้องรออีกซักพักถึงจะหาขอบเขตที่ชัดเจนสำหรับคำนี้ได้
- ขนาดของข้อมูล จะไม่เกี่ยวข้องกันนิยาม นักเนื่องจากความหมายจริง ๆ นั้น จะหมายถึง ข้อมูลที่มีความหลากหลายซะมากกว่า
- สรุปง่ายๆ ว่าเป็นระบบฐานข้อมูลที่รวมข้อมูลที่มี Structure and no Structure เข้าไว้ด้วยกัน
- ข้อมูลส่วนที่เป็น no structure ส่วนมากจะที่นำมารวมไว้ เช่น log การเข้าถึง web ขายของ online แบบนี้ครับ
- ถ้าในความรู้สึกของผมนะครับ จะต้องมี Data ตั้งแต่หลัก TB ขึ้นไป
Concept Design
- ต้องประกอบไปด้วยอะไรบ้างเราถึงเรียกว่า Big Data
- การแสดงข้อมูล (Visualization)
- ความน่าเชื่อถือ Veracity (Reliability)
- การผันแปร (Variability)
- คุณค่า (Value)
- ความหลายหลายของแหล่งข้อมูล
- BD ไม่ได้ให้คำนิยามเรื่องเกี่ยวกับ Data Analytic ไว้แต่ส่วนมากคนจะตีความหมายของ ว่ารวม Data Analytic ไว้ด้วย
Big Data & Data Lake
ลองเอามาเทียบกันดูว่า 2 คำนี้ ให้ความหมายต่างกันตรงไหนลองมาดูกันนะครับ
- ใครใหญ่กว่า : BD ใหญ่กว่าครับโดยจากนิยามแล้วครอบคลุมเนื้อหาของระบบ มากกว่า ทั้งขบวนการนำเข้า จัดเก็บ วิเคราะห์ แต่ถ้าเป็น Lake ว่าด้วยเรื่องการจัดเก็บ
- ใครทำยากกว่า : BD อีกนั้นแหละ จะว่าไป Data Lake น่าจะเป็นแค่ส่วนหนึ่งด้วยซ้ำ
- จุดเด่นของ Lake คือ ความสามารถในการจัดเก็บข้อมูลที่ง่ายในการนำเข้าและการนำออกไปใช้งาน
- จากในรูป จะเห็นส่วนของ Lake ด้วย เป็นแค่ กล่องๆเดียวในโครงสร้างทั้งหมด
Analytics
- เครื่องมือในการทำการวิเคราะห์ ในตลาด เช่น Power BI Hadoop YARN MapReduce Hive หรือ NoSQL
- กระบวนการวิเคราะห์เซ็ตข้อมูลขนาดใหญ่เพื่อค้นหารูปแบบความสัมพันธ์ของข้อมูลเหล่านั้นที่ซ่อนอยู่ข้างใน หาสิ่งเชื่อมโยงที่เชื่อมข้อมูลเหล่านั้นเข้าไว้ด้วยกัน หาเทรนด์ทางการตลาด หาความต้องการของลูกค้า และข้อมูลอื่นๆที่เป็นประโยชน์ต่อธุรกิจ ผลการวิเคราะห์ข้อมูลนี้สามารถนำไปสู่การทำแผนการตลาดที่มีประสิทธิภาพ โอกาสในการสร้างผลกำไร การให้บริการที่ดีมากขึ้นแก่ลูกค้า การปรับปรุงการทำงานให้เกิดประสิทธิภาพ ความได้เปรียบเหนือคู่แข่งในการแข่งขันทางการตลาด และผลประโยชน์ทางธุรกิจด้านอื่นๆ
ตัวอย่าง สำหรับ Retail Business
กรณีศึกษา สำหรับ Retail
สำหรับธุรกิจ ที่ไปใช้มากที่สุดน่าจะไม่มีใครเกิน Retail ไปได้ เพราะระบบของ Retail มีการเก็บข้อมูลที่เป็นระเบียบ มีข้อมูลจำนวนมาก สามารถหาข้อมูลได้ง่าย และ ผลจากการวิเคราะห์ก็สามารถปรับปรุงประสิทธิภาพได้อย่างชัดเจน ซึ่งประเด็นสำหรับการทำ ก็เช่น
- การจัดร้าน : Cluster Model ในการจัดกลุ่มร้าน ออกมาตามพฤติกรรมของลูกค้า เช่น ร้านค้าที่ขายดีช่วงเช้า ร้านค้าที่มี Profile เรื่องสถานที่ใกล้เคียงกัน ซึ่งผลจากการจัดกลุ่ม ทำให้สามารถ ศึกษาในเชิงลึกของ ร้านค้าแต่ละประเภทได้ง่ายยิ่งขึ้น เช่น สามารถศึกษาต่อ ถึงสาเหตุของร้านที่ขายดี กับขายไม่ดี ได้ชัดเจน
- การสั่งซื้อสินค้า : การให้ระบบเตรียม Order ที่จะส่งให้ร้านค้าสาขา
- พฤติกรรมลูกค้า : Cluster Model สามารถนำมาศึกษา พฤติกรรมลูกค้า ได้เช่นกัน โดยเราสามารถให้ระบบทำการจัดกลุ่ม ตามมูลค่าเฉลี่ยที่ซื้อสินค้า หรือ เป็นการจัดกลุ่มตามตัวแปลมากกว่า 1 เช่น ช่วงอายุ + มูลค่า + พื้นที่ แบบนี้ทำให้เราสามารถมองเห็นความสัมพันธ์ของข้อมูล และ ได้ข้อสรุปในการนำไป Action ต่อได้ง่าย
กรณีศึกษา สำหรับ E-Commerce
การค้าขายปัจจุบันคงไม่มีอะไรยิ่งใหญ่กว่า E-Commerce เห็นจากธุรกิจในบ้านเรา ที่มีผล กระทบกับรูปแบบเดิม ๆ ชนิดแทบทำให้ธุรกิจเดิมๆ ไปต่อไม่ได้เลยทีเดียว เราลองมาดูกันว่า ทำไม E-Commerce ถึงสามารถทำในสิ่งที่ไม่น่าเชื่อได้ขนาด เบื้องหลังของ E-Commerce ที่ใช้ ระบบ มาช่วย เค้าเอามาทำอะไรกัน
- การแนะนำสินค้า : การแนะนำสินค้า ให้กับระดับแต่ละบุคคล สามารถทำได้ง่ายถ้าเป็น E-Commerce และมีประสิทธิภาพสูงสุดด้วย เช่น ถ้าเรา สามารถนำเสนอ สินค้าได้ตรงกับความต้องการและในช่วงเวลาที่ถูกต้อง โดยสิ่งที่นำเสนอไปแล้ว ยังนำข้อมูลกลับมา update logic ในการนำเสนอได้อีกด้วย เพื่อให้มีความแม่นยำเพิ่มขึ้นในอนาคต
- การสร้าง Promotion : ระบบสามารถนำเสนอ Promotion หรือ แรงจูงใจให้กับลูกค้าแต่ละรายได้อย่างอัตโนมัติ ซึ่งจากหัวข้อแรกที่ระบบจะรู้ใจของลูกค้าเรื่องสินค้าที่อยากได้แล้ว เรื่องการสร้างแรงจูงใจ ที่ตรงกับลักษณะลูกค้า ก็สำคัญมาก
- Dashboard Digital Marketing : ระบบที่จะดึงข้อมูลจากแต่ละช่องทางของการขายให้อยู่ในรูปแบบของ Dashboard ทำให้การบริหารทำได้ง่ายขึ้นลดความซับซ้อน
กรณีศึกษา สำหรับ Logistics
ต้นทุนสำคัญของธุรกิจที่เป็นสัดส่วนสำคัญหนีไม่พ้น Logistics และที่สำคัญยิ่งขึ้นไปอีก คือ เราคิดว่ามันเป็นส่วนที่สามารถจะจัดการได้ดีขึ้นกว่าปัจจุบัน ทั้งค่าแรง ค่าน้ำมัน ค่าอุปกรณ์ในการขนส่ง (รถ) เวลา แต่การจะลดต้นทุนในส่วนนี้ก็ทำได้ไม่ง่าย เพราะปัจจัยที่ควบคุมไม่ได้หลายอย่าง แต่ในแง่ของระบบที่ทำเรื่องนี้มีอะไรกันบ้าง
- การวิเคราะห์ต้นทุน : เรื่องนี้จะดูง่ายก็ได้ หรือ จะว่ายากก็ได้ ขึ้นอยู่กับความละเอียดของการวิเคราะห์ เช่น ถ้าอยากรู้ต้นทุนรวม ก็ใช้แค่บวกเลข ค่าใช้จ่ายตลอดทั้งเดือน แต่ถ้าอยากรู้ต้นทุนเฉลี่ยของแต่ละ job ก็เอาจำนวน job มาหาร ต้นทุนรวม แต่ถ้าอยากรู้ให้ละเอียดไปอีก ก็ สามารถทำเป็น job type เช่น น้อย กลาง มาก แล้วก็ประเมินออกมาเป็น 3 ชุด แต่ ถ้าอยากรู้ต้นทุนแต่ละ job นี้ ก็ต้องใช้ เครื่องมือในการวิเคราะห์ เช่น Regression model
- การวิเคราะห์เส้นทาง : การหาเส้นทางที่ประหยัด และ เหมาะสมที่สุด ณ. ที่นี่สำหรับการใช้งานโดยไม่ได้อิงกับ Google ข้อมูลที่นำมาวิเคราะห์จะไม่มี สถานะของรถติดเข้ามาเกี่ยวข้องด้วยนะครับ
- การหาตำแหน่งกระจายสินค้า : การหาตำแหน่งที่เหมาะสม เราสามารถใช้ Model ในการวิเคราะห์เรื่องพื้นที่ ที่จะทำการจัดเก็บและกระจ่ายสินค้าที่ดีที่สุดได้
กรณีศึกษาสำหรับ การบริการ
ธุรกิจให้บริการมีจำนวนมากในบ้านเรา ส่งบริการส่งของ การซ่อมบำรุง เป็นงานที่ต้องใช้คนจำนวนมาก ดังนั้นจึงมีจุดที่รั่วไหล จำนวนมาก เช่นกัน ซึ่งจะใกล้เคียงกับ ธุรกิจขนส่ง สำหรับรูปแบบที่จะนำมาใช้
- วิเคราะห์ความหนาแน่นของการให้บริการ : ในการวิเคราะห์พื้นที่ที่ให้บริการ และ ทำการสร้างกลุ่ม ขึ้นมา โดยระบบจะวิเคราะห์หา จำนวนของกลุ่ม และ ขนาดที่เหมาะสมเอง จากข้อมูลที่มีอยู่ในระบบ
- การมอบหมายงานที่เหมาะสม : กรณีการส่งงานให้ทีมงาน มีหลายปัจจัยในการพิจารณา เช่น พื้นที่ ความเชี่ยวชาญ ปริมาณงาน ระบบสามารถปัจจุบันที่หลากหลายมาพิจารณาหา บุคคลที่เหมาะสมที่สุดในการทำงาน ได้
กรณีศึกษาสำหรับ Finance และ Bank
คงจะหาใครที่มีข้อมูลมากกว่า กลุ่ม Finance และ Bank ได้ยาก ณ. ขณะนี้ จากลูกค้านับล้านราย Transaction อีกมหาศาล การให้บริการที่หลากหลาย และ ช่องโหว่ใน ธุรกิจที่มีมากมาย ที่ทำให้เกิด lost ดังนั้น มาทำการวิเคราะห์ข้อมูล เพื่อนำไปปฏิบัติงาน จึงน่าสนใจมาก มาดูกันว่า เอาไปทำอะไร
- บริหารเงินสด
- วิเคราะห์กลุ่มลูกค้า : การจัดกลุ่มลูกค้าเป็นเรื่องปกติที่เราทำกันอยู่แล้ว เช่น ลูกค้าชั้นดี กลาง ไม่ดี ปัจจัยของการจัดกลุ่ม ก็เป็นยอดขาย เป็นหลัก แต่ถ้ามองให้ลึกลงไปแล้ว ให้มีตัวแปร มากกว่ายอดขายละ การจัดกลุ่มจะยากเข้าไปอีก ในจุดนี้แหละที่ต้องเริ่มเอาระบบเข้ามาช่วย
- วิเคราะห์สินเชื่อ มีบทบาทมากในการวิเคราะห์การให้สินเชื่อส่วนบุคคล เพราะสามารถให้คำตอบได้อย่างรวดเร็วแนะมีความแม่นยำสูง
- วิเคราะห์โกง : โดยอาศัยการจับกลุ่มของข้อมูลที่มีพฤติกรรมใกล้เคียงกัน จะทำให้มองเห็นพฤติกรรมที่ดูแล้วพบความผิดปกติได้ง่าย โดยไม่ต้องอาศัย สมมุติฐานในรูปแบบเดิมๆ ซึ่งจะมีประสิทธิภาพมากกว่าอย่างเห็นได้ชัดเจน
- โอกาสการเกิดหนี้เสีย : ระบบสามารถติดตามรูปแบบการชำระเงินและให้ % โอกาสการที่อาจจะเกิดหนี้เสีย จากพฤติกรรมของลูกค้าแต่ละราย
ระดับขั้นตอนพัฒนา
เราสามารถแบ่งการพัฒนาโครงการออกมาเป็นส่วน ๆ หรือ ขนาดของโครงการได้ เช่น S M L เราไม่จำเป็นต้องมีงบประมาณ เป็นหลัก 10 ล้าน เพื่อพัฒนาระบบดังนั้นมาลองดูกันว่า ถ้าเราจะแบ่งส่วนการพัฒนาจะมีได้กี่ส่วน
- ส่วนของ Infra เช่น Server , Database , Tool ที่ต้องการใช้
- ส่วนของการทำ ETL
- ส่วนของ Report Operation
- ส่วนของ Dash Board
- ส่วนของ Data Analytics
ทั้งหมดที่พูดถึงเริ่มจากขบวนการ ETL หรือขั้นตอนการนำข้อมูลเข้าระบบก่อนสำหรับส่วนของ Infra ก็เลือกใช้ Cloud แบบย่อมๆ ไปแบบนี้จะง่ายและสามารถประเมินผลได้รวดเร็ว
แต่ในอีกมุมนึงคือ มองเรื่องขนาดของระบบลองมาแบ่งเป็น S M L ดูแล้วให้นิยามเราจะสามารถนิยามได้ยังไง
- S : ขนาด Source เป็นระบบภายใน และ ข้อมูลที่พร้อมนำเข้าจากภายนอก โดยมีเงื่อนไข คือ มีโครงสร้างที่ดีอยู่แล้ว
- M : ขนาด Source แบบของ S และเพิ่มด้าน Data Analytics
- L : ขนาด จากหลายแหล่ง มี Data Analytics และ มีเป้าหมาย ที่จะหาความได้เปรียบในเชิงธุรกิจ
ก็ไม่ได้หมายความว่าที่ผมเขียนจะถูกต้อง ทุกคนสามารถตั้งนิยาม เองได้ซึ่งจะช่วยให้การทำงานมีเป้าหมายที่่ชัดเจนยิ่งขึ้น
ความเข้าใจผิด
ประเทศไทยผ่านยุคช่วงการโปรโมดตามกระแสจากรัฐบาลแล้วนะครับ ตอนนี้กำลังอยู่ในช่วงวางแผนเพื่อนำไปใช้ หลาย ๆ โครงการใช้คำว่า BD กันเพื่อพัฒนาระบบอะไรซักอย่าง ซึ่งอาจจะไม่ใช่เรื่องที่เกี่ยวข้อง ก็ได้ ที่นี่ช่วงของการทำงานก็มีหลาย ๆ อย่างที่เป็นเรื่องเข้าใจผิด ลองมาดูกันนะว่ามีอะไร
- อยากได้ เพราะทำให้ได้ข้อมูลที่หลายหลากมาวิเคราะห์
- ไม่ได้ช่วยครับ เพราะเป็นเรื่องขั้นตอนการนำเข้า
- อยากทำ เพราะช่วยใน Report เปิดได้เร็วขึ้น
- อันนี้ก็ไม่เกี่ยวครับ เพราะตัว Tool Report ต้องเชื่อมต่อกับ Cube โดยตรงดังนั้น มันไม่ช่วยเลยนะครับ
- สร้างได้ยาก
- ตอนสร้างไม่ยาก แต่ความยากคือ ข้อมูลที่เราต้องการครับ
- ถ้าให้เรียงลำดับขั้นตอนการสร้างเราต้องเริ่มจากความต้องการ แล้ว มองไปที่ชุดข้อมูล ที่เกี่ยวข้อง ว่าจะหามาได้จากที่ไหน ถ้าเรามีคำตอบที่ชัดเจน การสร้างก็ไม่ยาก
- ยากกว่าการสร้างคือ ต้องมีนักวิเคราะห์ ที่สามารถนำเสนอมุมมองที่ง่ายในการนำไปใช้ครับ และ ตำแหน่งนี้เป็นที่ต้องการมาก และ หายาก เนื่องจากต้องมีประสบการณ์สูง
- ส่งงานยาก เพราะประเด็นเรื่องตัวเลขที่นำเสนอ ผู้ใช้งานไม่สามารถอธิบายความต้องการทั้งหมดได้ ทำให้ต้องแก้ไขหลายรอบ
คำถามเกี่ยวกับ Big Data
- ถ้าเป็น On Cloud ใช้งบสำหรับค่าเช่าประมาณเท่าไหร่
- ขอใช้ Azure เป็น Reference นะครับ ถ้าเราเลือก BD Modern Database งบประมาณค่าเช่า แบบ กด Next ๆ จะอยู่ที่ ประมาณ 5,000 – 6,000 $
- ปกติ Solution มีระบบวิเคราะห์ข้อมูลมาด้วยหรือไม่
- ไม่มีครับ เราสามารถเลือก เครื่องมือในการวิเคราะห์ โดยไม่จำเป็นต้องเป็นยี่ห้อเดียวกันกับ
- เครื่องมือในนำข้อมูลจาก BD ไปวิเคราะห์มีอะไรบ้าง
- Power BI
- Tableau
- อื่นๆ
- ระบบทำให้สามารถเปิด Report ได้เร็วขึ้นหรือไม่
- ไม่ครับ ระบบจะเน้นเรื่องการจัดเก็บข้อมูลที่หลากหลาย เป็นหลัก
- ระบบจำเป็นสำหรับ Data ที่เป็น Structure หรือไม่
- ไม่จำเป็นครับ สำหรับข้อมูลที่เป็น Structure อยู่แล้ว สามารถใช้ Warehouse ก็พอ
- เอาไปช่วยธุรกิจร้านอาหารได้ยังไง
- สามารถนำไปคาดการณ์ยอดขายและทำแผนการสั่งวัตถุดิบได้ใกล้เคียงความจริงแทนการคาดเดา
- นำข้อมูลไปวิเคราะห์และจัดกลุ่มลูกค้า เพื่อที่จะส่งข่าวสารให้ตรงกับความต้องการมากยิ่งขึ้น
- Storage สำหรับระบบงาน
- แนะนำให้เป็นแบบ Flash Storage เหมาะสมที่สุดเพราะสามารถให้การทำงานที่รวดเร็ว ที่จำเป็นมากกับงาน Database
เนื้อหาที่เกี่ยวข้อง