Data Lake คือ
อะไร น่าจะเป็นคำที่ไม่คุ้นหู คน IT ซักเท่าไหร่ เพราะต้องเป็นหน่วยงานที่ มีการเก็บข้อมูลจำนวนมหาศาล เท่านั้นแหละถึงจะได้สัมผัส คนที่ต้องทำหน้าที่เก็บกับข้อมูลนั้นแหละถึงจะเจอกับคำๆ นี้ ซึ่งหลายหน่วยงานก็ ไม่มีความจำเป็นต้องรู้จักตอนนี้ก็ได้ เพราะถ้าวันนี้ เรายังไม่เคยมี สิ่งที่เรียกว่าข้อมูล ดังนั้นเราก็ยังอีกไกลกว่าที่เราจะก้าวไปถึงเลยครับ
แต่ว่า เรามาทำความรู้จักเกี่ยวกับ Data Lake ไว้ก่อนก็ไม่เสียหายครับ เอาไว้โม้ ให้เพื่อน ๆ ฟังก่อนได้ว่าเฮ้ยยยย รู้จักนะ เว้ยย เริ่มเรามาทำความเข้าใจ Data warehouse กันก่อน data warehouse เราแบบบ้าน ๆ ก็คือที่เก็บข้อมูล ส่วนกลางจากหลาย ๆ ระบบ ให้มาเก็บที่เดียวกัน โดย data ที่เราเก็บมาจากหลาย ๆ ระบบต้องมีโครงสร้าง ชัดเจน แล้วเราก็มาสร้างความสัมพันธ์ของแต่ละระบบ เพื่อที่บริษัทจะได้ นำข้อมูลมาสรุป รวบยอด ให้ข้อมูลของบริษัท มีชุดเดียว เสร็จแล้วเราก็ทำ Cube ขึ้นมาจาก Data warehouse นี่แหละ เพื่อที่จะนำไปใช้ประโยชน์อีกต่อหนึ่ง ที่นี่ทุกทีก็อยากทำ Data warehouse นี่แหละ เพราะจะได้ทำ report ต่าง ๆ ได้ง่าย ข้อมูลไม่สับสน ไม่ใช่ว่า คนนึงใช้ข้อมูล ชุดนึง อีกคน ก็ใช้ข้อมูลอีกชุดนึง ต่างคนต่างไป ไปกันคนละทางตัวเลขคนละตัว แบบนี้
บริการรับติดตั้ง Data Lake ให้กับธุรกิจที่ต้องการสร้างและออกแบบ Data Lake ตามมาตราฐาน Microsoft Gold Partner และ CMMi 3 สำหรับการสร้างระบบจัดเก็บข้อมูลที่มีโครงสร้าง และ ไม่มีโครงสร้าง
Service by Fusion Solution
- ติดตั้งและ Config Power BI Reporting Server
- ออกแบบ Design Power BI Dash Board
- ออกแบบ Design SQL Cube
- ออกแบบ Data Warehouse
- ออกแบบ
- Training Power BI
- ออกแบบ ETL Process
- Fusion Master Data Management (Application สำเร็จรูป ช่วยในการบริหาร และ จัดเตรียมข้อมูลก่อนทำ ETL)
Architecture
เป็นไรครับ เข้าใจได้ง่ายมากจากรูป ตัว DataLake เป็นตัวที่อยู่แยกออกมาจาก ข้อมูล ดังนั้น ใครที่เข้าใจว่าสร้าง DataLake มาแล้ว ไม่ต้องมี Data Source นี้เข้าใจผิดนะครับ ยังไงเราก็ต้องมีข้อมูล ให้กับแต่ละ App อยู่ดี
จาก ข้อมูล ก็ต่อเข้า ระบบเลย ไม่ต้องมีตัวแปลอะไรอีกแล้วนี่แหละคือ ความสามารถของ DataLake ครับ คือพร้อมที่จะเก็บข้อมูลที่ถูกส่งมาโดยง่าย
หลังจากเก็บข้อมูลในระบบแล้ว ถ้าเราต้องการนำข้อมูลมาวิเคราะห์ ตรงนี้แหละครับที่เราต้องมีการจัดเตรียมข้อมูล ไม่ใช่ว่าจะเอา Tool BI มาเกาะแล้วเห็นเป็น Dash Board ทันทีนะ มันต้องผ่านขบวนการ ดึงข้อมูลจาก Data Lake ในส่วนที่เราต้องการ แล้วมาสร้าง Cube ต่ออีกทีนึง เสร็จจาก Cube แล้วถึง เอา Tool BI เช่น Power BI มาแปลงเป็น Dash Board ครับ
Data Diagram
ลองมาดูอีก Diagram นึงจะเห็นภาพชัดขึ้น ในส่วนของ Data Lake นั้น ถูกแยกออกมาจาก Processing กับ Warehouse ชัดเจน
ระบบฐานข้อมูลสมัยใหม่ Azure Synapse
Analytics คือ ชุดเครื่องมือใหม่จาก Microsoft ที่ช่วยให้เราทำ Analytics ได้เร็วขึ้น และ เป็นแบบ real time และ ซึ่งรวมชุดเครื่องมือที่รองรับทั้ง Data ที่เป็น Structure and Unstructured
ระบบวิเคราะห์ข้อมูลในแบบเดิม ที่ยังแตกแยกออกเป็นเครื่องมือและกระบวนการหลายขั้นตอน ทำให้วิศวกรข้อมูล (data engineer) นักวิทยาศาสตร์ข้อมูล (data scientist) และนักวิเคราะห์ข้อมูล (data analyst) ต้องพึ่งพาเครื่องมือและแพลตฟอร์มที่แตกต่างกันไปในภารกิจของตนเอง จนทำให้การจัดทำรายงานวิเคราะห์ข้อมูลโดยละเอียดเพียงฉบับเดียว อาจต้องอาศัยการถ่ายโอนข้อมูลปริมาณมหาศาลแบบซ้ำซ้อนไปวิเคราะห์ด้วยเครื่องมือหลายชุดพร้อม ๆ กัน และก่อนที่จะนำมารวมกันเพื่อสรุปเป็นรายงานที่ใช้งานทางธุรกิจได้จริงนั้น ก็อาจต้องอาศัยแรงและเวลาอยู่ไม่น้อยในการเขียนโค้ดใหม่มาผสานทุกอย่างให้เข้ากันได้