Table of Contents

Gemini Omni: เปิดตัว AI สร้างวิดีโออัจฉริยะจาก Google

Facebook
X
LinkedIn
Gemini Omni

ปัญญาประดิษฐ์กำลังพัฒนาอย่างรวดเร็ว และ Google ได้เปิดตัวโมเดล AI ที่ทะเยอทะยานที่สุดรุ่นหนึ่งภายใต้ชื่อ Gemini Omni ซึ่งถูกประกาศในงาน Google I/O 2026 โมเดล AI ตระกูลใหม่นี้ถือเป็นก้าวสำคัญของ AI แบบ Multimodal ที่รวมความสามารถในการเข้าใจข้อความ ภาพ เสียง และวิดีโอไว้ในระบบสร้างสรรค์เดียวกัน

ตามข้อมูลจาก Google Blog ระบุว่า Gemini Omni ถูกออกแบบมาเพื่อ “สร้างทุกอย่างจากทุกอินพุต” โดยเริ่มต้นจากการสร้างและแก้ไขวิดีโอ ซึ่งทำให้โมเดลนี้กลายเป็นแพลตฟอร์ม AI สำหรับงานสร้างสรรค์ยุคใหม่ที่อาจเปลี่ยนวิธีการสร้างคอนเทนต์ดิจิทัลในอนาคต

Gemini Omni คืออะไร?

Gemini Omni คือโมเดล AI ตระกูลใหม่จาก Google ที่ถูกพัฒนาขึ้นเพื่อยกระดับความสามารถของ AI จากระบบที่ทำงานเฉพาะด้าน ไปสู่แพลตฟอร์ม Multimodal แบบครบวงจรที่สามารถเข้าใจและสร้างสื่อได้หลายรูปแบบภายในระบบเดียว

แตกต่างจาก AI รุ่นก่อนที่มักแยกการทำงานระหว่างข้อความ ภาพ เสียง หรือวิดีโอ Gemini Omni ถูกออกแบบมาให้สามารถประมวลผลข้อมูลหลายประเภทพร้อมกัน ไม่ว่าจะเป็นข้อความ รูปภาพ เสียง หรือคลิปวิดีโอ จากนั้น AI จะสามารถสร้างหรือแก้ไขวิดีโอคุณภาพสูงได้ผ่านคำสั่งแบบสนทนาอย่างเป็นธรรมชาติ

Google อธิบายว่า Gemini Omni เป็นก้าวสำคัญของ AI ยุคใหม่ เพราะไม่ได้เน้นเพียงการสร้างคอนเทนต์ แต่ยังรวมถึงความเข้าใจโลก การรักษาความสมจริงของฉาก การเคลื่อนไหวตามหลักฟิสิกส์ และความสามารถในการให้เหตุผลแบบ Multimodal เข้าไว้ด้วยกัน ทำให้ผลลัพธ์ที่สร้างขึ้นมีความต่อเนื่องและสมจริงมากกว่าเดิม

โมเดลแรกที่เปิดตัวในตระกูลนี้คือ Gemini Omni Flash ซึ่งถูกออกแบบมาเพื่อให้การสร้างวิดีโอด้วย AI เป็นเรื่องรวดเร็ว ใช้งานง่าย และเข้าถึงผู้ใช้งานได้มากขึ้น

ทำไม Gemini Omni จึงสำคัญ

ตลอดหลายปีที่ผ่านมา อุตสาหกรรม AI กำลังมุ่งหน้าไปสู่ระบบที่สามารถรวมความสามารถหลายด้านไว้ในแพลตฟอร์มเดียว แต่ในปัจจุบัน ผู้ใช้งานส่วนใหญ่ยังต้องสลับระหว่างเครื่องมือหลายประเภทสำหรับการเขียนข้อความ สร้างภาพ ตัดต่อวิดีโอ ทำแอนิเมชัน หรือจัดการเสียง

Gemini Omni พยายามเปลี่ยนแนวคิดนี้ด้วยการรวมทุก Workflow ด้านงานสร้างสรรค์ไว้ในระบบสนทนาเดียว ผู้ใช้ไม่จำเป็นต้องมีทักษะด้านการตัดต่อหรือใช้งานซอฟต์แวร์ที่ซับซ้อน เพียงอธิบายสิ่งที่ต้องการด้วยภาษาธรรมชาติ AI ก็สามารถจัดการขั้นตอนการสร้างและแก้ไขคอนเทนต์ให้โดยอัตโนมัติ

ตัวอย่างเช่น ผู้ใช้สามารถเปลี่ยนภาพถ่ายธรรมดาให้กลายเป็นวิดีโอสไตล์ภาพยนตร์ ปรับแสงและบรรยากาศของฉาก สร้างแอนิเมชัน เพิ่มเอฟเฟกต์ หรือแม้แต่แก้ไขฉากทั้งหมดผ่านการสนทนาได้ทันที ความสามารถเหล่านี้ทำให้ Gemini Omni ถูกมองว่าเป็นหนึ่งในระบบ AI ด้านงานสร้างสรรค์ที่ล้ำหน้าที่สุดของ Google ในปัจจุบัน

ฟีเจอร์สำคัญของ Gemini Omni

สร้างวิดีโอจากหลายรูปแบบอินพุต

หนึ่งในความสามารถที่สำคัญที่สุดของ Gemini Omni คือการสร้างวิดีโอแบบ Multimodal

ผู้ใช้สามารถรวม:

  • คำสั่งข้อความ
  • รูปภาพ
  • วิดีโอเดิม
  • เสียงอ้างอิง

เพื่อสร้างวิดีโอใหม่ที่สร้างด้วย AI

Google ระบุว่าระบบสามารถรักษาความต่อเนื่องของฉาก ตัวละคร และการเคลื่อนไหวได้ดีกว่าระบบ AI รุ่นก่อนหน้า

Conversational Video Editing ด้วย Gemini Omni

ซอฟต์แวร์ตัดต่อวิดีโอแบบดั้งเดิมมักต้องใช้ทักษะทางเทคนิคสูง แต่ Gemini Omni เปลี่ยนสิ่งนี้ด้วยระบบแก้ไขแบบสนทนา

ผู้ใช้สามารถพิมพ์คำสั่งง่าย ๆ เช่น:

  • “เปลี่ยนแสงเป็นช่วงพระอาทิตย์ตก”
  • “เพิ่มเอฟเฟกต์ฝน”
  • “ขยับกล้องเข้าใกล้มากขึ้น”
  • “เปลี่ยนพื้นหลังเป็นเมืองอนาคต”

AI จะอัปเดตวิดีโอพร้อมรักษาความต่อเนื่องของฉากทั้งหมด

แนวทางนี้ช่วยลดข้อจำกัดในการสร้างคอนเทนต์คุณภาพระดับมืออาชีพ

Gemini Omni กับความเข้าใจโลก (World Understanding)

อีกหนึ่งจุดสำคัญของ Gemini Omni คือการสร้างแบบจำลองโลกที่สมจริง

Google อธิบายว่าโมเดลนี้รวมความสามารถด้าน:

  • ความเข้าใจฟิสิกส์
  • การรับรู้พื้นที่
  • การให้เหตุผลตามบริบท
  • ความรู้เกี่ยวกับโลกจริง

สิ่งนี้ช่วยให้ฉากที่สร้างขึ้นดูสมจริงมากขึ้น

ตัวอย่างเช่น:

  • เงาในฉากมีความสอดคล้อง
  • การเคลื่อนไหวเป็นไปตามหลักฟิสิกส์
  • ตัวละครคงเอกลักษณ์เดิม
  • ฉากยังคงต่อเนื่องแม้ผ่านการแก้ไขหลายครั้ง

นี่ถือเป็นการพัฒนาครั้งสำคัญเมื่อเทียบกับ AI สร้างสื่อรุ่นก่อนที่มักมีปัญหาเรื่องความสมจริงและความต่อเนื่องของฉาก

Gemini Omni Flash

เวอร์ชันแรกที่เปิดให้ใช้งานสาธารณะคือ Gemini Omni Flash

ตามข้อมูลจาก Google โมเดลนี้เน้น:

  • การสร้างคอนเทนต์ที่รวดเร็ว
  • Workflow ที่เข้าถึงง่าย
  • การสร้างสรรค์ผ่านบทสนทนา
  • การใช้งานที่เป็นมิตรกับผู้ใช้ทั่วไป

Google ยังระบุว่า Omni Flash กำลังทยอยเปิดใช้งานใน:

  • Gemini App
  • Google Flow
  • YouTube Shorts

แพลตฟอร์ม

การใช้งาน

Gemini App

สร้างวิดีโอด้วย AI

YouTube Shorts

สร้างคอนเทนต์วิดีโอสั้น

Google Flow

Workflow งานสร้างสรรค์

Google AI Tools

เครื่องมือสำหรับนักพัฒนา

Future Workspace Tools

เครื่องมือ Productivity แบบมัลติมีเดีย

 

นอกจากนี้ Google ยังวางแผนเปิด API สำหรับนักพัฒนาในอนาคตอีกด้วย

Gemini Omni เทียบกับโมเดล AI แบบดั้งเดิม

ฟีเจอร์

AI แบบดั้งเดิม

Gemini Omni

การสร้างข้อความ

รองรับ

รองรับ

การสร้างภาพ

จำกัด

ขั้นสูง

การสร้างวิดีโอ

ต้องใช้หลายเครื่องมือ

รวมในระบบเดียว

Conversational Editing

พบได้น้อย

รองรับโดยตรง

Multimodal Input

บางส่วน

เต็มรูปแบบ

ความต่อเนื่องของฉาก

ไม่สม่ำเสมอ

ดีขึ้นมาก

จุดเด่นที่สำคัญที่สุดของ Gemini Omni คือการรวม Workflow ด้านงานสร้างสรรค์หลายประเภทไว้ในประสบการณ์ AI เดียวกัน

กระแสตอบรับจากชุมชนต่อ Gemini Omni

กระแสตอบรับในช่วงแรกต่อ Gemini Omni ค่อนข้างเป็นบวกอย่างมาก โดยเฉพาะในกลุ่มนักสร้างคอนเทนต์และนักพัฒนา AI

ผู้ใช้งานหลายคนมองว่าระบบนี้คือ:

  • ก้าวสำคัญของ AI แบบ “สร้างอะไรก็ได้”
  • แพลตฟอร์มสร้างสรรค์แบบรวมศูนย์
  • ก้าวสู่สภาพแวดล้อม AI ที่โต้ตอบได้อย่างเต็มรูปแบบ

ในบางการสนทนาบน Reddit มีการเปรียบเทียบ Omni กับอนาคตที่ AI สามารถสร้างโลกดิจิทัลทั้งใบได้ ไม่ใช่เพียงแค่สื่อแยกชิ้น

อย่างไรก็ตาม ยังมีความกังวลเกี่ยวกับ:

  • ข้อมูลปลอมที่สร้างโดย AI
  • ความเสี่ยงจาก Deepfake
  • ความน่าเชื่อถือของคอนเทนต์
  • การพึ่งพา AI มากเกินไปในงานสร้างสรรค์

Google จึงได้ขยายระบบต่าง ๆ เช่น:

  • SynthID
  • Content Credentials
  • เครื่องมือตรวจสอบสื่อที่สร้างด้วย AI

เพื่อเพิ่มความโปร่งใสของคอนเทนต์ที่สร้างโดย AI

อนาคตของ Multimodal AI

การเปิดตัว Gemini Omni สะท้อนถึงการเปลี่ยนแปลงครั้งใหญ่ของวงการ AI

อุตสาหกรรมกำลังก้าวไปสู่ระบบที่สามารถ:

  • เข้าใจสื่อหลายประเภทพร้อมกัน
  • สร้างคอนเทนต์แบบ Interactive
  • รักษาความต่อเนื่องของบริบทระยะยาว
  • ทำงานเหมือนผู้ช่วยด้านความคิดสร้างสรรค์

แทนที่จะใช้ AI แยกสำหรับข้อความ ภาพ และวิดีโอ ระบบในอนาคตอาจกลายเป็นเครื่องมือสร้างสรรค์แบบรวมศูนย์อย่างสมบูรณ์

และ Gemini Omni ดูเหมือนจะเป็นวิสัยทัศน์ของ Google สำหรับอนาคตนั้น

สรุป

ด้วยการเปิดตัว Gemini Omni ทำให้ Google กำลังผลักดัน AI แบบ Multimodal เข้าสู่ยุคใหม่ที่เน้นการสร้างสรรค์คอนเทนต์ การแก้ไขผ่านบทสนทนา และความเข้าใจโลกอย่างสมจริง

ด้วยการรวมความสามารถด้านข้อความ ภาพ เสียง และวิดีโอไว้ในระบบเดียว Gemini Omni มีศักยภาพในการเปลี่ยนแปลงวิธีที่ครีเอเตอร์ ธุรกิจ นักการศึกษา และนักพัฒนาสร้างคอนเทนต์ดิจิทัล

เมื่อสื่อที่สร้างด้วย AI มีความล้ำหน้ามากขึ้น เครื่องมืออย่าง Gemini Omni อาจเปลี่ยนการผลิตวิดีโอจาก Workflow เชิงเทคนิค ให้กลายเป็นประสบการณ์การสร้างสรรค์ผ่านการสนทนาอย่างเต็มรูปแบบในอนาคต

สนใจผลิตภัณฑ์และบริการของ Microsoft หรือไม่ ส่งข้อความถึงเราที่นี่

สำรวจเครื่องมือดิจิทัลของเรา

หากคุณสนใจในการนำระบบจัดการความรู้มาใช้ในองค์กรของคุณ ติดต่อ SeedKM เพื่อขอข้อมูลเพิ่มเติมเกี่ยวกับระบบจัดการความรู้ภายในองค์กร หรือสำรวจผลิตภัณฑ์อื่นๆ เช่น Jarviz สำหรับการบันทึกเวลาทำงานออนไลน์, OPTIMISTIC สำหรับการจัดการบุคลากร HRM-Payroll, Veracity สำหรับการเซ็นเอกสารดิจิทัล, และ CloudAccount สำหรับการบัญชีออนไลน์

อ่านบทความเพิ่มเติมเกี่ยวกับระบบจัดการความรู้และเครื่องมือการจัดการอื่นๆ ได้ที่ Fusionsol BlogIP Phone BlogChat Framework Blog, และ OpenAI Blog.

New Gemini Tools For Educators: Empowering Teaching with AI 

Digital Signature

E Signature

E Learning

Online Learning

ถ้าอยากติดตามข่าวเทคโนโลยีและข่าว AI ที่กำลังเป็นกระแสทุกวัน ลองเข้าไปดูที่ เว็บไซต์นี้ มีอัปเดตใหม่ๆ ให้ตามทุกวันเลย!

Fusionsol Blog in Vietnamese

Related Articles

Frequently Asked Questions (FAQ)

Microsoft Copilot คือฟีเจอร์ผู้ช่วยอัจฉริยะที่ใช้ AI เพื่อช่วยในการทำงานภายในแอปของ Microsoft 365 เช่น Word, Excel, PowerPoint, Outlook และ Teams โดยทำหน้าที่ช่วยสรุป เขียน วิเคราะห์ และจัดการข้อมูล

ปัจจุบัน Copilot รองรับ Microsoft Word, Excel, PowerPoint, Outlook, Teams, OneNote, และอื่น ๆ ในตระกูล Microsoft 365

จำเป็นต้องเชื่อมต่ออินเทอร์เน็ต เนื่องจาก Copilot ทำงานร่วมกับโมเดล AI บนคลาวด์เพื่อให้ผลลัพธ์ที่แม่นยำและอัปเดตข้อมูลล่าสุด

ผู้ใช้สามารถพิมพ์คำสั่ง เช่น “สรุปรายงานในย่อหน้าเดียว” หรือ “เขียนอีเมลตอบลูกค้าอย่างเป็นทางการ” และ Copilot จะสร้างข้อความให้ตามคำสั่ง

ใช่ Copilot ได้รับการออกแบบโดยยึดหลักความปลอดภัยและการปกป้องความเป็นส่วนตัว โดยข้อมูลของผู้ใช้จะไม่ถูกใช้ในการฝึกโมเดล AI และมีระบบการควบคุมสิทธิ์การเข้าถึงข้อมูลอย่างเข้มงวด

Facebook
X
LinkedIn

Popular Blog posts