Computer-using Agents: Autonomous AI Workflows
Computer-using Agents: Microsoft ก้าวเข้าสู่ยุคของ Autonomous AI Workflows Facebook X LinkedIn Microsoft Copilot Studio ได้เปิดให้ใช้งานความสามารถ Computer-using Agents อย่างเป็นทางการในระดับ General Availability แล้ว ซึ่งถือเป็นอีกก้าวสำคัญในวิสัยทัศน์ด้าน Agentic AI ของ Microsoft สำหรับองค์กร การเปิดตัวครั้งนี้สะท้อนถึงการเปลี่ยนแปลงครั้งสำคัญที่กำลังเกิดขึ้นในอุตสาหกรรม AI ปัจจุบัน AI ไม่ได้จำกัดอยู่แค่การสร้างข้อความ สรุปข้อมูล หรือการตอบคำถามอีกต่อไป แต่กำลังก้าวสู่การโต้ตอบกับซอฟต์แวร์โดยตรง ทำงานแบบหลายขั้นตอน และใช้งานแอปพลิเคชันได้ในลักษณะเดียวกับพนักงานจริง ด้วย Computer-using Agents ทาง Microsoft กำลังผลักดัน AI จาก “ผู้ช่วย” ไปสู่ “ผู้ลงมือทำงานจริง” Computer-using Agents คืออะไร? Computer-using Agents คือ AI Agent ที่สามารถโต้ตอบกับ Graphical User Interfaces (GUIs) ได้ เช่น เว็บไซต์ แอปพลิเคชันบนเดสก์ท็อป ระบบภายในองค์กร และซอฟต์แวร์แบบ Legacy ต่าง ๆ โดยแทนที่จะพึ่งพาเฉพาะ APIs หรือการเชื่อมต่อแบบกำหนดเอง Agent สามารถใช้งานซอฟต์แวร์ผ่านการมองเห็นหน้าจอเสมือนจริง ด้วย virtual mouse และ keyboard ระบบนี้ผสานการทำงานของ: Computer vision Reasoning models Workflow orchestration Natural language instructions สิ่งนี้ทำให้องค์กรสามารถอธิบายงานด้วยภาษาธรรมชาติ ในขณะที่ AI Agent จะเป็นผู้ดำเนินงานเชิงปฏิบัติการด้วยตัวเอง Microsoft อธิบายว่าเทคโนโลยีนี้สามารถกดปุ่ม เลือกเมนู กรอกฟอร์ม ดึงข้อมูล และนำทางภายในแอปพลิเคชันได้ในลักษณะเดียวกับพนักงานมนุษย์ หนึ่งในจุดสำคัญที่สุดของแนวทางนี้คือ “ความยืดหยุ่น” เนื่องจาก Agent ทำงานผ่านชั้น Interface แบบ Visual จึงยังสามารถทำงานได้แม้ไม่มี API หรือในกรณีที่เป็นแอปพลิเคชัน Legacy รุ่นเก่า ก้าวข้าม Traditional Automation ระบบ Robotic Process Automation (RPA) แบบดั้งเดิมมักต้องอาศัย Workflow ที่มีโครงสร้างตายตัว และสามารถล้มเหลวได้ง่ายเมื่อหน้าตา Interface เปลี่ยนแปลง การเปลี่ยนแปลงเล็กน้อย เช่น Layout ใหม่ ปุ่มถูกเปลี่ยนชื่อ หรือเมนูย้ายตำแหน่ง มักทำให้ต้องกลับมา Configure ระบบใหม่อีกครั้ง Computer-using Agents ถูกพัฒนาขึ้นมาเพื่อลดข้อจำกัดเหล่านี้ Microsoft ระบุว่า AI Model สามารถปรับตัวตามการเปลี่ยนแปลงของ Interface ได้แบบ Dynamic และยังทำงานต่อได้แม้ Layout หรือปุ่มจะเปลี่ยนตำแหน่ง ทำให้ระบบมีความยืดหยุ่นสูงกว่าเครื่องมือ Automation แบบเดิมจำนวนมาก ความสามารถนี้ยังช่วยลดอุปสรรคด้านเทคนิคสำหรับการทำ Automation อีกด้วย แทนที่จะต้องสร้าง Workflow ผ่าน Code หรือ Scripting ที่ซับซ้อน ผู้ใช้สามารถอธิบายผลลัพธ์ที่ต้องการด้วยภาษาธรรมชาติได้โดยตรง…


