Table of Contents

ทำไม Language Models Hallucinate: สาเหตุ สิ่งจูงใจ และแนวทางแก้ไข

Facebook
X
LinkedIn
Why Language Models Hallucinate

ที่ OpenAI นักวิจัยกำลังทำงานอย่างต่อเนื่องเพื่อทำให้ระบบ AI มีประโยชน์และเชื่อถือได้มากขึ้น แม้ว่าโมเดลภาษาขนาดใหญ่จะมีความสามารถเพิ่มขึ้น แต่ความท้าทายสำคัญที่ยังคงอยู่คือ hallucinations หรือการที่โมเดลสร้างคำตอบที่มั่นใจแต่ไม่ถูกต้อง งานวิจัยล่าสุดของเราโต้แย้งว่า Language Models Hallucinate ส่วนใหญ่เพราะวิธีการฝึกและการประเมินในปัจจุบันให้รางวัลกับการ “เดา” มากกว่าการยอมรับว่าไม่แน่ใจ 

GPT-5 สามารถลดอัตรา hallucinations ได้อย่างมาก โดยเฉพาะในการใช้เหตุผล เมื่อเทียบกับระบบรุ่นก่อน อย่างไรก็ตาม ปัญหานี้ยังคงเกิดขึ้นในโมเดลภาษาขนาดใหญ่ทั้งหมด และถือเป็นหนึ่งในความท้าทายพื้นฐานที่สุดของ AI 

 

Hallucinations คืออะไร? 

Hallucinations คือข้อความที่ฟังดูมั่นใจและลื่นไหล แต่กลับไม่ถูกต้อง ซึ่งสามารถเกิดขึ้นได้แม้ในคำถามข้อเท็จจริงง่าย ๆ เช่น: 

  • เมื่อถูกถามถึงหัวข้อวิทยานิพนธ์ระดับปริญญาเอกของนักวิจัยคนหนึ่ง แชตบอทสร้างคำตอบขึ้นมาสามแบบที่ฟังดูสมเหตุสมผลแต่ไม่ถูกต้องทั้งหมด 
  • เมื่อถูกถามวันเกิดของบุคคลเดียวกัน โมเดลให้คำตอบออกมาสามวันที่ต่างกัน และไม่มีอันไหนถูกต้องเลย 

ข้อผิดพลาดเหล่านี้ไม่ใช่แค่ความบกพร่องแบบสุ่ม แต่เป็นผลโดยตรงจากวิธีการฝึกและการประเมินโมเดล 

AI hallucination

ทำไม Hallucinations ยังคงอยู่? 

สาเหตุสำคัญคือวิธีที่โมเดลถูกให้คะแนน การประเมินปัจจุบันวัดเฉพาะ “ความแม่นยำ” ซึ่งกระตุ้นให้โมเดลเลือกที่จะเดา 

ลองจินตนาการถึงข้อสอบปรนัย: ถ้าปล่อยว่างไว้จะได้ศูนย์คะแนน แต่ถ้าเดาก็มีโอกาสถูกบ้าง เมื่อทำหลายข้อ การเดามักให้ผลดีกว่าการตอบว่า “ไม่รู้” โมเดลภาษาก็เช่นเดียวกัน พวกมันได้รับรางวัลจากการเดามากกว่าความระมัดระวัง 

 

ตัวอย่าง: การประเมิน SimpleQA 

Metric 

GPT-5 Thinking Mini 

OpenAI o4-mini 

Abstention rate (ไม่ตอบ) 

52% 

1% 

Accuracy (คำตอบถูก) 

22% 

24% 

Error rate (คำตอบผิด) 

26% 

75% 

แม้ว่า o4-mini จะได้คะแนนความแม่นยำสูงกว่าเล็กน้อย แต่ก็มีอัตราความผิดพลาด (hallucinations) ที่แย่กว่ามาก สิ่งนี้แสดงให้เห็นว่าการวัดที่เน้นความแม่นยำเพียงอย่างเดียวมักซ่อนความเสี่ยงจากการเดา 

 

แนวทางการประเมินที่ดีกว่า 

วิธีแก้ไม่ซับซ้อน: 

  • ลงโทษคำตอบที่ผิดอย่างมั่นใจมากกว่าการเว้นว่าง 
  • ให้คะแนนบางส่วนสำหรับการแสดงความไม่แน่ใจอย่างเหมาะสม 

การสอบมาตรฐานบางประเภทใช้นโยบายแบบเดียวกันนี้อยู่แล้ว (เช่น การหักคะแนนเมื่อเดาผิด หรือการให้คะแนนบางส่วน) เพื่อลดแรงจูงใจในการเดาโดยไม่รู้คำตอบ การประเมิน AI ก็ควรปรับใช้หลักการเดียวกันนี้เพื่อสร้างแรงจูงใจให้ความซื่อสัตย์ 

Evaluation Approach 

Incentive 

Outcome 

Accuracy-Only 

ให้รางวัลกับการเดา 

Hallucinations สูงขึ้น 

Uncertainty-Aware 

ให้รางวัลกับการไม่ตอบ 

Hallucinations ลดลง 

หากไม่มีการปฏิรูป ตารางจัดอันดับจะยังคงผลักดันให้นักพัฒนาออกแบบโมเดลที่ “ฟังดูมั่นใจ” แต่ผิดบ่อย 

 

ทำไม Language Models Hallucinate ในเชิงเทคนิค 

Hallucinations มีที่มาจากวิธีการ pretrain โมเดล นั่นคือการทำนายคำถัดไป (next-word prediction) 

  • โมเดลเรียนรู้จากข้อความจำนวนมหาศาล โดยทำนายคำถัดไปที่น่าจะเป็นไปได้มากที่สุด 
  • โมเดลไม่ได้ถูกฝึกด้วยป้ายกำกับ “จริง/เท็จ” แต่ใช้เพียงตัวอย่างที่ลื่นไหล 
  • สำหรับรูปแบบที่สม่ำเสมอ (การสะกด ไวยากรณ์ วงเล็บ) ขนาดที่ใหญ่ขึ้นสามารถลดข้อผิดพลาดได้ 
  • แต่สำหรับข้อเท็จจริงที่พบไม่บ่อย (เช่น วันเกิดบุคคล) การพยากรณ์อย่างเดียวไม่สามารถรับประกันความถูกต้องได้ 

ช่องว่างทางสถิตินี้อธิบายว่าทำไม hallucinations ทางข้อเท็จจริงจึงยังคงอยู่ แม้ว่าโมเดลขนาดใหญ่จะกำจัดข้อผิดพลาดบางประเภทได้แล้ว 

 

ความเข้าใจผิดที่พบบ่อยเกี่ยวกับ Hallucinations 

Common Claim 

Research Finding 

การเพิ่มความแม่นยำจะกำจัด hallucinations ได้ 

ความแม่นยำไม่มีวันถึง 100% เพราะคำถามบางประเภทไม่สามารถตอบได้จริง 

Hallucinations เป็นสิ่งหลีกเลี่ยงไม่ได้ 

โมเดลสามารถเลือก “ไม่ตอบ” แทนการเดาได้ 

ต้องใช้โมเดลที่ใหญ่กว่าเพื่อลด Hallucinations 

โมเดลเล็กบางตัวแสดงความระมัดระวังได้ดีกว่าโดยยอมรับว่า “ไม่รู้” 

Hallucinations เป็นความผิดพลาดลึกลับ 

ต้นเหตุเข้าใจได้ชัดเจนจากการฝึกเชิงสถิติ 

การมี benchmark ที่ดีกว่าจะแก้ปัญหาได้ 

benchmark เดียวไม่พอ ต้องเปลี่ยนระบบการประเมินทั้งระบบเพื่อให้รางวัลกับความไม่แน่ใจ 

 

Summary 

Hallucinations ไม่ใช่ข้อบกพร่องแบบสุ่ม แต่เป็นผลลัพธ์เชิงโครงสร้างจากวิธีที่โมเดลถูกฝึกและประเมิน เนื่องจาก Language Models Hallucinate ภายใต้ระบบที่เน้นความแม่นยำเพียงอย่างเดียว หนทางข้างหน้าคือการปฏิรูประบบการประเมิน โดยให้รางวัลกับความถ่อมตน การยอมรับความไม่แน่ใจ และการลงโทษความผิดที่มั่นใจเกินไป เมื่อทำเช่นนี้ ระบบ AI จะไม่เพียงมีพลังมากขึ้น แต่ยังน่าเชื่อถือยิ่งขึ้นด้วย 

Interested in Microsoft products and services? Send us a message here.

Explore our digital tools

If you are interested in implementing a knowledge management system in your organization, contact SeedKM  for more information on enterprise knowledge management systems, or explore other products such as Jarviz  for online timekeeping, OPTIMISTIC  for workforce management. HRM-Payroll, Veracity  for digital document signing, and CloudAccount  for online accounting.

Read more articles about knowledge management systems and other management tools at Fusionsol Blog, IP Phone Blog, Chat Framework Blog, and OpenAI Blog.

New Gemini Tools For Educators: Empowering Teaching with AI 

If you want to keep up with the latest trending technology and AI news every day, check out this website . . There are new updates every day to keep up with!

Fusionsol Blog in Vietnamese

Related Articles

Frequently Asked Questions (FAQ)

Microsoft Copilot is an AI-powered assistant feature that helps you work within Microsoft 365 apps like Word, Excel, PowerPoint, Outlook, and Teams by summarizing, writing, analyzing, and organizing information.

Copilot currently supports Microsoft Word, Excel, PowerPoint, Outlook, Teams, OneNote, and others in the Microsoft 365 family.

An internet connection is required as Copilot works with cloud-based AI models to provide accurate and up-to-date results.

Users can type commands like “summarize report in one paragraph” or “write formal email response to client” and Copilot will generate the message accordingly.

Yes, Copilot is designed with security and privacy in mind. User data is never used to train AI models, and access rights are strictly controlled.

Facebook
X
LinkedIn

Popular Blog posts