Table of Contents

Azure AI Service OCR – อธิบายเทคโนโลยีรู้จำอักขระด้วยแสง (OCR)

Facebook
X
LinkedIn
Azure AI Service OCR

ในยุคดิจิทัล การดึงข้อความจากภาพและเอกสารที่สแกนไม่ใช่ความหรูหราอีกต่อไป — แต่เป็นสิ่งจำเป็น ไม่ว่าจะเป็นการทำงานด้านการป้อนข้อมูลอัตโนมัติ การแปลงเอกสารกระดาษให้อยู่ในรูปแบบดิจิทัล หรือการวิเคราะห์ใบแจ้งหนี้ Azure AI Service OCR มอบโซลูชันบนคลาวด์ที่ทรงพลังในการรู้จำข้อความทั้งแบบพิมพ์และลายมือด้วยความแม่นยำสูงและสามารถขยายระบบได้ตามความต้องการ 

บทความนี้จะอธิบายถึงการทำงานของบริการนี้ กรณีการใช้งานหลัก รูปแบบไฟล์ที่รองรับ และบทบาทของ OCR ในระบบ AI ของ Azure โดยรวม 

OCR คืออะไร และทำไมถึงสำคัญ 

OCR (Optical Character Recognition) คือเทคโนโลยีที่แปลงข้อความในภาพ — เช่น เอกสารที่สแกน ภาพถ่าย หรือ PDF — ให้อยู่ในรูปแบบที่เครื่องสามารถอ่านและแก้ไขได้ ทำให้ธุรกิจสามารถ: 

  • ทำงานเอกสารแบบอัตโนมัติ 
  • ดึงข้อมูลจากฟอร์มหรือใบเสร็จ 
  • ทำให้เนื้อหาค้นหาได้และสามารถจัดทำดัชนี 
  • สนับสนุนการเข้าถึงข้อมูลผ่านเครื่องอ่านหน้าจอ 

OCR ได้กลายเป็นเครื่องมือที่จำเป็นในหลากหลายอุตสาหกรรม เช่น การเงิน โลจิสติกส์ กฎหมาย การแพทย์ และภาครัฐ 

vision-studio-ocr-demo

การทำงานของ Azure AI Service OCR 

OCR เป็นส่วนหนึ่งของบริการ Azure Cognitive Services โดยใช้โมเดล deep learning ในการดึงข้อความจากภาพและเอกสารที่เป็นดิจิทัล ไม่ว่าจะเป็นตัวพิมพ์หรือลายมือ 

ความสามารถหลักของระบบ 

ฟีเจอร์ 

คำอธิบาย 

รองรับหลายภาษา 

รู้จำข้อความได้มากกว่า 70 ภาษา รวมถึงภาษาไทย ญี่ปุ่น อาหรับ และอื่น ๆ 

ข้อความพิมพ์ & ลายมือ 

รองรับทั้งตัวอักษรที่พิมพ์และลายมือเขียน 

เอกสารหลายหน้า 

ดึงข้อความจาก PDF หลายหน้าพร้อมรักษาโครงร่างของเอกสาร 

Bounding Boxes 

ระบุตำแหน่งข้อความเป็นพิกัดสำหรับแอปพลิเคชันที่มีภาพประกอบ 

ใช้บนคลาวด์หรือโลคัล 

ใช้ผ่าน Azure API หรือภายใน container ที่รันในระบบขององค์กร 

สามารถเข้าถึงได้ผ่าน REST API, SDK (.NET, Python, Java) หรือผ่าน Azure AI Studio สำหรับการใช้งานแบบ no-code 

 

กรณีการใช้งานที่พบบ่อยของ Azure AI OCR 

  1. การแปลงใบแจ้งหนี้และใบเสร็จให้เป็นดิจิทัล
    ดึงรายการสินค้า ยอดรวม วันที่ และชื่อผู้ขายจากใบเสร็จที่สแกนเข้าสู่ระบบ ERP โดยอัตโนมัติ
  2. ทำให้เอกสารสามารถค้นหาได้
    แปลงเอกสารที่ถูกสแกนให้อยู่ในรูปแบบที่สามารถค้นหาและจัดทำดัชนีได้ โดยใช้ OCR ร่วมกับ Azure Search
  3. การรู้จำป้ายทะเบียนรถ
    ใช้ในอุตสาหกรรมขนส่งหรือโลจิสติกส์เพื่ออ่านหมายเลขทะเบียนจากภาพกล้องวงจรปิดแบบเรียลไทม์
  4. ถอดข้อความจากบันทึกลายมือ
    เหมาะสำหรับภาคการศึกษาและสาธารณสุข ที่ยังมีการใช้ฟอร์มและบันทึกลายมือจำนวนมาก

 

วิธีเริ่มต้นใช้งานบน Azure 

ขั้นตอนที่ 1: สร้างทรัพยากร (Resource) 
เปิดใช้งาน Cognitive Services หรือ Computer Vision บน Azure Portal 

ขั้นตอนที่ 2: เลือกรูปแบบไฟล์ที่ต้องการนำเข้า 
รองรับ JPEG, PNG, BMP, PDF และ TIFF 

ขั้นตอนที่ 3: เรียกใช้งาน API OCR 
ใช้ endpoint /vision/v3.2/read/analyze หรือ /formrecognizer ขึ้นอยู่กับประเภทเอกสาร 

ขั้นตอนที่ 4: ใช้ผลลัพธ์ในแอปพลิเคชัน 
นำผลลัพธ์ไปใช้ร่วมกับ Power Automate, Logic Apps หรือสำหรับการจัดเส้นทางเอกสารอัตโนมัติ 

 

เปรียบเทียบกับเครื่องมือ OCR อื่น ๆ 

คุณสมบัติ 

Azure AI OCR 

Tesseract 

Google Cloud Vision 

รองรับภาษา 

มากกว่า 70 ภาษา 

~100 (แต่ความแม่นยำน้อยกว่า) 

มากกว่า 50 ภาษา 

ตรวจจับเค้าโครงเอกสาร 

รองรับ 

ไม่รองรับ 

รองรับ 

ลายมือ 

ความแม่นยำสูง 

ต่ำ 

ปานกลาง 

คลาวด์ & Edge 

รองรับทั้งสองแบบ 

Edge เท่านั้น 

คลาวด์เท่านั้น 

SDK & API 

รองรับ SDK เต็มรูปแบบ 

ใช้งานผ่าน CLI 

API เท่านั้น 

ความได้เปรียบของ Azure อยู่ที่ความพร้อมสำหรับองค์กร ความสามารถในการขยาย และการผสานรวมกับบริการอื่น ๆ ของ Azure เช่น Form Recognizer, Translator และ Azure Search 

 

สรุป 

ไม่ว่าคุณจะสร้าง workflow สำหรับประมวลผลเอกสารอัจฉริยะ หรือแปลงเนื้อหาในองค์กรให้เป็นดิจิทัล Azure AI Service OCR คือโซลูชันที่แม่นยำ ขยายการใช้งานได้ง่าย และรองรับรูปแบบการใช้งานที่หลากหลาย 

รองรับลายมือ หลายภาษา และสามารถทำงานทั้งบนคลาวด์และเครื่องในองค์กร เหมาะสำหรับการปรับใช้ในระบบอัตโนมัติที่ขับเคลื่อนด้วย AI 

สนใจผลิตภัณฑ์และบริการของ Microsoft หรือไม่ ส่งข้อความถึงเราที่นี่

สำรวจเครื่องมือดิจิทัลของเรา

หากคุณสนใจในการนำระบบจัดการความรู้มาใช้ในองค์กรของคุณ ติดต่อ SeedKM เพื่อขอข้อมูลเพิ่มเติมเกี่ยวกับระบบจัดการความรู้ภายในองค์กร หรือสำรวจผลิตภัณฑ์อื่นๆ เช่น Jarviz สำหรับการบันทึกเวลาทำงานออนไลน์, OPTIMISTIC สำหรับการจัดการบุคลากร HRM-Payroll, Veracity สำหรับการเซ็นเอกสารดิจิทัล, และ CloudAccount สำหรับการบัญชีออนไลน์

อ่านบทความเพิ่มเติมเกี่ยวกับระบบจัดการความรู้และเครื่องมือการจัดการอื่นๆ ได้ที่ Fusionsol BlogIP Phone BlogChat Framework Blog, และ OpenAI Blog.

New Gemini Tools For Educators: Empowering Teaching with AI 

ถ้าอยากติดตามข่าวเทคโนโลยีและข่าว AI ที่กำลังเป็นกระแสทุกวัน ลองเข้าไปดูที่ เว็บไซต์นี้ มีอัปเดตใหม่ๆ ให้ตามทุกวันเลย!

Fusionsol Blog in Vietnamese

Related Articles

Frequently Asked Questions (FAQ)

Azure OCR เป็นบริการจาก Microsoft Azure ที่ใช้เทคโนโลยี AI เพื่อแปลงข้อความจากรูปภาพหรือเอกสารสแกน (เช่น JPG, PNG, PDF) ให้กลายเป็นข้อความดิจิทัลที่สามารถค้นหาและแก้ไขได้

Azure OCR รองรับหลายภาษา รวมถึงภาษาไทย อังกฤษ ญี่ปุ่น จีน ฝรั่งเศส และอีกมากกว่า 70 ภาษา ทำให้เหมาะกับการใช้งานในระดับสากล

ผู้ใช้งานสามารถเข้าถึงผ่าน Azure Cognitive Services โดยใช้ REST API, SDK หรือเชื่อมต่อผ่านเครื่องมืออย่าง Power Automate และ Logic Apps ได้อย่างสะดวก

  • การแปลงเอกสารกระดาษเป็นข้อมูลดิจิทัล
  • การสแกนใบแจ้งหนี้ ใบเสร็จ
  • การตรวจจับข้อความจากภาพถ่าย
  • การจัดทำคลังเอกสารให้สามารถค้นหาได้

ความแม่นยำของ Azure OCR อยู่ในระดับสูง โดยเฉพาะเมื่อใช้ร่วมกับเอกสารที่มีความชัดเจนและจัดรูปแบบดี เช่น เอกสารพิมพ์ด้วยเครื่องพิมพ์หรือฟอร์มมาตรฐาน

Facebook
X
LinkedIn

Popular Blog posts