Speech Recognition เทคโนโลยีรู้จำเสียงพูด

Speech Recognition เทคโนโลยีรู้จำเสียงพูด

Speech Recognition เทคโนโลยีการรู้จำเสียงพูด ที่ใช้คอมพิวเตอร์รับรู้เสียงของมนุษย์ และนำมาแปลงข้อมูลให้เป็นตัวอักษร

Smiling freelance worker communicating over mobile phone’s speaker while reading reports on a computer in the office.

ความก้าวล้ำเทคโนโลยีได้พัฒนามาอย่างก้าวไกล ในปัจจุบันได้มีการใช้เสียงพูดให้เป็นตัวอักษรแทนการพิมได้ด้วย เรียกว่า Speech Recognition คือ ระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ ซึ่งประเภทของระบบรู้จำเสียงพูดสามารถแบ่งได้ เป็น 3 ประเภท ดังนี้

  1. เทคโนโลยีรู้จำเสียงพูดแบบคำโดด (Isolated speech) คือระบบที่รู้จำคำสั้นๆเพียงไม่กี่คำสั่ง เพื่อให้ระบบบสามารถตอบโต้ได้อย่างรวดเร็ว
  2. เทคโนโลยีรู้จำเสียงพูดแบบต่อเนื่อง (Continuous speech) คือระบบรู้จำคำจากเสียงอย่างต่อเนื่อง แล้วทำการพิจารณาตัดเสียงพูด
  3. เทคโนโลยีรู้จำที่จำเสียงเพียงบ้างส่วน (Spontaneous speech) คือระบบที่จดจำเสียงที่ตรวจหาคำสำคัญเพียงคำเดียวในประโยคเพื่อหาใจความสำคัญ

มีส่วนประกอบหลัก 5 ส่วน คือ

  • ส่วนรับเสียง (Acoustic Front-end) เป็นส่วนที่ทำหน้าที่เกี่ยวกับการประมวลผลสัญญาณ (signal processing) และสกัดคุณลักษณะ (feature extraction)
  • โมเดลเสียง (Acoustic Model) เป็นส่วนที่จัดเก็บความรู้สำหรับระบบรู้จำเสียงพูด
  • โมเดลภาษา (Language Model) เป็นส่วนที่รวบรวมเงื่อนไขของลำดับคำในภาษา
  • ตัวตรวจจับ (Decoder) เป็นส่วนที่ค้นหาความคล้ายของลำดับคำจากเสียงที่ได้รับ
  • คลังศัพท์ (Lexicon) เป็นส่วนที่จัดเก็บคำศัพท์ทั้งหมด

ตัวอย่างเทคโนโลยีที่เกี่ยวข้อง เช่น การระบุตัวตนด้วยเสียง การคัดเลือกลักษณะเฉพาะที่เกิดจากตัวผู้พูดก็สามารถทำได้ทำให้จำแนกได้ว่าลักษณะเฉพาะของเสียงนี้ใกล้เคียงกับลักษณะเฉพาะของเสียงใคร การทำงานในลักษณะนี้ สามารถนำไปประยุกต์ใช้กับการระบุหรือยืนยันตัวตนด้วยเสียงพูดได้ ซึ่งเป็นอีกทางเลือกหนึ่งที่สามารถนำไปใช้ในระบบรักษาความปลอดภัยได้

ดูข้อมูลเพิ่มเติมได้ ที่นี่

ติดตามข้อมูลข่าวสารเพิ่มเติมได้ที่ TOMTECH