Speech Recognition เทคโนโลยีการรู้จำเสียงพูด ที่ใช้คอมพิวเตอร์รับรู้เสียงของมนุษย์ และนำมาแปลงข้อมูลให้เป็นตัวอักษร

ความก้าวล้ำเทคโนโลยีได้พัฒนามาอย่างก้าวไกล ในปัจจุบันได้มีการใช้เสียงพูดให้เป็นตัวอักษรแทนการพิมได้ด้วย เรียกว่า Speech Recognition คือ ระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ ซึ่งประเภทของระบบรู้จำเสียงพูดสามารถแบ่งได้ เป็น 3 ประเภท ดังนี้
- เทคโนโลยีรู้จำเสียงพูดแบบคำโดด (Isolated speech) คือระบบที่รู้จำคำสั้นๆเพียงไม่กี่คำสั่ง เพื่อให้ระบบบสามารถตอบโต้ได้อย่างรวดเร็ว
- เทคโนโลยีรู้จำเสียงพูดแบบต่อเนื่อง (Continuous speech) คือระบบรู้จำคำจากเสียงอย่างต่อเนื่อง แล้วทำการพิจารณาตัดเสียงพูด
- เทคโนโลยีรู้จำที่จำเสียงเพียงบ้างส่วน (Spontaneous speech) คือระบบที่จดจำเสียงที่ตรวจหาคำสำคัญเพียงคำเดียวในประโยคเพื่อหาใจความสำคัญ
มีส่วนประกอบหลัก 5 ส่วน คือ
- ส่วนรับเสียง (Acoustic Front-end) เป็นส่วนที่ทำหน้าที่เกี่ยวกับการประมวลผลสัญญาณ (signal processing) และสกัดคุณลักษณะ (feature extraction)
- โมเดลเสียง (Acoustic Model) เป็นส่วนที่จัดเก็บความรู้สำหรับระบบรู้จำเสียงพูด
- โมเดลภาษา (Language Model) เป็นส่วนที่รวบรวมเงื่อนไขของลำดับคำในภาษา
- ตัวตรวจจับ (Decoder) เป็นส่วนที่ค้นหาความคล้ายของลำดับคำจากเสียงที่ได้รับ
- คลังศัพท์ (Lexicon) เป็นส่วนที่จัดเก็บคำศัพท์ทั้งหมด
ตัวอย่างเทคโนโลยีที่เกี่ยวข้อง เช่น การระบุตัวตนด้วยเสียง การคัดเลือกลักษณะเฉพาะที่เกิดจากตัวผู้พูดก็สามารถทำได้ทำให้จำแนกได้ว่าลักษณะเฉพาะของเสียงนี้ใกล้เคียงกับลักษณะเฉพาะของเสียงใคร การทำงานในลักษณะนี้ สามารถนำไปประยุกต์ใช้กับการระบุหรือยืนยันตัวตนด้วยเสียงพูดได้ ซึ่งเป็นอีกทางเลือกหนึ่งที่สามารถนำไปใช้ในระบบรักษาความปลอดภัยได้
ดูข้อมูลเพิ่มเติมได้ ที่นี่
ติดตามข้อมูลข่าวสารเพิ่มเติมได้ที่ TOMTECH