คำพูดเป็นข้อความ

คำพูดเป็นข้อความ

คำนิยาม

การแปลงคำพูดเป็นข้อความ (Speech-to-text: STT) คือกระบวนการแปลงภาษาพูดเป็นข้อความเขียนโดยอัตโนมัติโดยใช้โมเดล AI ซึ่งมีความเกี่ยวข้องอย่างใกล้ชิดกับ ASR

จุดมุ่งหมาย

จุดประสงค์คือเพื่อให้เนื้อหาที่พูดสามารถเข้าถึงและค้นหาได้ มีการใช้กันอย่างแพร่หลายในการถอดเสียง การเข้าถึง และผู้ช่วยดิจิทัล

ความสำคัญ

  • รองรับการเข้าถึงสำหรับผู้ใช้ที่มีความบกพร่องทางการได้ยิน
  • จัดทำบันทึกการประชุมและการบรรยาย
  • ความแม่นยำขึ้นอยู่กับสำเนียงและสภาวะเสียง
  • ใช้ในแอปพลิเคชั่นที่ควบคุมด้วยเสียงเกือบทั้งหมด

วิธีการทำงาน

  1. จับอินพุตเสียง
  2. ประมวลผลล่วงหน้าและทำให้สัญญาณเสียงเป็นปกติ
  3. ประยุกต์ใช้โมเดล ASR เพื่อจดจำคำศัพท์
  4. การถอดความข้อความเอาท์พุต
  5. ตรวจสอบหรือแก้ไขภายใต้การกำกับดูแลของมนุษย์หากจำเป็น

ตัวอย่าง (โลกแห่งความเป็นจริง)

  • API การแปลงคำพูดเป็นข้อความของ Google Cloud
  • บริการคำพูดของ Microsoft Azure
  • การถอดเสียงการประชุม Otter.ai

อ้างอิง/อ่านเพิ่มเติม

บอกเราว่าเราสามารถช่วยความคิดริเริ่มด้าน AI ครั้งต่อไปของคุณได้อย่างไร