กรณีศึกษา: AI สนทนา

กว่า 3 ชั่วโมงของข้อมูลที่รวบรวม แบ่งกลุ่ม และถอดความเพื่อสร้าง ASR ในภาษาอินเดีย 8 ภาษา

การรวบรวมคำพูด
รัฐบาลมีเป้าหมายเพื่อให้ประชาชนสามารถเข้าถึงบริการอินเทอร์เน็ตและดิจิทัลในภาษาของตนเองผ่านโครงการ Bhashini

BHASHINI ซึ่งเป็นแพลตฟอร์มการแปลภาษาที่ขับเคลื่อนด้วย AI ของอินเดีย เป็นส่วนสำคัญของโครงการ Digital India

ออกแบบมาเพื่อให้บริการเครื่องมือปัญญาประดิษฐ์ (AI) และการประมวลผลภาษาธรรมชาติ (NLP) แก่ MSMEs สตาร์ทอัพ และนักประดิษฐ์อิสระ แพลตฟอร์ม Bhashini ทำหน้าที่เป็นแหล่งข้อมูลสาธารณะ เป้าหมายคือการส่งเสริมการมีส่วนร่วมทางดิจิทัลโดยทำให้ชาวอินเดียสามารถโต้ตอบกับความคิดริเริ่มด้านดิจิทัลของประเทศในภาษาของตนได้

นอกจากนี้ยังมีเป้าหมายที่จะขยายการให้บริการเนื้อหาทางอินเทอร์เน็ตในภาษาอินเดียอย่างมีนัยสำคัญ สิ่งนี้มีเป้าหมายโดยเฉพาะอย่างยิ่งในด้านที่เป็นสาธารณประโยชน์ เช่น การกำกับดูแลและนโยบาย วิทยาศาสตร์และเทคโนโลยี เป็นต้น ด้วยเหตุนี้ สิ่งนี้จะจูงใจให้พลเมืองใช้อินเทอร์เน็ตในภาษาของตนเอง ส่งเสริมการมีส่วนร่วมอย่างแข็งขัน

ใช้ประโยชน์จาก NLP เพื่อเปิดใช้งานระบบนิเวศที่หลากหลายของผู้ร่วมให้ข้อมูล หน่วยงานพันธมิตร และพลเมือง เพื่อจุดประสงค์ในการก้าวข้ามอุปสรรคด้านภาษา จึงรับประกันการรวมดิจิทัลและการเสริมอำนาจ

โซลูชั่นโลกแห่งความจริง

ปลดปล่อยพลังของการแปลเป็นภาษาท้องถิ่นด้วยข้อมูล

อินเดียต้องการแพลตฟอร์มที่มุ่งเน้นการสร้างชุดข้อมูลหลายภาษาและโซลูชันเทคโนโลยีภาษาที่ใช้ AI เพื่อให้บริการดิจิทัลในภาษาอินเดีย ในการเปิดตัวความคิดริเริ่มนี้ สถาบันเทคโนโลยีแห่งอินเดีย Madras (IIT Madras) ได้ร่วมมือกับ Shaip เพื่อรวบรวม แบ่งกลุ่ม และคัดลอกชุดข้อมูลภาษาอินเดียเพื่อสร้างแบบจำลองคำพูดหลายภาษา

ความท้าทาย

เพื่อช่วยเหลือลูกค้าด้วยแผนงานเทคโนโลยีการพูดสำหรับภาษาอินเดีย ทีมงานจำเป็นต้องได้รับ จัดกลุ่ม และคัดลอกข้อมูลการฝึกอบรมจำนวนมากเพื่อสร้างโมเดล AI ข้อกำหนดที่สำคัญของลูกค้าคือ:

การเก็บรวบรวมข้อมูล

  • รับข้อมูลการฝึกอบรม 3000 ชั่วโมงในภาษาอินเดีย 8 ภาษาพร้อมภาษาถิ่น 4 ภาษาต่อภาษา
  • สำหรับแต่ละภาษา ซัพพลายเออร์จะรวบรวม Extempore Speech และ
    บทสนทนาจากกลุ่มอายุ 18-60 ปี
  • ตรวจสอบให้แน่ใจว่ามีผู้พูดที่หลากหลายตามอายุ เพศ การศึกษา และภาษาถิ่น
  • ตรวจสอบให้แน่ใจว่ามีสภาพแวดล้อมการบันทึกที่หลากหลายตามข้อกำหนด
  • การบันทึกเสียงแต่ละรายการต้องมีอย่างน้อย 16kHz แต่ควรเป็น 44kHz

การแบ่งส่วนข้อมูล

  • สร้างช่วงคำพูด 15 วินาทีและประทับเวลาเสียงเป็นมิลลิวินาทีสำหรับผู้พูดแต่ละคน ประเภทของเสียง (คำพูด พูดพล่าม ดนตรี เสียงรบกวน) การเลี้ยว การเปล่งเสียง และวลีในการสนทนา
  • สร้างแต่ละเซ็กเมนต์สำหรับสัญญาณเสียงเป้าหมายด้วยการเว้นระยะ 200-400 มิลลิวินาทีที่จุดเริ่มต้นและจุดสิ้นสุด
  • สำหรับทุกเซกเมนต์ ต้องใส่ออบเจกต์ต่อไปนี้ เช่น เวลาเริ่มต้น เวลาสิ้นสุด รหัสเซ็กเมนต์ ระดับความดัง ประเภทเสียง รหัสภาษา รหัสลำโพง ฯลฯ

การถอดความข้อมูล

  • ปฏิบัติตามหลักเกณฑ์การถอดความโดยละเอียดเกี่ยวกับอักขระและสัญลักษณ์พิเศษ การสะกดและไวยากรณ์ การใช้อักษรตัวพิมพ์ใหญ่ การย่อ การย่อ อักษรที่พูดแต่ละคำ ตัวเลข เครื่องหมายวรรคตอน คำย่อ คำหยาบคาย คำพูด คำพูดที่อ่านไม่ออก ภาษาที่ไม่ใช่เป้าหมาย ไม่ใช่คำพูด ฯลฯ

การตรวจสอบคุณภาพและข้อเสนอแนะ

  • การบันทึกทั้งหมดต้องผ่านการประเมินคุณภาพและการตรวจสอบ เฉพาะคำพูดที่ผ่านการตรวจสอบแล้วเท่านั้นที่จะถูกส่ง

Solution

ด้วยความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI เชิงสนทนา เราจึงช่วยลูกค้ารวบรวม แบ่งกลุ่ม และถอดความข้อมูลด้วยทีมนักรวบรวมผู้เชี่ยวชาญ นักภาษาศาสตร์ และผู้อธิบายประกอบ เพื่อสร้างชุดข้อมูลเสียงขนาดใหญ่ใน 8 ภาษาอินเดีย

ขอบเขตของงานสำหรับ Shaip รวมถึงแต่ไม่จำกัดเพียงการรับข้อมูลการฝึกอบรมด้านเสียงจำนวนมาก การแบ่งกลุ่มการบันทึกเสียงเป็นหลายรายการ การถอดความข้อมูลและการส่งมอบไฟล์ JSON ที่สอดคล้องกันซึ่งมีข้อมูลเมตา [SpeakerID, Age, Gender, Language, Dialect,
ภาษาแม่, คุณสมบัติ, อาชีพ, โดเมน, รูปแบบไฟล์, ความถี่, ช่อง, ประเภทของเสียง, จำนวนลำโพง, จำนวนภาษาต่างประเทศ, การตั้งค่าที่ใช้, เสียงแถบแคบหรือแถบกว้าง ฯลฯ] 

Shaip รวบรวมข้อมูลเสียง 3000 ชั่วโมงในปริมาณมาก ในขณะที่รักษาระดับคุณภาพที่ต้องการซึ่งจำเป็นสำหรับการฝึกอบรมเทคโนโลยีเสียงพูดสำหรับโครงการที่ซับซ้อน แบบฟอร์มความยินยอมที่ชัดเจนถูกนำมาจากผู้เข้าร่วมแต่ละคน

1 การเก็บรวบรวมข้อมูล

2. การแบ่งส่วนข้อมูล

  • ข้อมูลเสียงที่รวบรวมได้แยกออกเป็นสองส่วนของเสียงพูด 15 วินาทีต่อส่วน และประทับเวลาเป็นมิลลิวินาทีสำหรับผู้พูดแต่ละราย ประเภทของเสียง การเลี้ยว การเปล่งเสียง และวลีในการสนทนา
  • สร้างแต่ละเซ็กเมนต์สำหรับสัญญาณเสียงเป้าหมายโดยเว้นระยะ 200-400 มิลลิวินาทีที่จุดเริ่มต้นและจุดสิ้นสุดของสัญญาณเสียง
  • สำหรับทุกเซ็กเมนต์ วัตถุต่อไปนี้มีอยู่และเติมเต็ม เช่น เวลาเริ่มต้น เวลาสิ้นสุด รหัสเซ็กเมนต์ ระดับความดัง (ดัง ปกติ เงียบ) ประเภทเสียงหลัก (เสียงพูด พูดพล่าม ดนตรี เสียงรบกวน เสียงซ้อนทับ) รหัสภาษาของผู้พูด ID การถอดความ ฯลฯ

3. การตรวจสอบคุณภาพและข้อเสนอแนะ

  • การบันทึกทั้งหมดได้รับการประเมินคุณภาพและมีเพียงการบันทึกเสียงพูดที่ผ่านการตรวจสอบด้วย WER 90% และ TER 90% เท่านั้น
  • รายการตรวจสอบคุณภาพตาม:
       » ความยาวเซกเมนต์สูงสุด 15 วินาที
       » ถอดความจากโดเมนเฉพาะ ได้แก่ สภาพอากาศ ข่าวประเภทต่างๆ สุขภาพ การเกษตร การศึกษา งาน หรือการเงิน
       » เสียงพื้นหลังต่ำ
       » ไม่มีการปิดคลิปเสียง – ไม่มีการบิดเบือน
       » แก้ไขการแบ่งส่วนเสียงสำหรับการถอดความ

4. การถอดความข้อมูล
คำพูดทั้งหมด รวมถึงความลังเลใจ คำเติม การเริ่มผิด และวาจาสำบัดสำนวนอื่น ๆ ถูกบันทึกอย่างแม่นยำในการถอดความ นอกจากนี้ เรายังปฏิบัติตามหลักเกณฑ์การถอดความโดยละเอียดเกี่ยวกับอักษรตัวพิมพ์ใหญ่และตัวพิมพ์เล็ก การสะกดคำ การใช้อักษรตัวพิมพ์ใหญ่ การย่อ การย่อ ตัวเลข
เครื่องหมายวรรคตอน คำย่อ คำพูดไม่สุภาพ เสียงที่ไม่ใช่คำพูด เป็นต้น นอกจากนี้ เวิร์กโฟลว์ที่ตามมาสำหรับการรวบรวมและการถอดเสียงมีดังต่อไปนี้:

ผล

ข้อมูลเสียงคุณภาพสูงจากนักภาษาศาสตร์ผู้เชี่ยวชาญจะช่วยให้ Indian Institute of Technology – Madras สามารถฝึกฝนและสร้างแบบจำลองการรู้จำเสียงหลายภาษาในภาษาอินเดีย 8 ภาษาที่มีภาษาถิ่นต่างกันในเวลาที่กำหนดได้อย่างแม่นยำ สามารถใช้แบบจำลองการรู้จำเสียงเพื่อ:

  • เอาชนะอุปสรรคด้านภาษาเพื่อการเข้าถึงดิจิทัลโดยเชื่อมโยงพลเมืองเข้ากับความคิดริเริ่มในภาษาแม่ของพวกเขาเอง
  • ส่งเสริมธรรมาภิบาลดิจิทัล
  • ตัวเร่งในการสร้างระบบนิเวศสำหรับบริการและผลิตภัณฑ์ในภาษาอินเดีย
  • เนื้อหาดิจิทัลที่แปลเป็นภาษาท้องถิ่นมากขึ้นในโดเมนที่เป็นสาธารณประโยชน์ โดยเฉพาะอย่างยิ่ง การกำกับดูแลและนโยบาย
โกลเด้น-5 ดาว

เราประทับใจกับความเชี่ยวชาญของ Shaip ในพื้นที่ AI สำหรับการสนทนา ความสามารถในการดำเนินโครงการโดยรวมตั้งแต่การจัดหา การแบ่งกลุ่ม ถอดความ และส่งมอบข้อมูลการฝึกอบรมที่จำเป็นจากนักภาษาศาสตร์ผู้เชี่ยวชาญใน 8 ภาษาภายในระยะเวลาและหลักเกณฑ์ที่เข้มงวด โดยยังคงคุณภาพมาตรฐานเป็นที่ยอมรับ”

เร่งความเร็ว AI การสนทนาของคุณ
การพัฒนาแอปพลิเคชันโดย 100%

ลูกค้าที่แนะนำ

มอบอำนาจให้ทีมสร้างผลิตภัณฑ์ AI ชั้นนำระดับโลก