กรณีศึกษา: AI สนทนา
กว่า 3 ชั่วโมงของข้อมูลที่รวบรวม แบ่งกลุ่ม และถอดความเพื่อสร้าง ASR ในภาษาอินเดีย 8 ภาษา
BHASHINI ซึ่งเป็นแพลตฟอร์มการแปลภาษาที่ขับเคลื่อนด้วย AI ของอินเดีย เป็นส่วนสำคัญของโครงการ Digital India
ออกแบบมาเพื่อให้บริการเครื่องมือปัญญาประดิษฐ์ (AI) และการประมวลผลภาษาธรรมชาติ (NLP) แก่ MSMEs สตาร์ทอัพ และนักประดิษฐ์อิสระ แพลตฟอร์ม Bhashini ทำหน้าที่เป็นแหล่งข้อมูลสาธารณะ เป้าหมายคือการส่งเสริมการมีส่วนร่วมทางดิจิทัลโดยทำให้ชาวอินเดียสามารถโต้ตอบกับความคิดริเริ่มด้านดิจิทัลของประเทศในภาษาของตนได้
นอกจากนี้ยังมีเป้าหมายที่จะขยายการให้บริการเนื้อหาทางอินเทอร์เน็ตในภาษาอินเดียอย่างมีนัยสำคัญ สิ่งนี้มีเป้าหมายโดยเฉพาะอย่างยิ่งในด้านที่เป็นสาธารณประโยชน์ เช่น การกำกับดูแลและนโยบาย วิทยาศาสตร์และเทคโนโลยี เป็นต้น ด้วยเหตุนี้ สิ่งนี้จะจูงใจให้พลเมืองใช้อินเทอร์เน็ตในภาษาของตนเอง ส่งเสริมการมีส่วนร่วมอย่างแข็งขัน
ใช้ประโยชน์จาก NLP เพื่อเปิดใช้งานระบบนิเวศที่หลากหลายของผู้ร่วมให้ข้อมูล หน่วยงานพันธมิตร และพลเมือง เพื่อจุดประสงค์ในการก้าวข้ามอุปสรรคด้านภาษา จึงรับประกันการรวมดิจิทัลและการเสริมอำนาจ
โซลูชั่นโลกแห่งความจริง
ปลดปล่อยพลังของการแปลเป็นภาษาท้องถิ่นด้วยข้อมูล
อินเดียต้องการแพลตฟอร์มที่มุ่งเน้นการสร้างชุดข้อมูลหลายภาษาและโซลูชันเทคโนโลยีภาษาที่ใช้ AI เพื่อให้บริการดิจิทัลในภาษาอินเดีย ในการเปิดตัวความคิดริเริ่มนี้ สถาบันเทคโนโลยีแห่งอินเดีย Madras (IIT Madras) ได้ร่วมมือกับ Shaip เพื่อรวบรวม แบ่งกลุ่ม และคัดลอกชุดข้อมูลภาษาอินเดียเพื่อสร้างแบบจำลองคำพูดหลายภาษา
ความท้าทาย
เพื่อช่วยเหลือลูกค้าด้วยแผนงานเทคโนโลยีการพูดสำหรับภาษาอินเดีย ทีมงานจำเป็นต้องได้รับ จัดกลุ่ม และคัดลอกข้อมูลการฝึกอบรมจำนวนมากเพื่อสร้างโมเดล AI ข้อกำหนดที่สำคัญของลูกค้าคือ:
การเก็บรวบรวมข้อมูล
- รับข้อมูลการฝึกอบรม 3000 ชั่วโมงในภาษาอินเดีย 8 ภาษาพร้อมภาษาถิ่น 4 ภาษาต่อภาษา
- สำหรับแต่ละภาษา ซัพพลายเออร์จะรวบรวม Extempore Speech และ
บทสนทนาจากกลุ่มอายุ 18-60 ปี - ตรวจสอบให้แน่ใจว่ามีผู้พูดที่หลากหลายตามอายุ เพศ การศึกษา และภาษาถิ่น
- ตรวจสอบให้แน่ใจว่ามีสภาพแวดล้อมการบันทึกที่หลากหลายตามข้อกำหนด
- การบันทึกเสียงแต่ละรายการต้องมีอย่างน้อย 16kHz แต่ควรเป็น 44kHz
การแบ่งส่วนข้อมูล
- สร้างช่วงคำพูด 15 วินาทีและประทับเวลาเสียงเป็นมิลลิวินาทีสำหรับผู้พูดแต่ละคน ประเภทของเสียง (คำพูด พูดพล่าม ดนตรี เสียงรบกวน) การเลี้ยว การเปล่งเสียง และวลีในการสนทนา
- สร้างแต่ละเซ็กเมนต์สำหรับสัญญาณเสียงเป้าหมายด้วยการเว้นระยะ 200-400 มิลลิวินาทีที่จุดเริ่มต้นและจุดสิ้นสุด
- สำหรับทุกเซกเมนต์ ต้องใส่ออบเจกต์ต่อไปนี้ เช่น เวลาเริ่มต้น เวลาสิ้นสุด รหัสเซ็กเมนต์ ระดับความดัง ประเภทเสียง รหัสภาษา รหัสลำโพง ฯลฯ
การถอดความข้อมูล
- ปฏิบัติตามหลักเกณฑ์การถอดความโดยละเอียดเกี่ยวกับอักขระและสัญลักษณ์พิเศษ การสะกดและไวยากรณ์ การใช้อักษรตัวพิมพ์ใหญ่ การย่อ การย่อ อักษรที่พูดแต่ละคำ ตัวเลข เครื่องหมายวรรคตอน คำย่อ คำหยาบคาย คำพูด คำพูดที่อ่านไม่ออก ภาษาที่ไม่ใช่เป้าหมาย ไม่ใช่คำพูด ฯลฯ
การตรวจสอบคุณภาพและข้อเสนอแนะ
- การบันทึกทั้งหมดต้องผ่านการประเมินคุณภาพและการตรวจสอบ เฉพาะคำพูดที่ผ่านการตรวจสอบแล้วเท่านั้นที่จะถูกส่ง
Solution
ด้วยความเข้าใจอย่างลึกซึ้งเกี่ยวกับ AI เชิงสนทนา เราจึงช่วยลูกค้ารวบรวม แบ่งกลุ่ม และถอดความข้อมูลด้วยทีมนักรวบรวมผู้เชี่ยวชาญ นักภาษาศาสตร์ และผู้อธิบายประกอบ เพื่อสร้างชุดข้อมูลเสียงขนาดใหญ่ใน 8 ภาษาอินเดีย
ขอบเขตของงานสำหรับ Shaip รวมถึงแต่ไม่จำกัดเพียงการรับข้อมูลการฝึกอบรมด้านเสียงจำนวนมาก การแบ่งกลุ่มการบันทึกเสียงเป็นหลายรายการ การถอดความข้อมูลและการส่งมอบไฟล์ JSON ที่สอดคล้องกันซึ่งมีข้อมูลเมตา [SpeakerID, Age, Gender, Language, Dialect,
ภาษาแม่, คุณสมบัติ, อาชีพ, โดเมน, รูปแบบไฟล์, ความถี่, ช่อง, ประเภทของเสียง, จำนวนลำโพง, จำนวนภาษาต่างประเทศ, การตั้งค่าที่ใช้, เสียงแถบแคบหรือแถบกว้าง ฯลฯ]
Shaip รวบรวมข้อมูลเสียง 3000 ชั่วโมงในปริมาณมาก ในขณะที่รักษาระดับคุณภาพที่ต้องการซึ่งจำเป็นสำหรับการฝึกอบรมเทคโนโลยีเสียงพูดสำหรับโครงการที่ซับซ้อน แบบฟอร์มความยินยอมที่ชัดเจนถูกนำมาจากผู้เข้าร่วมแต่ละคน
1 การเก็บรวบรวมข้อมูล