AI การสนทนา: การรู้จำเสียงอัตโนมัติ
รวบรวมชั่วโมงเสียงมากกว่า 8 ชั่วโมง ถอดเสียง 800 ชั่วโมงสำหรับเทคโนโลยีเสียงหลายภาษา
บทนำ
อินเดียต้องการแพลตฟอร์มที่มุ่งเน้นการสร้างชุดข้อมูลหลายภาษาและโซลูชันเทคโนโลยีภาษาที่ใช้ AI เพื่อให้บริการดิจิทัลในภาษาอินเดีย ในการเปิดตัวโครงการริเริ่มนี้ ลูกค้าได้ร่วมมือกับ Shaip เพื่อรวบรวมและถอดเสียงภาษาอินเดียเพื่อสร้างโมเดลคำพูดหลายภาษา
ปริมาณ
ความท้าทาย
เพื่อช่วยเหลือลูกค้าในแผนงานด้านเทคโนโลยีคำพูดสำหรับภาษาอินเดีย ทีมงานจำเป็นต้องรับ แบ่งกลุ่ม และถอดเสียงข้อมูลการฝึกอบรมจำนวนมากเพื่อสร้างโมเดล AI ข้อกำหนดที่สำคัญของลูกค้าคือ:
การเก็บรวบรวมข้อมูล
- รับข้อมูลการฝึกอบรม 8000 ชั่วโมงจากสถานที่ห่างไกลของอินเดีย
- ซัพพลายเออร์จะรวบรวมคำพูดที่เกิดขึ้นจากกลุ่มอายุ 20-70 ปี
- ตรวจสอบให้แน่ใจว่าวิทยากรมีความหลากหลายตามอายุ เพศ การศึกษา และภาษาถิ่น
- การบันทึกเสียงแต่ละครั้งจะต้องมีอย่างน้อย 16kHz พร้อม 16 บิต/ตัวอย่าง
การถอดความข้อมูล
ปฏิบัติตามแนวทางการถอดความโดยละเอียดเกี่ยวกับอักขระและสัญลักษณ์พิเศษ การสะกดและไวยากรณ์ การใช้อักษรตัวพิมพ์ใหญ่ ตัวย่อ การย่อ ตัวอักษรที่พูดส่วนบุคคล ตัวเลข เครื่องหมายวรรคตอน ตัวย่อและอักษรย่อ คำพูดที่ไม่ชัดเจน คำพูดที่ไม่สามารถเข้าใจได้ ภาษาที่ไม่ใช่เป้าหมาย ภาษาที่ไม่ใช่คำพูด
การตรวจสอบคุณภาพและข้อเสนอแนะ
การบันทึกทั้งหมดต้องได้รับการประเมินและการตรวจสอบคุณภาพ มีเพียงการบันทึกเสียงคำพูดที่ผ่านการตรวจสอบแล้วเท่านั้นที่จะจัดส่ง
Solution
ด้วยความเข้าใจอย่างลึกซึ้งเกี่ยวกับการสนทนา AI เราได้ช่วยลูกค้ารวบรวม ถอดเสียงข้อมูลเสียงด้วยทีมผู้เชี่ยวชาญนักสะสม นักภาษาศาสตร์ และนักอธิบายประกอบ เพื่อสร้างคลังข้อมูลเสียงขนาดใหญ่จากพื้นที่ห่างไกลของอินเดีย
ขอบเขตของงานสำหรับ Shaip นั้นรวมอยู่ด้วยแต่ไม่จำกัดเพียงการรับข้อมูลการฝึกอบรมด้านเสียงจำนวนมาก การถอดเสียงข้อมูล และการส่งไฟล์ JSON ที่เกี่ยวข้องซึ่งมีข้อมูลเมตา [สำหรับทั้งผู้พูดและผู้ถอดเสียง สำหรับผู้พูดแต่ละคน ข้อมูลเมตาประกอบด้วย ID ผู้พูดที่ไม่ระบุชื่อ รายละเอียดอุปกรณ์ ข้อมูลประชากร เช่น เพศ อายุ และการศึกษา พร้อมด้วยรหัส PIN สถานะทางเศรษฐกิจและสังคม ภาษาที่พูด และบันทึกระยะเวลาการเข้าพักตลอดชีวิต สำหรับผู้ถอดเสียงทุกคน ข้อมูลจะรวมรหัสผู้ถอดเสียงที่ไม่ระบุตัวตน รายละเอียดทางประชากรศาสตร์ที่คล้ายกับของผู้พูด ระยะเวลาประสบการณ์การถอดเสียง และรายละเอียดภาษาที่พวกเขาสามารถอ่าน เขียน และพูดได้อย่างละเอียด
Shaip รวบรวม 8000 จำนวนชั่วโมงของข้อมูลเสียง / คำพูดที่เกิดขึ้นเองตามขนาดและถอดเสียง 800 ชั่วโมง ในขณะที่ยังคงรักษาระดับคุณภาพที่ต้องการซึ่งจำเป็นในการฝึกเทคโนโลยีเสียงพูดสำหรับโครงการที่ซับซ้อน แบบฟอร์มยินยอมที่ชัดเจนถูกนำมาจากผู้เข้าร่วมแต่ละคน คำพูด / คำพูดที่เกิดขึ้นเองที่รวบรวมมาจากภาพที่มหาวิทยาลัยจัดเตรียมไว้ให้ ของ 3500 ภาพ 1000 เป็นแบบทั่วไปและ 2500 เกี่ยวข้องกับวัฒนธรรม เทศกาล ฯลฯ เฉพาะเขต รูปภาพแสดงถึงโดเมนต่างๆ เช่น สถานีรถไฟ ตลาด สภาพอากาศ และอื่นๆ
การเก็บรวบรวมข้อมูล
สถานะ | หัวเมือง | ชั่วโมงเสียง | การถอดความ (ชม.) |
มคธ | ซารัน, จำปารันตะวันออก, โกปัลคัญ, สิตามาร์ฮี, ซามาสตีปูร์, ดาร์บันกา, มาเทปุระ, ภากัลปูร์, คยา, กิชันคันจ์, ไวชาลี, ลคิซาราย, ซาฮาร์ซา, สุพอล, อาเรีย, เบกูซาไร, ชะฮานาบัด, ปูร์เนีย, มูซาฟลาร์ปูร์, จามุย | 2000 | 200 |
อุตตรประเทศ | Deoria, พาราณสี, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun | 1000 | 100 |
ราชสถาน | นากูร์, ชูรู | 200 | 20 |
ตราขั ณ ฑ์ | เตห์รี การห์วาล, อุตตระกาชิ | 200 | 20 |
สครห์ | พิลาสปูร์, รายครห์, คาเบิร์ดดัม, ซาร์กูจา, คอร์บา, จัชปูร์, ราชนันด์กาออน, บัลรัมปูร์, บาสตาร์, ซุกมา | 1000 | 100 |
เวสต์เบงกอล | Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur | 800 | 80 |
Jharkhand | สาเฮบคันช์, จัมทารา | 200 | 20 |
AP | กุนตูร์, จิตตูร์, วิสาขปัตนัม, กฤษณะ, อนันตปุระ, ศรีกากุลัม | 600 | 60 |
พรรคเตลัง | คาริมนาการ์, นัลกอนดา | 200 | 20 |
กัว | กัวเหนือ+ใต้ | 100 | 10 |
กรรณาฏัก | Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar | 1000 | 100 |
มหาราษฏ | Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, โซลาปูร์ | 700 | 70 |
รวม | 8000 | 800 |
General Guidelines
รูปแบบ
- เสียงที่ 16 kHz, 16 บิต/ตัวอย่าง
- ช่องเดียว.
- เสียงดิบโดยไม่ต้องแปลงรหัส
สไตล์
- คำพูดที่เกิดขึ้นเอง
- ประโยคตามภาพที่มหาวิทยาลัยจัดให้ จากทั้งหมด 3500 ภาพ มี 1000 ภาพเป็นภาพทั่วไป และ 2500 ภาพเกี่ยวข้องกับวัฒนธรรม เทศกาล ฯลฯ เฉพาะเขต รูปภาพแสดงถึงโดเมนต่างๆ เช่น สถานีรถไฟ ตลาด สภาพอากาศ และอื่นๆ
พื้นหลังการบันทึก
- บันทึกในสภาพแวดล้อมที่เงียบและปราศจากเสียงสะท้อน
- ไม่มีการรบกวนสมาร์ทโฟน (การสั่นหรือการแจ้งเตือน) ระหว่างการบันทึก
- ไม่มีการบิดเบือน เช่น การตัดภาพหรือเอฟเฟ็กต์จากระยะไกล
- การสั่นสะเทือนจากโทรศัพท์ไม่สามารถยอมรับได้ การสั่นสะเทือนภายนอกสามารถทนได้หากเสียงชัดเจน
รายละเอียดลำโพง
- อายุตั้งแต่ 20-70 ปี มีการกระจายเพศอย่างสมดุลตามเขต
- เจ้าของภาษาอย่างน้อย 400 คนในแต่ละเขต
- ผู้พูดควรใช้ภาษา/ภาษาถิ่นของตน
- แบบฟอร์มยินยอมที่จำเป็นสำหรับผู้เข้าร่วมทุกคน
การตรวจสอบคุณภาพและการประกันคุณภาพที่สำคัญ
กระบวนการประกันคุณภาพให้ความสำคัญกับการประกันคุณภาพสำหรับการบันทึกเสียงและการถอดเสียง มาตรฐานเสียงมุ่งเน้นไปที่ความเงียบที่แม่นยำ ระยะเวลาของเซ็กเมนต์ ความชัดเจนของผู้พูดคนเดียว และข้อมูลเมตาโดยละเอียด รวมถึงอายุและสถานะทางเศรษฐกิจและสังคม เกณฑ์การถอดเสียงจะเน้นความถูกต้องของแท็ก ความถูกต้องของคำ และรายละเอียดส่วนที่ถูกต้อง เกณฑ์มาตรฐานการยอมรับกำหนดว่าหากชุดเสียงมากกว่า 20% ไม่ผ่านมาตรฐานเหล่านี้ ก็จะถูกปฏิเสธ สำหรับความคลาดเคลื่อนน้อยกว่า 20% จำเป็นต้องมีการบันทึกทดแทนที่มีโปรไฟล์คล้ายกัน
การถอดความข้อมูล
แนวทางการถอดเสียงจะเน้นความถูกต้องและการถอดเสียงแบบคำต่อคำเฉพาะเมื่อคำมีความชัดเจนและเข้าใจได้เท่านั้น คำที่ไม่ชัดเจนจะถูกทำเครื่องหมายว่า [ไม่เข้าใจ] หรือ [ไม่ได้ยิน] ขึ้นอยู่กับปัญหา ขอบเขตประโยคในเสียงยาวจะถูกทำเครื่องหมายด้วย และไม่อนุญาตให้ถอดความหรือแก้ไขข้อผิดพลาดทางไวยากรณ์ การถอดเสียงคำต่อคำครอบคลุมถึงข้อผิดพลาด คำสแลง และการกล่าวซ้ำๆ แต่ละเว้นการขึ้นต้นที่ผิดพลาด เสียงที่เติมเข้าไป และการพูดติดอ่าง เสียงพื้นหลังและเบื้องหน้าจะถูกถอดเสียงด้วยแท็กคำอธิบาย ในขณะที่ชื่อ ชื่อ และหมายเลขที่ถูกต้องจะเป็นไปตามกฎการถอดเสียงเฉพาะ ทุกๆ ประโยคจะใช้ป้ายกำกับของผู้พูด และระบุประโยคที่ไม่สมบูรณ์ด้วย
เวิร์กโฟลว์โครงการ
เวิร์กโฟลว์จะอธิบายกระบวนการถอดเสียง เริ่มต้นด้วยการปฐมนิเทศและการฝึกอบรมผู้เข้าร่วม พวกเขาบันทึกเสียงโดยใช้แอปซึ่งอัปโหลดไปยังแพลตฟอร์ม QA เสียงนี้ผ่านการตรวจสอบคุณภาพและการแบ่งส่วนอัตโนมัติ จากนั้นทีมเทคโนโลยีจะเตรียมส่วนต่างๆ สำหรับการถอดเสียง หลังจากการถอดเสียงด้วยตนเอง จะมีขั้นตอนการประกันคุณภาพ การถอดเสียงเป็นคำจะถูกส่งให้กับลูกค้า และหากได้รับการยอมรับ จะถือว่าการนำส่งเสร็จสมบูรณ์ ถ้าไม่เช่นนั้น จะทำการแก้ไขตามคำติชมของลูกค้า
ผล
ข้อมูลเสียงคุณภาพสูงจากนักภาษาศาสตร์ผู้เชี่ยวชาญจะช่วยให้ลูกค้าของเราฝึกฝนและสร้างโมเดลการรู้จำคำพูดหลายภาษาได้อย่างแม่นยำในภาษาอินเดียต่างๆ ด้วยภาษาถิ่นที่แตกต่างกันในเวลาที่กำหนด โมเดลการรู้จำเสียงสามารถใช้เพื่อ:
- เอาชนะอุปสรรคด้านภาษาเพื่อการเข้าถึงดิจิทัลโดยเชื่อมโยงพลเมืองเข้ากับความคิดริเริ่มในภาษาแม่ของพวกเขาเอง
- ส่งเสริมธรรมาภิบาลดิจิทัล
- ตัวเร่งในการสร้างระบบนิเวศสำหรับบริการและผลิตภัณฑ์ในภาษาอินเดีย
- เนื้อหาดิจิทัลที่แปลเป็นภาษาท้องถิ่นมากขึ้นในโดเมนที่เป็นสาธารณประโยชน์ โดยเฉพาะอย่างยิ่ง การกำกับดูแลและนโยบาย
เรารู้สึกทึ่งในความเชี่ยวชาญของ Shaip ในขอบเขต AI การสนทนา งานในการจัดการข้อมูลเสียง 8000 ชั่วโมงพร้อมกับการถอดเสียง 800 ชั่วโมงใน 80 เขตที่มีความหลากหลายถือเป็นเรื่องที่ยิ่งใหญ่มาก Shaip มีความเข้าใจอย่างลึกซึ้งเกี่ยวกับรายละเอียดที่ซับซ้อนและความแตกต่างเล็กๆ น้อยๆ ของขอบเขตนี้ ซึ่งทำให้การดำเนินโครงการที่ท้าทายเช่นนี้ประสบความสำเร็จ ความสามารถของพวกเขาในการจัดการและนำทางผ่านความซับซ้อนของข้อมูลจำนวนมหาศาลนี้ได้อย่างราบรื่น ขณะเดียวกันก็รับประกันคุณภาพที่ยอดเยี่ยมนั้นน่ายกย่องอย่างแท้จริง