AI การสนทนา: การรู้จำเสียงอัตโนมัติ

รวบรวมชั่วโมงเสียงมากกว่า 8 ชั่วโมง ถอดเสียง 800 ชั่วโมงสำหรับเทคโนโลยีเสียงหลายภาษา

บทนำ

อินเดียต้องการแพลตฟอร์มที่มุ่งเน้นการสร้างชุดข้อมูลหลายภาษาและโซลูชันเทคโนโลยีภาษาที่ใช้ AI เพื่อให้บริการดิจิทัลในภาษาอินเดีย ในการเปิดตัวโครงการริเริ่มนี้ ลูกค้าได้ร่วมมือกับ Shaip เพื่อรวบรวมและถอดเสียงภาษาอินเดียเพื่อสร้างโมเดลคำพูดหลายภาษา

ปริมาณ

ชั่วโมงของข้อมูลที่เก็บรวบรวม

จำนวนหน้าที่มีคำอธิบายประกอบ

10 +

ระยะเวลาโครงการ

< 1 เดือน

ความท้าทาย

เพื่อช่วยเหลือลูกค้าในแผนงานด้านเทคโนโลยีคำพูดสำหรับภาษาอินเดีย ทีมงานจำเป็นต้องรับ แบ่งกลุ่ม และถอดเสียงข้อมูลการฝึกอบรมจำนวนมากเพื่อสร้างโมเดล AI ข้อกำหนดที่สำคัญของลูกค้าคือ:

การเก็บรวบรวมข้อมูล

รับข้อมูลการฝึกอบรม 8000 ชั่วโมงจากสถานที่ห่างไกลของอินเดีย
ซัพพลายเออร์จะรวบรวมคำพูดที่เกิดขึ้นจากกลุ่มอายุ 20-70 ปี
ตรวจสอบให้แน่ใจว่าวิทยากรมีความหลากหลายตามอายุ เพศ การศึกษา และภาษาถิ่น
การบันทึกเสียงแต่ละครั้งจะต้องมีอย่างน้อย 16kHz พร้อม 16 บิต/ตัวอย่าง

การถอดความข้อมูล

ปฏิบัติตามแนวทางการถอดความโดยละเอียดเกี่ยวกับอักขระและสัญลักษณ์พิเศษ การสะกดและไวยากรณ์ การใช้อักษรตัวพิมพ์ใหญ่ ตัวย่อ การย่อ ตัวอักษรที่พูดส่วนบุคคล ตัวเลข เครื่องหมายวรรคตอน ตัวย่อและอักษรย่อ คำพูดที่ไม่ชัดเจน คำพูดที่ไม่สามารถเข้าใจได้ ภาษาที่ไม่ใช่เป้าหมาย ภาษาที่ไม่ใช่คำพูด

การตรวจสอบคุณภาพและข้อเสนอแนะ

การบันทึกทั้งหมดต้องได้รับการประเมินและการตรวจสอบคุณภาพ มีเพียงการบันทึกเสียงคำพูดที่ผ่านการตรวจสอบแล้วเท่านั้นที่จะจัดส่ง

Solution

ด้วยความเข้าใจอย่างลึกซึ้งเกี่ยวกับการสนทนา AI เราได้ช่วยลูกค้ารวบรวม ถอดเสียงข้อมูลเสียงด้วยทีมผู้เชี่ยวชาญนักสะสม นักภาษาศาสตร์ และนักอธิบายประกอบ เพื่อสร้างคลังข้อมูลเสียงขนาดใหญ่จากพื้นที่ห่างไกลของอินเดีย

ขอบเขตของงานสำหรับ Shaip นั้นรวมอยู่ด้วยแต่ไม่จำกัดเพียงการรับข้อมูลการฝึกอบรมด้านเสียงจำนวนมาก การถอดเสียงข้อมูล และการส่งไฟล์ JSON ที่เกี่ยวข้องซึ่งมีข้อมูลเมตา [สำหรับทั้งผู้พูดและผู้ถอดเสียง สำหรับผู้พูดแต่ละคน ข้อมูลเมตาประกอบด้วย ID ผู้พูดที่ไม่ระบุชื่อ รายละเอียดอุปกรณ์ ข้อมูลประชากร เช่น เพศ อายุ และการศึกษา พร้อมด้วยรหัส PIN สถานะทางเศรษฐกิจและสังคม ภาษาที่พูด และบันทึกระยะเวลาการเข้าพักตลอดชีวิต สำหรับผู้ถอดเสียงทุกคน ข้อมูลจะรวมรหัสผู้ถอดเสียงที่ไม่ระบุตัวตน รายละเอียดทางประชากรศาสตร์ที่คล้ายกับของผู้พูด ระยะเวลาประสบการณ์การถอดเสียง และรายละเอียดภาษาที่พวกเขาสามารถอ่าน เขียน และพูดได้อย่างละเอียด

Shaip รวบรวม 8000 จำนวนชั่วโมงของข้อมูลเสียง / คำพูดที่เกิดขึ้นเองตามขนาดและถอดเสียง 800 ชั่วโมง ในขณะที่ยังคงรักษาระดับคุณภาพที่ต้องการซึ่งจำเป็นในการฝึกเทคโนโลยีเสียงพูดสำหรับโครงการที่ซับซ้อน แบบฟอร์มยินยอมที่ชัดเจนถูกนำมาจากผู้เข้าร่วมแต่ละคน คำพูด / คำพูดที่เกิดขึ้นเองที่รวบรวมมาจากภาพที่มหาวิทยาลัยจัดเตรียมไว้ให้ ของ 3500 ภาพ 1000 เป็นแบบทั่วไปและ 2500 เกี่ยวข้องกับวัฒนธรรม เทศกาล ฯลฯ เฉพาะเขต รูปภาพแสดงถึงโดเมนต่างๆ เช่น สถานีรถไฟ ตลาด สภาพอากาศ และอื่นๆ

การเก็บรวบรวมข้อมูล

สถานะ	หัวเมือง	ชั่วโมงเสียง	การถอดความ (ชม.)
มคธ	ซารัน, จำปารันตะวันออก, โกปัลคัญ, สิตามาร์ฮี, ซามาสตีปูร์, ดาร์บันกา, มาเทปุระ, ภากัลปูร์, คยา, กิชันคันจ์, ไวชาลี, ลคิซาราย, ซาฮาร์ซา, สุพอล, อาเรีย, เบกูซาไร, ชะฮานาบัด, ปูร์เนีย, มูซาฟลาร์ปูร์, จามุย	2000	200
อุตตรประเทศ	Deoria, พาราณสี, Gorakhpur, Ghazipur, Muzzaﬀarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun	1000	100
ราชสถาน	นากูร์, ชูรู	200	20
ตราขั ณ ฑ์	เตห์รี การห์วาล, อุตตระกาชิ	200	20
สครห์	พิลาสปูร์, รายครห์, คาเบิร์ดดัม, ซาร์กูจา, คอร์บา, จัชปูร์, ราชนันด์กาออน, บัลรัมปูร์, บาสตาร์, ซุกมา	1000	100
เวสต์เบงกอล	Paschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur	800	80
Jharkhand	สาเฮบคันช์, จัมทารา	200	20
AP	กุนตูร์, จิตตูร์, วิสาขปัตนัม, กฤษณะ, อนันตปุระ, ศรีกากุลัม	600	60
พรรคเตลัง	คาริมนาการ์, นัลกอนดา	200	20
กัว	กัวเหนือ+ใต้	100	10
กรรณาฏัก	Dakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar	1000	100
มหาราษฏ	Sindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, โซลาปูร์	700	70
รวม		8000	800

General Guidelines

รูปแบบ

- เสียงที่ 16 kHz, 16 บิต/ตัวอย่าง
- ช่องเดียว.
- เสียงดิบโดยไม่ต้องแปลงรหัส

สไตล์

- คำพูดที่เกิดขึ้นเอง
- ประโยคตามภาพที่มหาวิทยาลัยจัดให้ จากทั้งหมด 3500 ภาพ มี 1000 ภาพเป็นภาพทั่วไป และ 2500 ภาพเกี่ยวข้องกับวัฒนธรรม เทศกาล ฯลฯ เฉพาะเขต รูปภาพแสดงถึงโดเมนต่างๆ เช่น สถานีรถไฟ ตลาด สภาพอากาศ และอื่นๆ

พื้นหลังการบันทึก

- บันทึกในสภาพแวดล้อมที่เงียบและปราศจากเสียงสะท้อน
- ไม่มีการรบกวนสมาร์ทโฟน (การสั่นหรือการแจ้งเตือน) ระหว่างการบันทึก
- ไม่มีการบิดเบือน เช่น การตัดภาพหรือเอฟเฟ็กต์จากระยะไกล
- การสั่นสะเทือนจากโทรศัพท์ไม่สามารถยอมรับได้ การสั่นสะเทือนภายนอกสามารถทนได้หากเสียงชัดเจน

รายละเอียดลำโพง

- อายุตั้งแต่ 20-70 ปี มีการกระจายเพศอย่างสมดุลตามเขต
- เจ้าของภาษาอย่างน้อย 400 คนในแต่ละเขต
- ผู้พูดควรใช้ภาษา/ภาษาถิ่นของตน
- แบบฟอร์มยินยอมที่จำเป็นสำหรับผู้เข้าร่วมทุกคน

การตรวจสอบคุณภาพและการประกันคุณภาพที่สำคัญ

กระบวนการประกันคุณภาพให้ความสำคัญกับการประกันคุณภาพสำหรับการบันทึกเสียงและการถอดเสียง มาตรฐานเสียงมุ่งเน้นไปที่ความเงียบที่แม่นยำ ระยะเวลาของเซ็กเมนต์ ความชัดเจนของผู้พูดคนเดียว และข้อมูลเมตาโดยละเอียด รวมถึงอายุและสถานะทางเศรษฐกิจและสังคม เกณฑ์การถอดเสียงจะเน้นความถูกต้องของแท็ก ความถูกต้องของคำ และรายละเอียดส่วนที่ถูกต้อง เกณฑ์มาตรฐานการยอมรับกำหนดว่าหากชุดเสียงมากกว่า 20% ไม่ผ่านมาตรฐานเหล่านี้ ก็จะถูกปฏิเสธ สำหรับความคลาดเคลื่อนน้อยกว่า 20% จำเป็นต้องมีการบันทึกทดแทนที่มีโปรไฟล์คล้ายกัน

การถอดความข้อมูล

แนวทางการถอดเสียงจะเน้นความถูกต้องและการถอดเสียงแบบคำต่อคำเฉพาะเมื่อคำมีความชัดเจนและเข้าใจได้เท่านั้น คำที่ไม่ชัดเจนจะถูกทำเครื่องหมายว่า [ไม่เข้าใจ] หรือ [ไม่ได้ยิน] ขึ้นอยู่กับปัญหา ขอบเขตประโยคในเสียงยาวจะถูกทำเครื่องหมายด้วย และไม่อนุญาตให้ถอดความหรือแก้ไขข้อผิดพลาดทางไวยากรณ์ การถอดเสียงคำต่อคำครอบคลุมถึงข้อผิดพลาด คำสแลง และการกล่าวซ้ำๆ แต่ละเว้นการขึ้นต้นที่ผิดพลาด เสียงที่เติมเข้าไป และการพูดติดอ่าง เสียงพื้นหลังและเบื้องหน้าจะถูกถอดเสียงด้วยแท็กคำอธิบาย ในขณะที่ชื่อ ชื่อ และหมายเลขที่ถูกต้องจะเป็นไปตามกฎการถอดเสียงเฉพาะ ทุกๆ ประโยคจะใช้ป้ายกำกับของผู้พูด และระบุประโยคที่ไม่สมบูรณ์ด้วย

เวิร์กโฟลว์โครงการ

เวิร์กโฟลว์จะอธิบายกระบวนการถอดเสียง เริ่มต้นด้วยการปฐมนิเทศและการฝึกอบรมผู้เข้าร่วม พวกเขาบันทึกเสียงโดยใช้แอปซึ่งอัปโหลดไปยังแพลตฟอร์ม QA เสียงนี้ผ่านการตรวจสอบคุณภาพและการแบ่งส่วนอัตโนมัติ จากนั้นทีมเทคโนโลยีจะเตรียมส่วนต่างๆ สำหรับการถอดเสียง หลังจากการถอดเสียงด้วยตนเอง จะมีขั้นตอนการประกันคุณภาพ การถอดเสียงเป็นคำจะถูกส่งให้กับลูกค้า และหากได้รับการยอมรับ จะถือว่าการนำส่งเสร็จสมบูรณ์ ถ้าไม่เช่นนั้น จะทำการแก้ไขตามคำติชมของลูกค้า

ผล

ข้อมูลเสียงคุณภาพสูงจากนักภาษาศาสตร์ผู้เชี่ยวชาญจะช่วยให้ลูกค้าของเราฝึกฝนและสร้างโมเดลการรู้จำคำพูดหลายภาษาได้อย่างแม่นยำในภาษาอินเดียต่างๆ ด้วยภาษาถิ่นที่แตกต่างกันในเวลาที่กำหนด โมเดลการรู้จำเสียงสามารถใช้เพื่อ:

เอาชนะอุปสรรคด้านภาษาเพื่อการเข้าถึงดิจิทัลโดยเชื่อมโยงพลเมืองเข้ากับความคิดริเริ่มในภาษาแม่ของพวกเขาเอง
ส่งเสริมธรรมาภิบาลดิจิทัล
ตัวเร่งในการสร้างระบบนิเวศสำหรับบริการและผลิตภัณฑ์ในภาษาอินเดีย
เนื้อหาดิจิทัลที่แปลเป็นภาษาท้องถิ่นมากขึ้นในโดเมนที่เป็นสาธารณประโยชน์ โดยเฉพาะอย่างยิ่ง การกำกับดูแลและนโยบาย

เรารู้สึกทึ่งในความเชี่ยวชาญของ Shaip ในขอบเขต AI การสนทนา งานในการจัดการข้อมูลเสียง 8000 ชั่วโมงพร้อมกับการถอดเสียง 800 ชั่วโมงใน 80 เขตที่มีความหลากหลายถือเป็นเรื่องที่ยิ่งใหญ่มาก Shaip มีความเข้าใจอย่างลึกซึ้งเกี่ยวกับรายละเอียดที่ซับซ้อนและความแตกต่างเล็กๆ น้อยๆ ของขอบเขตนี้ ซึ่งทำให้การดำเนินโครงการที่ท้าทายเช่นนี้ประสบความสำเร็จ ความสามารถของพวกเขาในการจัดการและนำทางผ่านความซับซ้อนของข้อมูลจำนวนมหาศาลนี้ได้อย่างราบรื่น ขณะเดียวกันก็รับประกันคุณภาพที่ยอดเยี่ยมนั้นน่ายกย่องอย่างแท้จริง

เร่งความเร็ว AI การสนทนาของคุณ
การพัฒนาแอปพลิเคชันโดย 100%

AI การสนทนา: การรู้จำเสียงอัตโนมัติ

รวบรวมชั่วโมงเสียงมากกว่า 8 ชั่วโมง ถอดเสียง 800 ชั่วโมงสำหรับเทคโนโลยีเสียงหลายภาษา

บทนำ

ปริมาณ

ความท้าทาย

การเก็บรวบรวมข้อมูล

การถอดความข้อมูล

การตรวจสอบคุณภาพและข้อเสนอแนะ

Solution

General Guidelines

การตรวจสอบคุณภาพและการประกันคุณภาพที่สำคัญ

การถอดความข้อมูล

เวิร์กโฟลว์โครงการ

ผล

บริการข้อมูล AI

พิเศษ

Industry

ผลิตภัณฑ์

บริษัท

แหล่งข้อมูล

ติดต่อเรา

แจ้งให้เราทราบเพิ่มเติมเกี่ยวกับคุณ!