AI การสนทนา: การรู้จำเสียงอัตโนมัติ

รวบรวมชั่วโมงเสียงมากกว่า 8 ชั่วโมง ถอดเสียง 800 ชั่วโมงสำหรับเทคโนโลยีเสียงหลายภาษา

บทสนทนา

บทนำ

อินเดียต้องการแพลตฟอร์มที่มุ่งเน้นการสร้างชุดข้อมูลหลายภาษาและโซลูชันเทคโนโลยีภาษาที่ใช้ AI เพื่อให้บริการดิจิทัลในภาษาอินเดีย ในการเปิดตัวโครงการริเริ่มนี้ ลูกค้าได้ร่วมมือกับ Shaip เพื่อรวบรวมและถอดเสียงภาษาอินเดียเพื่อสร้างโมเดลคำพูดหลายภาษา

ปริมาณ

ชั่วโมงของข้อมูลที่เก็บรวบรวม
10
จำนวนหน้าที่มีคำอธิบายประกอบ
10 +
ระยะเวลาโครงการ
< 1 เดือน

ความท้าทาย

เพื่อช่วยเหลือลูกค้าในแผนงานด้านเทคโนโลยีคำพูดสำหรับภาษาอินเดีย ทีมงานจำเป็นต้องรับ แบ่งกลุ่ม และถอดเสียงข้อมูลการฝึกอบรมจำนวนมากเพื่อสร้างโมเดล AI ข้อกำหนดที่สำคัญของลูกค้าคือ:

การเก็บรวบรวมข้อมูล

  • รับข้อมูลการฝึกอบรม 8000 ชั่วโมงจากสถานที่ห่างไกลของอินเดีย
  • ซัพพลายเออร์จะรวบรวมคำพูดที่เกิดขึ้นจากกลุ่มอายุ 20-70 ปี
  • ตรวจสอบให้แน่ใจว่าวิทยากรมีความหลากหลายตามอายุ เพศ การศึกษา และภาษาถิ่น
  • การบันทึกเสียงแต่ละครั้งจะต้องมีอย่างน้อย 16kHz พร้อม 16 บิต/ตัวอย่าง
การเก็บรวบรวมข้อมูล

การถอดความข้อมูล

ปฏิบัติตามแนวทางการถอดความโดยละเอียดเกี่ยวกับอักขระและสัญลักษณ์พิเศษ การสะกดและไวยากรณ์ การใช้อักษรตัวพิมพ์ใหญ่ ตัวย่อ การย่อ ตัวอักษรที่พูดส่วนบุคคล ตัวเลข เครื่องหมายวรรคตอน ตัวย่อและอักษรย่อ คำพูดที่ไม่ชัดเจน คำพูดที่ไม่สามารถเข้าใจได้ ภาษาที่ไม่ใช่เป้าหมาย ภาษาที่ไม่ใช่คำพูด

การถอดความข้อมูล

การตรวจสอบคุณภาพและข้อเสนอแนะ

การบันทึกทั้งหมดต้องได้รับการประเมินและการตรวจสอบคุณภาพ มีเพียงการบันทึกเสียงคำพูดที่ผ่านการตรวจสอบแล้วเท่านั้นที่จะจัดส่ง

Solution

ด้วยความเข้าใจอย่างลึกซึ้งเกี่ยวกับการสนทนา AI เราได้ช่วยลูกค้ารวบรวม ถอดเสียงข้อมูลเสียงด้วยทีมผู้เชี่ยวชาญนักสะสม นักภาษาศาสตร์ และนักอธิบายประกอบ เพื่อสร้างคลังข้อมูลเสียงขนาดใหญ่จากพื้นที่ห่างไกลของอินเดีย

ขอบเขตของงานสำหรับ Shaip นั้นรวมอยู่ด้วยแต่ไม่จำกัดเพียงการรับข้อมูลการฝึกอบรมด้านเสียงจำนวนมาก การถอดเสียงข้อมูล และการส่งไฟล์ JSON ที่เกี่ยวข้องซึ่งมีข้อมูลเมตา [สำหรับทั้งผู้พูดและผู้ถอดเสียง สำหรับผู้พูดแต่ละคน ข้อมูลเมตาประกอบด้วย ID ผู้พูดที่ไม่ระบุชื่อ รายละเอียดอุปกรณ์ ข้อมูลประชากร เช่น เพศ อายุ และการศึกษา พร้อมด้วยรหัส PIN สถานะทางเศรษฐกิจและสังคม ภาษาที่พูด และบันทึกระยะเวลาการเข้าพักตลอดชีวิต สำหรับผู้ถอดเสียงทุกคน ข้อมูลจะรวมรหัสผู้ถอดเสียงที่ไม่ระบุตัวตน รายละเอียดทางประชากรศาสตร์ที่คล้ายกับของผู้พูด ระยะเวลาประสบการณ์การถอดเสียง และรายละเอียดภาษาที่พวกเขาสามารถอ่าน เขียน และพูดได้อย่างละเอียด

Shaip รวบรวม 8000 จำนวนชั่วโมงของข้อมูลเสียง / คำพูดที่เกิดขึ้นเองตามขนาดและถอดเสียง 800 ชั่วโมง ในขณะที่ยังคงรักษาระดับคุณภาพที่ต้องการซึ่งจำเป็นในการฝึกเทคโนโลยีเสียงพูดสำหรับโครงการที่ซับซ้อน แบบฟอร์มยินยอมที่ชัดเจนถูกนำมาจากผู้เข้าร่วมแต่ละคน คำพูด / คำพูดที่เกิดขึ้นเองที่รวบรวมมาจากภาพที่มหาวิทยาลัยจัดเตรียมไว้ให้ ของ 3500 ภาพ 1000 เป็นแบบทั่วไปและ 2500 เกี่ยวข้องกับวัฒนธรรม เทศกาล ฯลฯ เฉพาะเขต รูปภาพแสดงถึงโดเมนต่างๆ เช่น สถานีรถไฟ ตลาด สภาพอากาศ และอื่นๆ

การเก็บรวบรวมข้อมูล

สถานะหัวเมืองชั่วโมงเสียงการถอดความ
(ชม.)
มคธซารัน, จำปารันตะวันออก, โกปัลคัญ, สิตามาร์ฮี, ซามาสตีปูร์, ดาร์บันกา, มาเทปุระ, ภากัลปูร์, คยา, กิชันคันจ์, ไวชาลี, ลคิซาราย, ซาฮาร์ซา, สุพอล, อาเรีย, เบกูซาไร, ชะฮานาบัด, ปูร์เนีย, มูซาฟลาร์ปูร์, จามุย2000200
อุตตรประเทศDeoria, พาราณสี, Gorakhpur, Ghazipur, Muzzaffarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
ราชสถานนากูร์, ชูรู20020
ตราขั ณ ฑ์เตห์รี การห์วาล, อุตตระกาชิ20020
สครห์พิลาสปูร์, รายครห์, คาเบิร์ดดัม, ซาร์กูจา, คอร์บา, จัชปูร์, ราชนันด์กาออน, บัลรัมปูร์, บาสตาร์, ซุกมา1000100
เวสต์เบงกอลPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kolkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
Jharkhandสาเฮบคันช์, จัมทารา20020
APกุนตูร์, จิตตูร์, วิสาขปัตนัม, กฤษณะ, อนันตปุระ, ศรีกากุลัม60060
พรรคเตลังคาริมนาการ์, นัลกอนดา20020
กัวกัวเหนือ+ใต้10010
กรรณาฏักDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
มหาราษฏSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, โซลาปูร์70070
รวม8000800

General Guidelines

รูปแบบ

    • เสียงที่ 16 kHz, 16 บิต/ตัวอย่าง
    • ช่องเดียว.
    • เสียงดิบโดยไม่ต้องแปลงรหัส

สไตล์

    • คำพูดที่เกิดขึ้นเอง
    • ประโยคตามภาพที่มหาวิทยาลัยจัดให้ จากทั้งหมด 3500 ภาพ มี 1000 ภาพเป็นภาพทั่วไป และ 2500 ภาพเกี่ยวข้องกับวัฒนธรรม เทศกาล ฯลฯ เฉพาะเขต รูปภาพแสดงถึงโดเมนต่างๆ เช่น สถานีรถไฟ ตลาด สภาพอากาศ และอื่นๆ

พื้นหลังการบันทึก

    • บันทึกในสภาพแวดล้อมที่เงียบและปราศจากเสียงสะท้อน
    • ไม่มีการรบกวนสมาร์ทโฟน (การสั่นหรือการแจ้งเตือน) ระหว่างการบันทึก
    • ไม่มีการบิดเบือน เช่น การตัดภาพหรือเอฟเฟ็กต์จากระยะไกล
    • การสั่นสะเทือนจากโทรศัพท์ไม่สามารถยอมรับได้ การสั่นสะเทือนภายนอกสามารถทนได้หากเสียงชัดเจน

รายละเอียดลำโพง

    • อายุตั้งแต่ 20-70 ปี มีการกระจายเพศอย่างสมดุลตามเขต
    • เจ้าของภาษาอย่างน้อย 400 คนในแต่ละเขต
    • ผู้พูดควรใช้ภาษา/ภาษาถิ่นของตน
    • แบบฟอร์มยินยอมที่จำเป็นสำหรับผู้เข้าร่วมทุกคน


การตรวจสอบคุณภาพและการประกันคุณภาพที่สำคัญ

กระบวนการประกันคุณภาพให้ความสำคัญกับการประกันคุณภาพสำหรับการบันทึกเสียงและการถอดเสียง มาตรฐานเสียงมุ่งเน้นไปที่ความเงียบที่แม่นยำ ระยะเวลาของเซ็กเมนต์ ความชัดเจนของผู้พูดคนเดียว และข้อมูลเมตาโดยละเอียด รวมถึงอายุและสถานะทางเศรษฐกิจและสังคม เกณฑ์การถอดเสียงจะเน้นความถูกต้องของแท็ก ความถูกต้องของคำ และรายละเอียดส่วนที่ถูกต้อง เกณฑ์มาตรฐานการยอมรับกำหนดว่าหากชุดเสียงมากกว่า 20% ไม่ผ่านมาตรฐานเหล่านี้ ก็จะถูกปฏิเสธ สำหรับความคลาดเคลื่อนน้อยกว่า 20% จำเป็นต้องมีการบันทึกทดแทนที่มีโปรไฟล์คล้ายกัน

การถอดความข้อมูล

แนวทางการถอดเสียงจะเน้นความถูกต้องและการถอดเสียงแบบคำต่อคำเฉพาะเมื่อคำมีความชัดเจนและเข้าใจได้เท่านั้น คำที่ไม่ชัดเจนจะถูกทำเครื่องหมายว่า [ไม่เข้าใจ] หรือ [ไม่ได้ยิน] ขึ้นอยู่กับปัญหา ขอบเขตประโยคในเสียงยาวจะถูกทำเครื่องหมายด้วย และไม่อนุญาตให้ถอดความหรือแก้ไขข้อผิดพลาดทางไวยากรณ์ การถอดเสียงคำต่อคำครอบคลุมถึงข้อผิดพลาด คำสแลง และการกล่าวซ้ำๆ แต่ละเว้นการขึ้นต้นที่ผิดพลาด เสียงที่เติมเข้าไป และการพูดติดอ่าง เสียงพื้นหลังและเบื้องหน้าจะถูกถอดเสียงด้วยแท็กคำอธิบาย ในขณะที่ชื่อ ชื่อ และหมายเลขที่ถูกต้องจะเป็นไปตามกฎการถอดเสียงเฉพาะ ทุกๆ ประโยคจะใช้ป้ายกำกับของผู้พูด และระบุประโยคที่ไม่สมบูรณ์ด้วย

เวิร์กโฟลว์โครงการ

เวิร์กโฟลว์จะอธิบายกระบวนการถอดเสียง เริ่มต้นด้วยการปฐมนิเทศและการฝึกอบรมผู้เข้าร่วม พวกเขาบันทึกเสียงโดยใช้แอปซึ่งอัปโหลดไปยังแพลตฟอร์ม QA เสียงนี้ผ่านการตรวจสอบคุณภาพและการแบ่งส่วนอัตโนมัติ จากนั้นทีมเทคโนโลยีจะเตรียมส่วนต่างๆ สำหรับการถอดเสียง หลังจากการถอดเสียงด้วยตนเอง จะมีขั้นตอนการประกันคุณภาพ การถอดเสียงเป็นคำจะถูกส่งให้กับลูกค้า และหากได้รับการยอมรับ จะถือว่าการนำส่งเสร็จสมบูรณ์ ถ้าไม่เช่นนั้น จะทำการแก้ไขตามคำติชมของลูกค้า

ผล

ข้อมูลเสียงคุณภาพสูงจากนักภาษาศาสตร์ผู้เชี่ยวชาญจะช่วยให้ลูกค้าของเราฝึกฝนและสร้างโมเดลการรู้จำคำพูดหลายภาษาได้อย่างแม่นยำในภาษาอินเดียต่างๆ ด้วยภาษาถิ่นที่แตกต่างกันในเวลาที่กำหนด โมเดลการรู้จำเสียงสามารถใช้เพื่อ:

  • เอาชนะอุปสรรคด้านภาษาเพื่อการเข้าถึงดิจิทัลโดยเชื่อมโยงพลเมืองเข้ากับความคิดริเริ่มในภาษาแม่ของพวกเขาเอง
  • ส่งเสริมธรรมาภิบาลดิจิทัล
  • ตัวเร่งในการสร้างระบบนิเวศสำหรับบริการและผลิตภัณฑ์ในภาษาอินเดีย
  • เนื้อหาดิจิทัลที่แปลเป็นภาษาท้องถิ่นมากขึ้นในโดเมนที่เป็นสาธารณประโยชน์ โดยเฉพาะอย่างยิ่ง การกำกับดูแลและนโยบาย

เรารู้สึกทึ่งในความเชี่ยวชาญของ Shaip ในขอบเขต AI การสนทนา งานในการจัดการข้อมูลเสียง 8000 ชั่วโมงพร้อมกับการถอดเสียง 800 ชั่วโมงใน 80 เขตที่มีความหลากหลายถือเป็นเรื่องที่ยิ่งใหญ่มาก Shaip มีความเข้าใจอย่างลึกซึ้งเกี่ยวกับรายละเอียดที่ซับซ้อนและความแตกต่างเล็กๆ น้อยๆ ของขอบเขตนี้ ซึ่งทำให้การดำเนินโครงการที่ท้าทายเช่นนี้ประสบความสำเร็จ ความสามารถของพวกเขาในการจัดการและนำทางผ่านความซับซ้อนของข้อมูลจำนวนมหาศาลนี้ได้อย่างราบรื่น ขณะเดียวกันก็รับประกันคุณภาพที่ยอดเยี่ยมนั้นน่ายกย่องอย่างแท้จริง

โกลเด้น-5 ดาว

เร่งความเร็ว AI การสนทนาของคุณ
การพัฒนาแอปพลิเคชันโดย 100%