วันนี้ เรามีหุ่นยนต์พูดได้ เช่น แชทบ็อต ผู้ช่วยเสมือน และอื่นๆ ในบ้าน ระบบรถยนต์ อุปกรณ์พกพา โซลูชันระบบอัตโนมัติในบ้าน ฯลฯ อุปกรณ์เหล่านี้ฟังสิ่งที่เราพูดและวิธีที่เราพูดอย่างแม่นยำและรับผลลัพธ์หรือดำเนินการเฉพาะอย่างอย่างแม่นยำ .
และถ้าคุณเคยใช้ผู้ช่วยเช่น Siri หรือ Alexaคุณจะรู้ด้วยว่าแต่ละวันเริ่มเล่นโวหารมากขึ้น คำตอบของพวกเขามีไหวพริบ พูดคุยโต้ตอบ ดูถูก ให้คำชม และทำตัวเหมือนมนุษย์มากกว่าเพื่อนร่วมงานที่คุณอาจรู้จัก เราไม่ได้ล้อเล่น ตาม PwC27% ของผู้ใช้ที่โต้ตอบกับฝ่ายบริการลูกค้าล่าสุดไม่ทราบว่ากำลังคุยกับมนุษย์หรือแชทบ็อต
การพัฒนาระบบและอุปกรณ์การสนทนาที่ซับซ้อนดังกล่าวนั้นซับซ้อนและน่ากังวลอย่างมาก มันเป็นเกมบอลที่แตกต่างออกไปพร้อมกับแนวทางการพัฒนาที่แตกต่างกัน นั่นเป็นเหตุผลที่เราคิดว่าเราควรแยกย่อยเพื่อให้คุณเข้าใจได้ง่ายขึ้น ดังนั้น หากคุณต้องการพัฒนาเครื่องมือ AI ในการสนทนาหรือผู้ช่วยเสมือน คู่มือนี้จะช่วยให้คุณมีความชัดเจน
ความสำคัญของการสนทนา AI
เนื่องจากเทคโนโลยีกลายเป็นส่วนสำคัญในชีวิตของเรามากขึ้นในรูปแบบของอุปกรณ์และระบบที่ใหม่กว่า จึงมีความจำเป็นต้องผลักดันอุปสรรค ทำลายธรรมเนียมปฏิบัติ และคิดหาวิธีใหม่ในการโต้ตอบกับสิ่งเหล่านี้ จากเพียงแค่การใช้อุปกรณ์ต่อพ่วงที่เชื่อมต่อ เช่น เมาส์และคีย์บอร์ด เราก็เปลี่ยนมาใช้แผ่นรองเมาส์ที่ให้ความสะดวกสบายมากขึ้น จากนั้นเราจึงย้ายไปยังหน้าจอสัมผัสที่ให้ความสะดวกยิ่งขึ้นในการป้อนอินพุตและดำเนินงาน
เมื่ออุปกรณ์ต่างๆ กลายเป็นส่วนเสริมของตัวเราเอง ตอนนี้ เรากำลังปลดล็อกสื่อใหม่ในการควบคุมด้วยเสียง เราไม่จำเป็นต้องอยู่ใกล้อุปกรณ์เพื่อใช้งาน สิ่งที่เราต้องทำคือใช้เสียงของเราเพื่อปลดล็อกและสั่งการอินพุตของเรา จากห้องใกล้เคียง เมื่อขับรถ ขณะใช้อุปกรณ์อื่นพร้อมกัน AI การสนทนาจะทำงานตามที่ตั้งใจไว้ได้อย่างราบรื่น เราจะเริ่มต้นที่ไหน ทั้งหมดนี้เริ่มต้นด้วยข้อมูลเสียงพูดคุณภาพสูงเพื่อฝึกโมเดล ML
พื้นฐานของการรวบรวมข้อมูลการฝึกพูด
การรวบรวมและใส่คำอธิบายประกอบข้อมูลการฝึกอบรม AI สำหรับ AI การสนทนานั้นแตกต่างกันมาก. มีความสลับซับซ้อนมากมายที่เกี่ยวข้องกับคำสั่งของมนุษย์และต้องมีการดำเนินการตามมาตรการที่หลากหลายเพื่อให้แน่ใจว่าทุกแง่มุมจะได้รับการรองรับสำหรับผลลัพธ์ที่มีผลกระทบ มาดูกันว่าข้อมูลพื้นฐานของข้อมูลคำพูดคืออะไร
ความเข้าใจภาษาธรรมชาติ (NLU)
เพื่อให้แชทบอทและผู้ช่วยเสมือนเข้าใจและตอบสนองต่อสิ่งที่เราส่งข้อความหรือสั่ง กระบวนการที่เรียกว่า สพป ถูกนำไปใช้ ย่อมาจาก การเข้าใจภาษาธรรมชาติ และเกี่ยวข้องกับแนวคิดทางเทคโนโลยีสามประการเพื่อตีความและประมวลผลข้อมูลประเภทต่างๆ
เจตนา
ทุกอย่างเริ่มต้นด้วยความตั้งใจ ผู้ใช้รายใดที่พยายามถ่ายทอด สื่อสาร หรือบรรลุผลผ่านคำสั่งคืออะไร ผู้ใช้กำลังมองหาข้อมูลหรือไม่? พวกเขากำลังรอการอัปเดตสำหรับการดำเนินการหรือไม่? พวกเขากำลังสั่งคำสั่งให้ระบบดำเนินการหรือไม่? พวกเขาสั่งการอย่างไร? ผ่านคำถามหรือคำขอ? ทุกแง่มุมเหล่านี้ช่วยให้เครื่องเข้าใจและจำแนกเจตนาและวัตถุประสงค์เพื่อให้ได้คำตอบที่รัดกุมตามลำดับ
การเก็บคำพูด
คำสั่งมีความแตกต่างกัน "ATM ที่ใกล้ที่สุดอยู่ที่ไหน" และคำสั่ง "หาตู้เอทีเอ็มที่อยู่ใกล้เคียงให้ฉัน" ตอนนี้มนุษย์จะยอมรับว่าทั้งสองมีความหมายเหมือนกัน แต่ต้องอธิบายเครื่องจักรด้วยความแตกต่างนี้ พวกเขาเหมือนกันในแง่ของเจตนา แต่วิธีที่เจตนาได้รับการหล่อหลอมแตกต่างไปจากเดิมอย่างสิ้นเชิง
การรวบรวมคำพูดคือทั้งหมดที่เกี่ยวกับการกำหนดและจับคู่คำพูดและวลีต่างๆ ที่มุ่งไปสู่เป้าหมายเฉพาะเพื่อการปฏิบัติงานและการตอบกลับที่แม่นยำ ในทางเทคนิค ผู้เชี่ยวชาญด้านคำอธิบายประกอบข้อมูลทำงานกับข้อมูลเสียงพูดหรือข้อมูลข้อความเพื่อช่วยให้เครื่องแยกแยะความแตกต่างนี้
การสกัดเอนทิตี
ทุกประโยคมีคำหรือวลีเฉพาะที่เน้นย้ำน้ำหนัก และเป็นการเน้นที่นำไปสู่การตีความบริบทและวัตถุประสงค์ เครื่องจักร เช่นเดียวกับระบบที่เข้มงวด จำเป็นต้องป้อนเอนทิตีดังกล่าว ตัวอย่างเช่น “ฉันจะหาสายจากกีตาร์ของฉันใกล้กับ 6th Avenue ได้ที่ไหน”
หากคุณปรับแต่งประโยค ค้นหาคือเอนทิตีที่หนึ่ง สตริงคือสอง กีตาร์คือสาม และถนนที่ 6 คือ 4 เอนทิตีเหล่านี้ถูกรวมเข้าด้วยกันด้วยเครื่องจักรเพื่อให้ได้ผลลัพธ์ที่เหมาะสม และเพื่อให้สิ่งนี้เกิดขึ้น ผู้เชี่ยวชาญจะทำงานที่ส่วนหลัง
ชุดข้อมูลเสียง / คำพูด / เสียงที่วางจำหน่ายในท้องตลาดเพื่อฝึกโมเดล AI การสนทนาของคุณได้เร็วขึ้น
การออกแบบบทสนทนาสำหรับ AI สนทนา
เป้าหมายของ AI ส่วนใหญ่คือการเลียนแบบพฤติกรรมของมนุษย์ผ่านท่าทาง การกระทำ และการตอบสนอง จิตสำนึกของมนุษย์มีความสามารถโดยกำเนิดที่จะเข้าใจบริบท เจตนา น้ำเสียง อารมณ์ และปัจจัยอื่นๆ และตอบสนองตามนั้น แต่เครื่องจักรจะแยกแยะแง่มุมเหล่านี้ได้อย่างไร
การออกแบบบทสนทนาสำหรับ AI สนทนา ซับซ้อนมากและที่สำคัญกว่านั้น แทบจะเป็นไปไม่ได้เลยที่จะนำโมเดลสากลออกมาใช้ แต่ละคนมีวิธีการคิด การพูด และการตอบสนองที่แตกต่างกัน แม้แต่ในการตอบสนอง เราทุกคนก็ถ่ายทอดความคิดของเราออกมาได้อย่างโดดเด่น ดังนั้นเครื่องจึงต้องฟังและตอบสนองตามนั้น
อย่างไรก็ตามสิ่งนี้ก็ไม่ราบรื่นเช่นกัน เมื่อมนุษย์พูดกัน ปัจจัยต่างๆ เช่น สำเนียง การออกเสียง เชื้อชาติ ภาษา และอื่นๆ เข้ามา และไม่ใช่เรื่องง่ายที่จะให้เครื่องจักรเข้าใจผิดและตีความคำผิดและตอบกลับ. เครื่องจักรสามารถเข้าใจคำใดคำหนึ่งได้หลายวิธีเมื่อกำหนดโดยชาวอินเดีย อังกฤษ อเมริกัน และเม็กซิกัน มีอุปสรรคด้านภาษามากมายที่เข้ามาเกี่ยวข้อง และวิธีที่ใช้งานได้จริงที่สุดในการสร้างระบบตอบสนองคือการเขียนโปรแกรมด้วยภาพที่อิงตามผังงาน
ผ่านบล็อกเฉพาะสำหรับ ท่าทาง การตอบสนอง และการกระตุ้น ผู้เขียนและผู้เชี่ยวชาญสามารถช่วยเครื่องจักรพัฒนาตัวละครได้. นี่เป็นเหมือนเครื่องอัลกอริธึมที่สามารถใช้เพื่อสร้างการตอบสนองที่ถูกต้อง เมื่อมีการป้อนข้อมูล ข้อมูลจะไหลผ่านปัจจัยที่เกี่ยวข้อง ซึ่งนำไปสู่การตอบสนองที่ถูกต้องสำหรับเครื่องจักรที่จะส่งมอบ
กด D เพื่อความหลากหลาย
ดังที่เราได้กล่าวไปแล้ว ปฏิสัมพันธ์ของมนุษย์นั้นมีความพิเศษเฉพาะตัวมาก ผู้คนทั่วโลกมาจากวิถีชีวิต ภูมิหลัง เชื้อชาติ ข้อมูลประชากร ชาติพันธุ์ สำเนียง พจน์ การออกเสียง และอื่นๆ ที่แตกต่างกัน
เพื่อให้บอทสนทนาหรือระบบใช้งานได้ในระดับสากล จะต้องได้รับการฝึกอบรมด้วยข้อมูลการฝึกอบรมที่หลากหลายมากที่สุด ตัวอย่างเช่น หากแบบจำลองได้รับการฝึกอบรมเฉพาะกับข้อมูลคำพูดของภาษาหรือชาติพันธุ์หนึ่งๆ สำเนียงใหม่จะทำให้ระบบสับสนและบังคับให้แสดงผลลัพธ์ที่ไม่ถูกต้อง นี่ไม่ใช่แค่เรื่องน่าอายสำหรับเจ้าของธุรกิจเท่านั้น แต่ยังเป็นการดูถูกผู้ใช้อีกด้วย
นั่นเป็นเหตุผลที่ขั้นตอนการพัฒนาควรเกี่ยวข้องกับข้อมูลการฝึกอบรม AI จากกลุ่มข้อมูลที่หลากหลายซึ่งประกอบด้วยผู้คนจากภูมิหลังที่เป็นไปได้ทั้งหมด ยิ่งระบบของคุณเข้าใจสำเนียงและเชื้อชาติมากเท่าใด มันก็จะยิ่งเป็นสากลมากขึ้นเท่านั้น นอกจากนี้ สิ่งที่จะรบกวนผู้ใช้มากกว่านั้นไม่ใช่การดึงข้อมูลที่ไม่ถูกต้อง แต่ไม่สามารถเข้าใจข้อมูลที่ป้อนได้ตั้งแต่แรก
การกำจัดอคติควรเป็นลำดับความสำคัญหลัก และวิธีหนึ่งที่บริษัทสามารถทำได้คือการเลือกใช้ข้อมูลที่รวบรวมจากผู้คนจำนวนมาก เมื่อคุณรวบรวมข้อมูลคำพูดหรือข้อความของคุณ คุณอนุญาตให้ผู้คนจากทั่วโลกมีส่วนร่วมในความต้องการของคุณ ทำให้แหล่งรวมข้อมูลของคุณมีสุขภาพที่ดีเท่านั้น (อ่าน บล็อก เพื่อทำความเข้าใจถึงประโยชน์และข้อผิดพลาดของการเอาท์ซอร์สข้อมูลให้กับพนักงานคราวด์ซอร์ส) ตอนนี้ โมเดลของคุณจะเข้าใจสำเนียงและการออกเสียงที่แตกต่างกัน และตอบสนองตามนั้น
ทางข้างหน้า
การพัฒนา AI ในการสนทนานั้นยากพอๆ กับการเลี้ยงทารก ข้อแตกต่างเพียงอย่างเดียวคือในที่สุดทารกจะเติบโตเพื่อเข้าใจสิ่งต่าง ๆ และสื่อสารด้วยตนเองได้ดีขึ้น เป็นเครื่องจักรที่ต้องมีการผลักดันอย่างสม่ำเสมอ ขณะนี้มีความท้าทายหลายประการในพื้นที่นี้ และเราควรรับทราบข้อเท็จจริงที่ว่าเรามีระบบ AI การสนทนาที่ปฏิวัติวงการมากที่สุดซึ่งเกิดขึ้นแม้ว่าจะมีความท้าทายเหล่านี้ มารอดูกันว่าอนาคตจะเป็นอย่างไรสำหรับแชทบอทที่เป็นมิตรและผู้ช่วยเสมือนของเรา ในขณะเดียวกัน หากคุณต้องการให้ AI สนทนาอย่าง Google Home พัฒนาขึ้นสำหรับธุรกิจของคุณ ติดต่อเราสำหรับข้อมูลการฝึกอบรม AI และความต้องการคำอธิบายประกอบ.