กลุ่มคนทำงานเพื่อรวบรวมข้อมูล

Crowd Workers สำหรับการรวบรวมข้อมูล – ส่วนที่ขาดไม่ได้ของ AI ที่มีจริยธรรม

ในความพยายามของเราในการสร้างโซลูชัน AI ที่มีประสิทธิภาพและไม่ลำเอียง เรามุ่งเน้นที่การฝึกอบรมแบบจำลองเกี่ยวกับการจัดประเภทข้อมูลที่เป็นกลาง ไดนามิก และเป็นตัวแทน กระบวนการรวบรวมข้อมูลของเรามีความสำคัญอย่างยิ่งในการพัฒนาโซลูชัน AI ที่น่าเชื่อถือ ในการนี้รวบรวม ข้อมูลการฝึกอบรม AI ผ่านฝูงชน กลายเป็นลักษณะสำคัญของกลยุทธ์การรวบรวมข้อมูล

ในบทความนี้ เราจะมาสำรวจบทบาทของฝูงชน ผลกระทบต่อการพัฒนา AI อัลกอริทึมการเรียนรู้ และโมเดล ML และความต้องการและประโยชน์ที่ได้รับจากกระบวนการทั้งหมด 

เหตุใดฝูงชนจึงต้องสร้างแบบจำลอง AI

ในฐานะมนุษย์ เราสร้างข้อมูลมากมาย แต่มีเพียงเศษเสี้ยวของข้อมูลที่สร้างขึ้นและรวบรวมนี้เท่านั้นที่มีคุณค่า เนื่องจากขาดมาตรฐานการเปรียบเทียบข้อมูล ข้อมูลส่วนใหญ่ที่รวบรวมจึงมีอคติ เต็มไปด้วยปัญหาด้านคุณภาพ หรือไม่ได้เป็นตัวแทนของสิ่งแวดล้อม ตั้งแต่มากขึ้นเรื่อยๆ เรียนรู้เครื่อง และโมเดลการเรียนรู้เชิงลึกกำลังได้รับการพัฒนาที่เติบโตบนข้อมูลจำนวนมหาศาล ความต้องการชุดข้อมูลที่ดีกว่า ใหม่กว่า และหลากหลายกำลังรู้สึกมากขึ้นเรื่อยๆ

เป็นที่ที่ฝูงชนเข้ามามีบทบาท

ข้อมูลการจัดหาฝูงชนกำลังสร้างชุดข้อมูลที่มีส่วนร่วมของคนกลุ่มใหญ่ กลุ่มคนทำงานใส่ปัญญามนุษย์เข้าไปในปัญญาประดิษฐ์

แพลตฟอร์มการจัดหาฝูงชน มอบการรวบรวมข้อมูลและไมโครทาสก์คำอธิบายประกอบให้กับกลุ่มคนจำนวนมากและหลากหลาย Crowdsourcing ช่วยให้บริษัทต่างๆ เข้าถึงพนักงานจำนวนมาก ไดนามิก คุ้มค่า และปรับขนาดได้

แพลตฟอร์มการจัดหาฝูงชนที่ได้รับความนิยมสูงสุด – Amazon Mechanical Turk สามารถจัดหาบทสนทนาระหว่างมนุษย์ถึง 11 รายการภายใน 15 ชั่วโมง และจ่ายเงินให้คนงาน $0.35 สำหรับการสนทนาที่ประสบความสำเร็จในแต่ละครั้ง ฝูงชนกำลังมีส่วนร่วมกับจำนวนที่น้อยดังกล่าว ทำให้เห็นความสำคัญของการสร้างมาตรฐานการจัดหาข้อมูลอย่างมีจริยธรรม

ในทางทฤษฎี ดูเหมือนเป็นแผนการที่ชาญฉลาด แต่ก็ไม่ใช่กลยุทธ์ที่ง่ายในการดำเนินการ การไม่เปิดเผยตัวตนของฝูงชนทำให้เกิดปัญหาเกี่ยวกับค่าจ้างต่ำ การไม่คำนึงถึงสิทธิของคนงาน และงานที่มีคุณภาพต่ำซึ่งส่งผลกระทบต่อประสิทธิภาพของโมเดล AI 

ประโยชน์ของการมีคนทำงานจำนวนมากในแหล่งข้อมูล

นักพัฒนาโซลูชันที่ใช้ AI สามารถกระจายงานขนาดเล็กและรวบรวมข้อสังเกตที่หลากหลายและแพร่หลายได้อย่างรวดเร็วด้วยต้นทุนที่ค่อนข้างต่ำ โดยการมีส่วนร่วมกับกลุ่มคนทำงานจำนวนมาก

ประโยชน์ที่โดดเด่นบางประการของการจ้างฝูงชนสำหรับโครงการ AI ได้แก่

ประโยชน์ของการรวบรวมข้อมูลผ่านพนักงานฝูงชน

เวลาในการออกสู่ตลาดเร็วขึ้น: จากการวิจัยของ Cognilytica พบว่าเกือบ 80% ของ ปัญญาประดิษฐ์ เวลาของโครงการถูกใช้ไปกับกิจกรรมการรวบรวมข้อมูล เช่น การล้างข้อมูล การติดฉลาก และการรวมข้อมูล ใช้เวลาเพียง 20% ในการพัฒนาและฝึกอบรม อุปสรรคในการสร้างข้อมูลแบบเดิมๆ จะหมดไป เนื่องจากสามารถสรรหาผู้ร่วมให้ข้อมูลจำนวนมากได้ภายในเวลาอันสั้น 

โซลูชันที่คุ้มค่า: การรวบรวมข้อมูลที่มาจากฝูงชน ลดเวลาและพลังงานที่ใช้ในการฝึกอบรม การสรรหา และนำพวกเขาขึ้นเครื่อง ซึ่งช่วยลดค่าใช้จ่าย เวลา และทรัพยากรที่จำเป็น เนื่องจากพนักงานจ้างด้วยวิธีจ่ายต่องาน 

เพิ่มความหลากหลายในชุดข้อมูล: ความหลากหลายของข้อมูลมีความสำคัญต่อการฝึกอบรมโซลูชัน AI ทั้งหมด เพื่อให้แบบจำลองสร้างผลลัพธ์ที่เป็นกลาง แบบจำลองนั้นจะต้องได้รับการฝึกฝนในชุดข้อมูลที่หลากหลาย ด้วยการจัดหาข้อมูลแบบฝูงชน จึงเป็นไปได้ที่จะสร้างชุดข้อมูลที่หลากหลาย (ทางภูมิศาสตร์ ภาษา ภาษาถิ่น) โดยใช้ความพยายามและค่าใช้จ่ายเพียงเล็กน้อย

เพิ่มความสามารถในการปรับขนาด: เมื่อคุณจ้างคนทำงานมวลชนที่เชื่อถือได้ คุณจะมั่นใจได้ ที่มีคุณภาพสูง การรวบรวมข้อมูลที่สามารถปรับขนาดได้ตามความต้องการของโครงการของคุณ

องค์กรเทียบกับฝูงชน – ใครจะเป็นผู้ชนะ?

ข้อมูลภายในองค์กรข้อมูลที่มาจากฝูงชน
รับประกันความถูกต้องและความสอดคล้องของข้อมูลคุณภาพ ความแม่นยำ และความสม่ำเสมอของข้อมูลสามารถรักษาไว้ได้หากใช้แพลตฟอร์มการจัดหาฝูงชนที่เชื่อถือได้พร้อมมาตรการ QA มาตรฐาน
การจัดหาข้อมูลภายในองค์กรไม่ใช่การตัดสินใจเชิงปฏิบัติเสมอไป เนื่องจากทีมงานภายในองค์กรของคุณอาจไม่ตอบสนองความต้องการของโครงการความหลากหลายของข้อมูลสามารถมั่นใจได้เนื่องจากเป็นไปได้ที่จะรับสมัครกลุ่มผู้ทำงานฝูงชนที่แตกต่างกันตามความต้องการของโครงการ
มีราคาแพงในการสรรหาและฝึกอบรมพนักงานสำหรับความต้องการของโครงการโซลูชันที่คุ้มค่ากับ การเก็บรวบรวมข้อมูล เนื่องจากเป็นไปได้ที่จะรับสมัคร ฝึกอบรม และรับพนักงานใหม่ด้วยการลงทุนที่น้อยกว่า
เวลาในการทำตลาดสูงเนื่องจากการรวบรวมข้อมูลภายในองค์กรต้องใช้เวลามากเวลาในการออกสู่ตลาดน้อยลงอย่างมากเนื่องจากการมีส่วนร่วมจำนวนมากเกิดขึ้นอย่างรวดเร็ว
กลุ่มผู้สนับสนุนและผู้ติดฉลากภายในองค์กรกลุ่มเล็กๆกลุ่มผู้ร่วมให้ข้อมูลขนาดใหญ่และหลากหลายและ ป้ายชื่อข้อมูล
การรักษาความลับของข้อมูลนั้นสูงมากด้วยทีมงานภายในองค์กรการรักษาความลับของข้อมูลทำได้ยากเมื่อทำงานกับพนักงานจำนวนมากทั่วโลก
ง่ายต่อการติดตาม ฝึกอบรม และประเมินผู้รวบรวมข้อมูลท้าทายในการติดตามและฝึกอบรมผู้รวบรวมข้อมูล

เชื่อมช่องว่างระหว่างผู้ปฏิบัติงานแบบคราวด์ซอร์สและผู้ร้องขอ

เชื่อมช่องว่างระหว่างผู้ปฏิบัติงานจากมวลชนและผู้ร้องขอ มีความจำเป็นอย่างมากที่จะต้องเชื่อมช่องว่างระหว่างกลุ่มคนทำงานและผู้ร้องขอ ไม่ใช่แค่ในด้านค่าจ้างเท่านั้น

ไม่มีข้อมูลที่ชัดเจนจากฝั่งของผู้ร้องขอ เนื่องจากพนักงานจะได้รับเฉพาะข้อมูลเกี่ยวกับงานเฉพาะเท่านั้น ตัวอย่างเช่น แม้ว่าคนงานจะได้รับงานเล็กๆ น้อยๆ เช่น การบันทึกบทสนทนาในภาษาถิ่นของตน แต่ก็แทบไม่ได้รับบริบท พวกเขาไม่มีข้อมูลที่จำเป็นว่าเหตุใดพวกเขาจึงทำในสิ่งที่กำลังทำอยู่และจะทำอย่างไรให้ดีที่สุด การขาดข้อมูลนี้ส่งผลกระทบต่อ คุณภาพของงานที่มาจากฝูงชน.

สำหรับมนุษย์แล้ว การมีบริบททั้งหมดทำให้งานของพวกเขามีความชัดเจนและมีเป้าหมาย

เพิ่มการผสมผสานมิติอื่นของ NDA เข้าด้วยกัน – ข้อตกลงไม่เปิดเผยข้อมูลซึ่งจำกัดจำนวนข้อมูลที่ผู้ปฏิบัติงานฝูงชนมีให้ จากมุมมองของ Crowd Worker การถอนข้อมูลนี้แสดงถึงการขาดความไว้วางใจและความสำคัญต่องานของพวกเขาลดลง

เมื่อสถานการณ์เดียวกันถูกมองจากปลายอีกด้านหนึ่งของสเปกตรัม ปลายทางของผู้ปฏิบัติงานก็จะขาดความโปร่งใส ผู้ร้องขอไม่เข้าใจผู้ปฏิบัติงานที่ได้รับมอบหมายให้ทำงานอย่างถ่องแท้ บางโครงการอาจต้องการผู้ปฏิบัติงานเฉพาะประเภท อย่างไรก็ตาม ในโครงการส่วนใหญ่มีความคลุมเครือ เดอะ ความจริงพื้นดิน สิ่งนี้อาจทำให้การประเมิน คำติชม และการฝึกอบรมมีความซับซ้อน

เพื่อรับมือกับปัญหาเหล่านี้ การทำงานร่วมกับผู้เชี่ยวชาญด้านการรวบรวมข้อมูลที่มีประวัติในการให้ข้อมูลที่หลากหลาย คัดสรร และเป็นตัวแทนที่ดีจากผู้ให้ข้อมูลที่หลากหลายเป็นสิ่งสำคัญ

การเลือก Shaip เป็นพันธมิตรด้านข้อมูลของคุณมีประโยชน์หลายประการ เรามุ่งเน้นไปที่ความหลากหลายและการกระจายตัวของข้อมูล พนักงานที่มีประสบการณ์และทุ่มเทของเราเข้าใจถึงแรงผลักดันของแต่ละโครงการและพัฒนาชุดข้อมูลที่สามารถฝึกอบรมโซลูชันที่ใช้ AI ที่มีประสิทธิภาพได้ในเวลาไม่นาน

[อ่านเพิ่มเติม: คู่มือเริ่มต้นข้อมูลการฝึกอบรม AI: คำจำกัดความ ตัวอย่าง ชุดข้อมูล]

แบ่งปันสังคม