ข้อมูลการฝึกอบรม AI

คุณต้องมีข้อมูลการฝึกอบรมมากแค่ไหนสำหรับการเรียนรู้ของเครื่องจักรในปี 2026?

โมเดลการเรียนรู้ของเครื่องที่ประสบความสำเร็จเริ่มต้นด้วยข้อมูลฝึกฝนคุณภาพสูง แต่หนึ่งในคำถามที่พบบ่อยที่สุดที่ทีมงานถามเมื่อเริ่มต้นโครงการ AI คือ: ข้อมูลสำหรับการฝึกฝนปริมาณเท่าใดจึงจะเพียงพอ?

คำตอบที่ตรงไปตรงมาคือ ไม่มีจำนวนข้อมูลตายตัวที่ใช้ได้กับทุกโครงการ ปริมาณข้อมูลที่คุณต้องการขึ้นอยู่กับงาน ความซับซ้อนของแบบจำลอง จำนวนคลาส คุณภาพข้อมูล ความถูกต้องของป้ายกำกับ และมาตรฐานประสิทธิภาพที่คุณต้องการบรรลุ

ในทางปฏิบัติ วิธีที่ดีที่สุดในการประเมินความต้องการข้อมูลสำหรับการฝึกอบรมคือการเริ่มต้นด้วยตัวอย่างที่เป็นตัวแทน ฝึกอบรมกับชุดย่อยที่ใหญ่ขึ้นเรื่อยๆ และวัดผลเมื่อประสิทธิภาพของโมเดลเริ่มคงที่ วิธีนี้ช่วยให้ทีมตัดสินใจได้อย่างมีข้อมูลเกี่ยวกับต้นทุน ระยะเวลา ความพยายามในการติดป้ายกำกับ และผลลัพธ์ที่คาดหวัง

ในบทความนี้ เราจะวิเคราะห์ปัจจัยหลักที่ส่งผลต่อปริมาณข้อมูลสำหรับการฝึกอบรม อธิบายวิธีการประเมินความต้องการในทางปฏิบัติ และแสดงให้เห็นถึงสิ่งที่ควรทำเมื่อคุณต้องการข้อมูลเพิ่มเติมโดยไม่ทำให้แผนงาน AI ของคุณล่าช้า

เหตุใดข้อมูลการฝึกอบรมจึงมีความสำคัญ

ข้อมูลสำหรับการฝึกฝนเป็นรากฐานของระบบการเรียนรู้ของเครื่องทุกระบบ ไม่ว่าอัลกอริทึมจะล้ำหน้าแค่ไหน มันก็สามารถเรียนรู้ได้เฉพาะรูปแบบที่มีอยู่ในข้อมูลที่ใช้ในการฝึกฝนเท่านั้น หากข้อมูลไม่สมบูรณ์ มีอคติ มีสัญญาณรบกวน หรือมีจำกัดเกินไป โมเดลก็จะประสบปัญหาในการนำไปใช้ในโลกแห่งความเป็นจริง

ข้อมูลการฝึกอบรมที่มีประสิทธิภาพช่วยให้ทีม:

  • ปรับปรุงความแม่นยำของแบบจำลอง
  • ลดอคติและจุดบอด
  • ประเมินต้นทุนและความเป็นไปได้ของโครงการได้แม่นยำยิ่งขึ้น
  • ลดการแก้ไขงานซ้ำระหว่างการพัฒนาโมเดล
  • สร้างกระบวนการตรวจสอบและทดสอบที่น่าเชื่อถือยิ่งขึ้น

นี่จึงเป็นเหตุผลว่าทำไมการรวบรวม การทำความสะอาด การติดป้ายกำกับ และการตรวจสอบความถูกต้องของข้อมูลจึงมักใช้ความพยายามมากที่สุดในโครงการ AI หากข้อมูลไม่แข็งแรง การคาดการณ์ก็จะอ่อนแอเช่นกัน

ไม่มีตัวเลขสากล — แต่มีวิธีปฏิบัติในการประมาณค่าตัวเลขนั้น

บทความหลายชิ้นพยายามตอบคำถามนี้ด้วยตัวเลขเพียงตัวเดียว ซึ่งมักไม่ค่อยมีประโยชน์

แบบจำลองสำหรับการจำแนกแบบไบนารีอย่างง่ายอาจทำงานได้ดีกับชุดข้อมูลขนาดเล็ก ในขณะที่เวิร์กโฟลว์การปรับแต่งแบบจำลองภาษาขนาดใหญ่หรือระบบคอมพิวเตอร์วิชั่นสำหรับกรณีพิเศษอาจต้องการตัวอย่างจำนวนมากกว่ามาก คำถามที่ดีกว่าไม่ใช่ "จำนวนมหัศจรรย์คืออะไร?" แต่เป็น:

ปริมาณข้อมูลฝึกฝนคุณภาพสูงและเป็นตัวแทนที่จำเป็นขั้นต่ำเพื่อให้ได้ประสิทธิภาพตามเป้าหมายสำหรับกรณีการใช้งานนี้คือเท่าใด

วิธีที่ใช้ได้จริงในการตอบคำถามนี้คือการใช้เส้นโค้งการเรียนรู้: ฝึกฝนโมเดลด้วยข้อมูลที่มีปริมาณเพิ่มขึ้นเรื่อยๆ และสังเกตว่าประสิทธิภาพดีขึ้นมากน้อยเพียงใดในแต่ละขั้นตอน เมื่อการปรับปรุงเริ่มชะลอตัว คุณก็จะได้สัญญาณที่ชัดเจนขึ้นว่าการรวบรวมข้อมูลเพิ่มเติมนั้นคุ้มค่ากับการลงทุนหรือไม่ วิธีนี้เป็นวิธีที่แนะนำกันโดยทั่วไปในขั้นตอนการทำงานของแมชชีนเลิร์นนิงในทางปฏิบัติ

7 ปัจจัยที่กำหนดว่าคุณต้องการข้อมูลฝึกฝนมากแค่ไหน

1. ประเภทของโมเดล: การเรียนรู้ของเครื่องแบบดั้งเดิมเทียบกับการเรียนรู้เชิงลึก

ประเภทของโมเดลมีผลกระทบอย่างมากต่อความต้องการข้อมูล โมเดลการเรียนรู้ของเครื่องแบบคลาสสิก เช่น การถดถอยโลจิสติกส์ ต้นไม้ตัดสินใจ หรือการเพิ่มประสิทธิภาพแบบไล่ระดับ มักจะทำงานได้ดีกับชุดข้อมูลที่มีโครงสร้างขนาดเล็ก โดยเฉพาะอย่างยิ่งเมื่อคุณลักษณะได้รับการออกแบบมาอย่างดี

โดยทั่วไปแล้ว โมเดลการเรียนรู้เชิงลึกต้องการข้อมูลมากกว่า เนื่องจากเรียนรู้คุณลักษณะต่างๆ โดยอัตโนมัติและมีพารามิเตอร์จำนวนมาก สำหรับงานด้านภาพ เสียง และภาษา โมเดลเชิงลึกมักได้รับประโยชน์อย่างมากจากปริมาณและความหลากหลายของข้อมูลที่มากขึ้น

2. การเรียนรู้แบบมีผู้กำกับดูแล กับ การเรียนรู้แบบไม่มีผู้กำกับดูแล

การเรียนรู้แบบมีผู้กำกับดูแล (Supervised learning) จำเป็นต้องใช้ข้อมูลที่มีป้ายกำกับ ซึ่งมักจะยากและมีค่าใช้จ่ายสูงกว่าในการรวบรวม หากแบบจำลองของคุณต้องการมนุษย์ในการติดป้ายกำกับรูปภาพ ถอดเสียงจากไฟล์เสียง ติดแท็กเอนทิตี หรือจำแนกประเภทเอกสาร ข้อกำหนดด้านข้อมูลจะต้องคำนึงถึงทั้งปริมาณและความพยายามในการติดป้ายกำกับด้วย

การเรียนรู้แบบไม่ใช้การกำกับดูแลไม่จำเป็นต้องใช้ข้อมูลที่มีป้ายกำกับ แต่ก็ยังได้รับประโยชน์จากชุดข้อมูลขนาดใหญ่และเป็นตัวแทนที่ดี แม้ไม่มีป้ายกำกับ โมเดลก็ยังต้องการข้อมูลครอบคลุมมากพอที่จะตรวจจับรูปแบบและโครงสร้างที่มีความหมายได้ 

3. ความซับซ้อนของงานและจำนวนคลาส

งานจำแนกประเภทแบบไบนารีอย่างง่ายนั้นแตกต่างอย่างมากจากปัญหาภาพทางการแพทย์แบบหลายคลาส หรือระบบรู้จำเสียงพูดหลายภาษา

เมื่อความซับซ้อนของงานเพิ่มขึ้น ความต้องการข้อมูลสำหรับการฝึกฝนก็มักจะสูงขึ้นตามไปด้วย เนื่องจากโมเดลต้องเรียนรู้:

  • ชั้นเรียนเพิ่มเติม
  • ความแตกต่างที่ละเอียดกว่าระหว่างหมวดหมู่
  • กรณีพิเศษเพิ่มเติม
  • ความแปรผันตามบริบทที่มากขึ้น

ตัวอย่างเช่น การแยกแยะระหว่าง “แมว” กับ “สุนัข” นั้นง่ายกว่าการระบุข้อบกพร่องของผลิตภัณฑ์ที่ดูคล้ายกันหลายสิบรายการในสภาพแสง มุมกล้อง และพื้นหลังที่แตกต่างกันมาก

4. คุณภาพข้อมูลและความถูกต้องของฉลาก

ปริมาณข้อมูลที่มากขึ้นไม่ได้หมายความว่าดีกว่าเสมอไป หากคุณภาพข้อมูลต่ำ

ชุดข้อมูลขนาดเล็กที่มีป้ายกำกับที่ถูกต้อง การแสดงผลที่สมดุล และรูปแบบที่สม่ำเสมอ สามารถทำงานได้ดีกว่าชุดข้อมูลขนาดใหญ่แต่มีสัญญาณรบกวนสูง ป้ายกำกับคุณภาพต่ำ ข้อมูลซ้ำซ้อน คำจำกัดความของคลาสที่ไม่ชัดเจน ข้อมูลเมตาที่ขาดหายไป และแนวทางการระบุคำอธิบายประกอบที่ไม่สอดคล้องกัน ล้วนลดประสิทธิภาพของโมเดลลง

ก่อนที่จะเก็บรวบรวมข้อมูลเพิ่มเติม ทีมควรตั้งคำถามดังต่อไปนี้:

  • ป้ายกำกับมีความสอดคล้องกันหรือไม่?
  • เราได้ครอบคลุมสถานการณ์การใช้งานที่สำคัญทั้งหมดแล้วหรือยัง?
  • ข้อมูลนี้สะท้อนสภาพการผลิตจริงหรือไม่?
  • ชุดข้อมูลสำหรับการฝึกฝน การตรวจสอบ และการทดสอบถูกแยกออกจากกันอย่างเหมาะสมหรือไม่?

สำหรับโครงการหลายๆ โครงการ การปรับปรุงคุณภาพข้อมูลจะให้ผลลัพธ์ที่รวดเร็วกว่าการเพิ่มปริมาณข้อมูลเพียงอย่างเดียว

5. ความหลากหลาย การครอบคลุม และความสมดุลของชนชั้น

โมเดลควรเรียนรู้จากความแปรปรวนในโลกแห่งความเป็นจริงที่จะพบเจอหลังจากการใช้งานจริง นั่นหมายความว่าชุดข้อมูลควรสะท้อนถึงสถานการณ์ต่างๆ กลุ่มผู้ใช้ ประเภทอุปกรณ์ สำเนียง สภาพแวดล้อม รูปแบบเอกสาร สภาพภาพ และกรณีพิเศษต่างๆ

หากกลุ่มหรือชนชั้นใดชนชั้นหนึ่งมีจำนวนน้อยเกินไป โมเดลอาจดูแม่นยำโดยรวม แต่กลับล้มเหลวอย่างมากในกลุ่มย่อยที่สำคัญ นี่คือเหตุผลว่าทำไมความหลากหลายและความสมดุลของกลุ่มจึงมีความสำคัญพอๆ กับขนาดของกลุ่มโดยรวม

ในหลายกรณี คำถามไม่ใช่ "เรามีข้อมูลเพียงพอหรือไม่" แต่เป็น "เรามีข้อมูลที่ถูกต้องและเพียงพอหรือไม่"

6. การเรียนรู้แบบถ่ายโอนและโมเดลที่ฝึกฝนล่วงหน้า

หากคุณเริ่มต้นจากโมเดลที่ผ่านการฝึกฝนมาแล้ว คุณอาจต้องการข้อมูลเฉพาะงานน้อยกว่ามาก เมื่อเทียบกับการฝึกฝนตั้งแต่เริ่มต้น

นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับ:

  • การจำแนกภาพโดยใช้โครงสร้างพื้นฐานด้านการมองเห็น
  • งาน NLP โดยใช้โมเดลแบบ Transformer
  • แบบจำลองการพูดที่ปรับให้เข้ากับสำเนียงหรือบริบทใหม่
  • เวิร์กโฟลว์การปรับโดเมน

การเรียนรู้แบบถ่ายโอน (Transfer learning) ช่วยให้ทีมสามารถนำความรู้ที่ได้จากชุดข้อมูลขนาดใหญ่ที่มีอยู่แล้วมาใช้ซ้ำได้ ซึ่งสามารถลดภาระการติดป้ายกำกับข้อมูลได้อย่างมาก บทความต้นฉบับได้กล่าวถึงเรื่องนี้ไว้อย่างดีแล้ว ควรคงไว้แต่เพิ่มตัวอย่างที่ชัดเจนยิ่งขึ้น

7. กลยุทธ์การตรวจสอบและเป้าหมายประสิทธิภาพ

ปริมาณข้อมูลที่คุณต้องการนั้นขึ้นอยู่กับว่าแบบจำลองนั้นต้องมีคุณภาพสูงแค่ไหนด้วย

ต้นแบบอาจใช้งานได้กับข้อมูลจำนวนไม่มาก แต่แบบจำลองสำหรับการใช้งานจริงในอุตสาหกรรมด้านการดูแลสุขภาพ การเงิน ประกันภัย ยานยนต์ หรือสภาพแวดล้อมที่ต้องปฏิบัติตามกฎระเบียบอย่างเข้มงวด จะต้องการการครอบคลุมที่แข็งแกร่งกว่า ป้ายกำกับที่ชัดเจนกว่า การตรวจสอบความถูกต้องที่ดีกว่า และประสิทธิภาพที่เชื่อถือได้มากขึ้นในกรณีพิเศษต่างๆ ยิ่งอัตราความผิดพลาดที่ยอมรับได้เข้มงวดมากเท่าไร ชุดข้อมูลของคุณก็ยิ่งต้องมีความแข็งแกร่งมากขึ้นเท่านั้น

วิธีการประเมินความต้องการข้อมูลสำหรับการฝึกอบรมในทางปฏิบัติ

แทนที่จะเดา ให้ใช้กระบวนการประเมินที่เป็นระบบ

ขั้นตอนที่ 1: เริ่มต้นด้วยชุดข้อมูลนำร่องที่เป็นตัวแทน

รวบรวมกลุ่มตัวอย่างขนาดเล็กแต่เป็นตัวแทนของปัญหา โดยรวมถึงคลาส รูปแบบ ประเภทผู้ใช้ และความหลากหลายในโลกแห่งความเป็นจริงที่สำคัญ

ขั้นตอนที่ 2: แบ่งข้อมูลให้เหมาะสม

สร้างชุดข้อมูลสำหรับการฝึกฝน การตรวจสอบ และการทดสอบแยกกัน ตรวจสอบให้แน่ใจว่าชุดข้อมูลทดสอบสะท้อนถึงสภาวะการใช้งานจริง และจะไม่ถูกนำไปใช้ในระหว่างการฝึกฝน

ขั้นตอนที่ 3: ฝึกฝนด้วยตัวอย่างขนาดใหญ่ขึ้นเรื่อยๆ

ฝึกฝนโมเดลโดยใช้สัดส่วนของชุดข้อมูลที่เพิ่มขึ้นเรื่อยๆ เช่น 10%, 20%, 40%, 60%, 80% และ 100%

ขั้นตอนที่ 4: สร้างกราฟเส้นโค้งการเรียนรู้

ติดตามตัวชี้วัดประสิทธิภาพ เช่น ความถูกต้องแม่นยำ คะแนน F1 การเรียกคืนข้อมูล ความเที่ยงตรง หรือมาตรวัดคุณภาพเฉพาะงาน เมื่อขนาดของชุดข้อมูลเพิ่มขึ้น

ขั้นตอนที่ 5: มองหาที่ราบสูง

หากประสิทธิภาพของโมเดลดีขึ้นอย่างเห็นได้ชัดเมื่อมีข้อมูลมากขึ้น คุณอาจต้องการข้อมูลเพิ่มขึ้นอีก แต่หากการปรับปรุงเริ่มทรงตัว ปัญหาคอขวดของคุณอาจไม่ใช่ปริมาณข้อมูลอีกต่อไป แต่อาจเป็นคุณภาพของป้ายกำกับ การออกแบบคุณลักษณะ การเลือกโมเดล หรือความไม่สมดุลของคลาส

ขั้นตอนที่ 6: ตรวจสอบประสิทธิภาพในระดับส่วนงาน

ตรวจสอบประสิทธิภาพของโมเดลไม่เพียงแค่โดยรวม แต่รวมถึงในกลุ่มข้อมูลสำคัญและกรณีพิเศษต่างๆ ด้วย โมเดลอาจมีประสิทธิภาพโดยรวมคงที่ แต่ยังคงมีประสิทธิภาพต่ำในกลุ่มข้อมูลส่วนน้อย วิธีนี้ช่วยให้ผู้มีส่วนได้ส่วนเสียได้ประเมินอย่างสมจริงมากขึ้นว่าควรเก็บรวบรวมข้อมูลเพิ่มเติมมากแค่ไหน

วิธีสังเกตว่าคุณมีข้อมูลฝึกฝนเพียงพอแล้วหรือไม่

คุณน่าจะมีข้อมูลเพียงพอเมื่อ:

  • ประสิทธิภาพของโมเดลดีขึ้นเพียงเล็กน้อยเท่านั้นเมื่อมีการเพิ่มข้อมูลมากขึ้น
  • ผลการตรวจสอบมีความเสถียรแม้ในการทดลองหรือการทดสอบหลายครั้ง
  • ชั้นเรียนที่สำคัญก็มีผลการเรียนที่ยอมรับได้ ไม่ใช่แค่ชั้นเรียนส่วนใหญ่เท่านั้น
  • ประสิทธิภาพยังคงดีบนชุดทดสอบที่สะอาดและไม่ถูกแตะต้อง
  • ข้อผิดพลาดที่เหลืออยู่ส่วนใหญ่เกิดจากความไม่ชัดเจนหรือความกำกวมของป้ายกำกับ มากกว่าการขาดตัวอย่าง

คุณอาจต้องการข้อมูลเพิ่มเติมในกรณีต่อไปนี้:

  • เส้นทางการเรียนรู้ยังคงไต่ระดับขึ้นเรื่อยๆ
  • คลาสที่หายากมีผลการเรียนไม่ดี
  • แบบจำลองนี้ใช้ไม่ได้กับสถานการณ์จริงทั่วไป
  • ผลลัพธ์ผันผวนอย่างมากระหว่างการทดลองแต่ละครั้ง
  • ประสิทธิภาพการทดสอบลดลงอย่างมากเมื่อเทียบกับประสิทธิภาพการตรวจสอบ

วิธีลดความต้องการข้อมูลสำหรับการฝึกอบรม

บางครั้งความท้าทายไม่ได้อยู่ที่การออกแบบโมเดล แต่เป็นเรื่องของการขาดแคลนข้อมูล งบประมาณ หรือระยะเวลาในการออกสู่ตลาด ในกรณีเหล่านั้น ทีมงานสามารถลดการพึ่งพาข้อมูลจำนวนมหาศาลได้ด้วยกลยุทธ์ที่เหมาะสม

การเสริมข้อมูล

การเพิ่มข้อมูล (Data augmentation) สร้างตัวอย่างการฝึกอบรมใหม่จากข้อมูลที่มีอยู่แล้ว ในด้านคอมพิวเตอร์วิชั่น อาจรวมถึงการตัด การหมุน การพลิก หรือการปรับความสว่าง ในด้านการประมวลผลภาษาธรรมชาติ (NLP) และการประมวลผลเสียง การเพิ่มข้อมูลต้องทำอย่างระมัดระวังมากขึ้น แต่การแปลงข้อมูลอย่างมีระบบก็ยังสามารถช่วยได้

หากใช้อย่างถูกต้อง การเพิ่มข้อมูลจะช่วยเพิ่มความแข็งแกร่งและช่วยให้แบบจำลองสามารถสรุปผลได้ดีขึ้น แต่หากใช้ไม่ถูกต้อง อาจทำให้เกิดสัญญาณรบกวนหรือตัวอย่างที่ไม่สมจริงได้

ถ่ายทอดการเรียนรู้

การเรียนรู้แบบถ่ายโอน (Transfer learning) ช่วยให้คุณปรับโมเดลที่มีอยู่แล้วให้เข้ากับงานใหม่แทนที่จะเริ่มต้นฝึกโมเดลใหม่ตั้งแต่ต้น ซึ่งมักเป็นหนึ่งในวิธีที่มีประสิทธิภาพที่สุดในการลดความต้องการข้อมูลสำหรับการฝึกโมเดล

โมเดลฝึกหัด

โมเดลที่ผ่านการฝึกฝนล่วงหน้า เช่น โมเดล NLP ที่คล้ายกับ BERT หรือโครงสร้างพื้นฐานด้านการประมวลผลภาพที่ได้รับการยอมรับ สามารถเป็นจุดเริ่มต้นที่ดีได้ แทนที่จะเรียนรู้ทุกอย่างตั้งแต่เริ่มต้น โมเดลจะเริ่มต้นด้วยความรู้พื้นฐานที่เป็นประโยชน์

การเรียนรู้ที่ใช้งานอยู่

หากการติดป้ายกำกับมีค่าใช้จ่ายสูง การเรียนรู้เชิงรุกสามารถช่วยจัดลำดับความสำคัญของตัวอย่างที่มีข้อมูลมากที่สุดก่อนได้ ซึ่งจะช่วยเพิ่มประสิทธิภาพในการติดป้ายกำกับและลดจำนวนป้ายกำกับที่จำเป็นเพื่อให้ได้ประสิทธิภาพที่เป็นประโยชน์

ข้อมูลสังเคราะห์

ข้อมูลสังเคราะห์มีประโยชน์เมื่อข้อมูลจากโลกแห่งความเป็นจริงมีน้อย ละเอียดอ่อน หรือยากต่อการรวบรวม โดยเฉพาะในด้านต่างๆ เช่น การดูแลสุขภาพ การเงิน ระบบอัตโนมัติ และการจำลองกรณีพิเศษ แต่ควรใช้เพื่อเสริมข้อมูลจริงที่เป็นตัวแทน ไม่ใช่แทนที่ข้อมูลจริงโดยไม่พิจารณาให้ดี

ตัวอย่างโครงการการเรียนรู้ของเครื่องจักรในโลกแห่งความเป็นจริงที่มีชุดข้อมูลขั้นต่ำ

แม้ว่าจะฟังดูเป็นไปไม่ได้ที่โครงการการเรียนรู้ของเครื่องจักรที่มีความทะเยอทะยานบางโครงการจะดำเนินการได้โดยใช้วัตถุดิบเพียงเล็กน้อย แต่บางกรณีก็เป็นเรื่องจริงอย่างน่าประหลาดใจ เตรียมพบกับความตื่นตาตื่นใจได้เลย

รายงาน Kaggleการดูแลสุขภาพมะเร็งทางคลินิก
ผลการสำรวจของ Kaggle เผยให้เห็นว่าโครงการการเรียนรู้ของเครื่องมากกว่า 70% เสร็จสมบูรณ์โดยใช้ตัวอย่างน้อยกว่า 10,000 ตัวอย่างด้วยภาพเพียง 500 ภาพ ทีม MIT ได้ฝึกโมเดลเพื่อตรวจจับอาการเส้นประสาทเบาหวานจากภาพทางการแพทย์จากการสแกนดวงตาจากตัวอย่างด้านการดูแลสุขภาพ ทีมงานจากมหาวิทยาลัย Stanford สามารถพัฒนาแบบจำลองเพื่อตรวจจับมะเร็งผิวหนังได้ด้วยภาพเพียง 1000 ภาพ

คาดเดาการศึกษา

การประมาณความต้องการข้อมูลการฝึกอบรม

ไม่มีตัวเลขวิเศษเกี่ยวกับจำนวนข้อมูลขั้นต่ำที่ต้องการ แต่มีกฎง่ายๆ สองสามข้อที่คุณสามารถใช้เพื่อให้ได้จำนวนตรรกยะ

กฎของ10

ในฐานะที่เป็น หลักการง่ายๆในการพัฒนาแบบจำลอง AI ที่มีประสิทธิภาพ จำนวนชุดข้อมูลการฝึกอบรมที่จำเป็นควรมากกว่าพารามิเตอร์แต่ละรุ่นถึงสิบเท่า หรือที่เรียกว่าองศาอิสระ กฎ '10' ครั้งมีจุดมุ่งหมายเพื่อจำกัดความแปรปรวนและเพิ่มความหลากหลายของข้อมูล ดังนั้น กฎทั่วไปนี้สามารถช่วยให้คุณเริ่มต้นโครงการโดยให้แนวคิดพื้นฐานเกี่ยวกับปริมาณชุดข้อมูลที่ต้องการ  

การเรียนรู้ลึก ๆ

วิธีการเรียนรู้เชิงลึกช่วยพัฒนาแบบจำลองคุณภาพสูงหากมีการให้ข้อมูลในระบบมากขึ้น เป็นที่ยอมรับกันโดยทั่วไปว่าการมีรูปภาพที่ติดป้ายกำกับ 5000 ภาพต่อหมวดหมู่น่าจะเพียงพอสำหรับการสร้างอัลกอริธึมการเรียนรู้เชิงลึกที่สามารถทำงานได้เทียบเท่ามนุษย์ ในการพัฒนาแบบจำลองที่ซับซ้อนเป็นพิเศษ จำเป็นต้องมีอย่างน้อย 10 ล้านรายการที่มีป้ายกำกับ

วิสัยทัศน์คอมพิวเตอร์

หากคุณกำลังใช้การเรียนรู้เชิงลึกสำหรับการจัดประเภทรูปภาพ มีฉันทามติว่าชุดข้อมูลที่มีป้ายกำกับ 1000 รูปสำหรับแต่ละคลาสเป็นจำนวนที่เหมาะสม 

เส้นโค้งการเรียนรู้

เส้นโค้งการเรียนรู้ใช้เพื่อแสดงประสิทธิภาพของอัลกอริธึมการเรียนรู้ของเครื่องเทียบกับปริมาณข้อมูล การมีทักษะแบบจำลองบนแกน Y และชุดข้อมูลการฝึกบนแกน X ทำให้เข้าใจได้ว่าขนาดของข้อมูลส่งผลต่อผลลัพธ์ของโครงการอย่างไร

ต้นทุนของการมีข้อมูลไม่เพียงพอ

เมื่อทีมฝึกฝนโมเดลโดยใช้ชุดข้อมูลที่จำกัด แคบ หรือมีอคติ โมเดลอาจดูดีในขั้นตอนการพัฒนา แต่กลับล้มเหลวในขั้นตอนการใช้งานจริง

ข้อมูลไม่เพียงพออาจนำไปสู่:

  • ฟิตเกินไป
  • การสรุปแบบอ่อน
  • การคาดการณ์ที่ไม่แน่นอน
  • ผลการเรียนที่ไม่ดีในกลุ่มชนกลุ่มน้อย
  • ความเสี่ยงต่ออคติที่สูงขึ้น
  • หลังจากเวลาการวนซ้ำเพิ่มเติม

กล่าวอีกนัยหนึ่ง ข้อจำกัดในข้อมูลการฝึกอบรมของคุณมักจะกลายเป็นข้อจำกัดของผลิตภัณฑ์ของคุณ

จะทำอย่างไรถ้าคุณต้องการชุดข้อมูลเพิ่มเติม

เทคนิค/แหล่งที่มาของการรวบรวมข้อมูล

เมื่อคุณพบช่องว่างของข้อมูล วิธีแก้ปัญหาไม่ใช่การ "รวบรวมข้อมูลทั้งหมด" เสมอไป วิธีที่ชาญฉลาดกว่าคือการขยายชุดข้อมูลอย่างมีกลยุทธ์

1. ใช้ชุดข้อมูลแบบเปิดอย่างระมัดระวัง

ชุดข้อมูลแบบเปิดสามารถช่วยในการสร้างต้นแบบหรือการเปรียบเทียบประสิทธิภาพได้ แต่ไม่ได้เหมาะสมเสมอไปสำหรับการใช้งานจริง ทีมงานควรตรวจสอบที่มา ความยินยอม คุณภาพ ความเกี่ยวข้อง และขอบเขตของข้อมูลก่อนที่จะนำไปใช้

2. รวบรวมข้อมูลเฉพาะสำหรับกรณีการใช้งานของคุณ

หากสภาพแวดล้อมเป้าหมายมีความเฉพาะเจาะจงสูง การเก็บรวบรวมข้อมูลแบบกำหนดเองมักเป็นตัวเลือกที่ดีที่สุด โดยเฉพาะอย่างยิ่งสำหรับเวิร์กโฟลว์ที่มีความเชี่ยวชาญเฉพาะด้านสูง เช่น AI ด้านการดูแลสุขภาพ AI ด้านการสนทนา กรณีพิเศษของการประมวลผลภาพ และระบบหลายภาษา

3. ปรับปรุงข้อมูลที่มีอยู่ให้ดียิ่งขึ้นด้วยการใส่คำอธิบายประกอบ

หลายทีมมีข้อมูลดิบอยู่แล้ว แต่ขาดโครงสร้าง การใส่คำอธิบายประกอบ การติดป้ายกำกับใหม่ การปรับปรุงระบบจำแนกประเภท และการตรวจสอบคุณภาพ สามารถสร้างมูลค่าได้เร็วกว่าการรวบรวมชุดข้อมูลใหม่ทั้งหมด

4. ปรับสมดุลกลุ่มที่มีสัดส่วนน้อย

หากประสิทธิภาพในบางหมวดหมู่ไม่ดี ควรเน้นการรวบรวมและติดป้ายกำกับเฉพาะในส่วนที่มีผลกระทบสูงเหล่านั้น แทนที่จะขยายชุดข้อมูลทั้งหมดอย่างสม่ำเสมอ

5. เพิ่มข้อมูลสังเคราะห์หรือข้อมูลเสริมตามความเหมาะสม

เมื่อข้อมูลจริงมีจำกัดหรือมีความละเอียดอ่อน ข้อมูลสังเคราะห์และข้อมูลเสริมสามารถช่วยปรับปรุงความครอบคลุมได้ แต่ควรตรวจสอบความถูกต้องอย่างรอบคอบโดยเทียบกับข้อมูลจริงในโลกแห่งความเป็นจริง

6. ทำงานร่วมกับพันธมิตรผู้เชี่ยวชาญด้านข้อมูล

สำหรับทีมที่พัฒนา AI สำหรับใช้งานจริงในระดับใหญ่ การร่วมมือกับผู้ให้บริการที่สามารถรวบรวม ออกใบอนุญาต ใส่คำอธิบายประกอบ ตรวจสอบความถูกต้อง และกำกับดูแลข้อมูลการฝึกอบรมคุณภาพสูงได้ จะช่วยลดความเสี่ยงของโครงการและเร่งการใช้งานได้อย่างมาก

ข้อสรุป

ไม่มีจำนวนข้อมูลที่ตายตัวสำหรับการฝึกฝนข้อมูลในแมชชีนเลิร์นนิง ปริมาณที่เหมาะสมขึ้นอยู่กับกรณีการใช้งาน ประเภทของโมเดล คุณภาพของข้อมูล ความหลากหลายของคลาส กลยุทธ์การตรวจสอบ และประสิทธิภาพที่ต้องการ

วิธีที่มีประสิทธิภาพที่สุดในการประเมินความต้องการข้อมูลสำหรับการฝึกฝนคือ เริ่มต้นด้วยตัวอย่างที่เป็นตัวแทน วัดประสิทธิภาพโดยใช้เส้นโค้งการเรียนรู้ และขยายชุดข้อมูลอย่างมีกลยุทธ์โดยพิจารณาจากจุดที่แบบจำลองยังคงล้มเหลว

สำหรับบางโครงการ ชุดข้อมูลขนาดพอเหมาะที่มีคุณภาพสูงอาจเพียงพอแล้ว แต่สำหรับโครงการอื่นๆ โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีความเสี่ยงสูงหรือมีความผันแปรสูง ความสำเร็จขึ้นอยู่กับชุดข้อมูลขนาดใหญ่ที่ได้รับการคัดสรรอย่างพิถีพิถันและมีคำอธิบายประกอบอย่างดี

สิ่งที่สำคัญที่สุดไม่ใช่แค่การมีข้อมูลมากขึ้น แต่เป็นการมี... ข้อมูลที่ถูกต้อง.

คุณมีโครงการดีๆ ในใจอยู่แล้ว แต่กำลังรอชุดข้อมูลที่ปรับแต่งมาเพื่อฝึกแบบจำลองของคุณ หรือกำลังดิ้นรนเพื่อให้ได้ผลลัพธ์ที่ถูกต้องจากโครงการของคุณ เรามีชุดข้อมูลการฝึกอบรมที่ครอบคลุมสำหรับความต้องการของโครงการที่หลากหลาย ใช้ประโยชน์จากศักยภาพของ ไชยป์ โดยพูดคุยกับหนึ่งใน .ของเรา นักวิทยาศาสตร์ข้อมูล และทำความเข้าใจว่าเราได้ส่งมอบชุดข้อมูลคุณภาพสูงให้กับลูกค้าในอดีตอย่างไร

ไม่มีจำนวนที่ตายตัว จำนวนที่เหมาะสมขึ้นอยู่กับงาน ความซับซ้อนของโมเดล คุณภาพของป้ายกำกับ ความสมดุลของคลาส และความแม่นยำที่ต้องการ วิธีที่น่าเชื่อถือที่สุดในการประมาณคือการฝึกฝนด้วยชุดย่อยที่เพิ่มขึ้นเรื่อยๆ และวัดการปรับปรุงประสิทธิภาพ

หากประสิทธิภาพของโมเดลดีขึ้นเรื่อยๆ เมื่อขนาดข้อมูลเพิ่มขึ้น หากคลาสที่หายากมีประสิทธิภาพต่ำ หรือหากผลลัพธ์ไม่คงที่ในการทดลองแต่ละครั้ง คุณอาจจำเป็นต้องใช้ข้อมูลฝึกฝนเพิ่มเติม

ใช่แล้ว การเรียนรู้แบบถ่ายโอน (Transfer learning) ช่วยให้โมเดลสามารถนำความรู้จากระบบที่ได้รับการฝึกฝนมาก่อนหน้านี้มาใช้ซ้ำได้ ซึ่งสามารถลดปริมาณข้อมูลที่มีการติดป้ายกำกับเฉพาะงานที่จำเป็นลงได้อย่างมาก

ไม่จำเป็นเสมอไป ข้อมูลคุณภาพต่ำหรือข้อมูลที่ติดป้ายกำกับไม่ดีอาจส่งผลเสียต่อประสิทธิภาพ ในหลายกรณี การปรับปรุงคุณภาพ ความสมดุล และความครอบคลุมของข้อมูลมีคุณค่ามากกว่าการเพิ่มปริมาณข้อมูลเพียงอย่างเดียว

โดยทั่วไปแล้ว โมเดลการเรียนรู้เชิงลึกต้องการข้อมูลมากกว่าโมเดลการเรียนรู้ของเครื่องแบบคลาสสิก โดยเฉพาะอย่างยิ่งสำหรับงานด้านภาพ เสียง และภาษา อย่างไรก็ตาม โมเดลที่ได้รับการฝึกฝนล่วงหน้าและการเรียนรู้แบบถ่ายโอนสามารถลดความต้องการข้อมูลนี้ลงได้

ชอบบทความนี้ไหม? ติดตาม Shaip บน LinkedIn เพื่อรับข้อมูลอัปเดตเพิ่มเติม

แบ่งปันสังคม