วิสัยทัศน์ AI

ปัญญาประดิษฐ์ด้านการมองเห็น: วิธีฝึกฝนเพื่อให้ได้ผลลัพธ์คุณภาพสูงในโลกแห่งความเป็นจริง

ปัญญาประดิษฐ์ด้านการมองเห็น (Vision AI) กำลังก้าวออกจากขั้นตอนการสาธิตและเข้าสู่การใช้งานจริง มีการนำไปใช้ในการตรวจสอบผลิตภัณฑ์ ตรวจสอบสภาพแวดล้อม สนับสนุนขั้นตอนการทำงานด้านความปลอดภัย และช่วยให้ระบบเข้าใจสิ่งที่เกิดขึ้นในภาพและวิดีโอสตรีม เมื่อการใช้งานเพิ่มมากขึ้น ต้นทุนของการฝึกฝนที่ไม่ดีก็เพิ่มขึ้นเช่นกัน โมเดลที่ทำงานได้ดีในชุดทดสอบที่สะอาด อาจยังคงล้มเหลวในโลกแห่งความเป็นจริงเมื่อแสงเปลี่ยนไป วัตถุซ้อนทับกัน หรือสภาพแวดล้อมเปลี่ยนแปลงไปตามเวลา

นั่นคือเหตุผลที่โปรแกรม AI ด้านการมองเห็นที่มีประสิทธิภาพสูงมักจะดูไม่เหมือนการฝึกโมเดลเพียงครั้งเดียว แต่เป็นเหมือนระเบียบวินัยในการปฏิบัติงานมากกว่า โดยจะผสมผสานการรวบรวมข้อมูลที่แข็งแกร่ง กฎการกำหนดคำอธิบายที่ชัดเจน ความเชี่ยวชาญเฉพาะด้าน การเสริมข้อมูลสังเคราะห์เมื่อจำเป็น และการตรวจสอบอย่างต่อเนื่องหลังจากการเปิดใช้งาน เป้าหมายไม่ใช่แค่ความแม่นยำที่สูงขึ้นบนกระดาษ แต่เป็นการทำงานที่เชื่อถือได้เมื่อฉากมีความซับซ้อนมากขึ้น

เหตุใดคุณภาพการฝึกอบรมจึงมีความสำคัญมากกว่าความแปลกใหม่ของแบบจำลอง

หลายทีมเริ่มต้นด้วยการมุ่งเน้นที่สถาปัตยกรรม ซึ่งเป็นสิ่งสำคัญ แต่สำหรับ AI ด้านการมองเห็น คุณภาพของข้อมูลมักเป็นตัวตัดสินว่าโครงการจะไปถึงขั้นตอนการผลิตหรือไม่ หากภาพของคุณมีการติดป้ายกำกับที่ไม่สม่ำเสมอ หมวดหมู่ข้อบกพร่องของคุณคลุมเครือ หรือขาดกรณีพิเศษ โมเดลจะเรียนรู้ภาพความเป็นจริงที่ไม่ชัดเจน

เปรียบเทียบง่ายๆ ก็คือ การสอนใครสักคนให้เป็นผู้ตัดสินกีฬาโดยใช้เพียงคลิปไฮไลท์ พวกเขาอาจจะจำจังหวะสำคัญๆ ได้ แต่จะลำบากกับมุมกล้องที่แปลกๆ มุมมองที่ไม่ครบถ้วน และการตัดสินที่ก้ำกึ่ง ปัญญาประดิษฐ์ด้านการมองเห็นก็เช่นเดียวกัน มันต้องการมากกว่าตัวอย่างที่สมบูรณ์แบบ มันต้องการกรณีที่ยากลำบากด้วย

เริ่มต้นด้วยข้อมูล ไม่ใช่แดชบอร์ด

ก่อนเริ่มการฝึกอบรม ให้กำหนดก่อนว่าโมเดลควรจะมองเห็นอะไร และอะไรคือความสำเร็จ นั่นหมายถึงการตัดสินใจว่างานนั้นเป็นการตรวจจับวัตถุ การจำแนกประเภท การแบ่งส่วน การติดตาม การตรวจจับความผิดปกติ หรือการทำความเข้าใจฉาก นอกจากนี้ยังหมายถึงการตกลงเกี่ยวกับคำจำกัดความของป้ายกำกับตั้งแต่เนิ่นๆ ด้วย

ตัวอย่างเช่น หากระบบมีจุดประสงค์เพื่อแจ้งเตือนอันตรายในสายการผลิต อะไรคือสิ่งที่ถือว่าเป็นอันตรายกันแน่? การบดบังบางส่วนยังถือว่าเป็นอันตรายอยู่หรือไม่? แสงจ้าถือเป็นตัวอย่างเชิงลบหรือเป็นกรณีพิเศษ? รายละเอียดเหล่านี้เป็นตัวกำหนดชุดข้อมูลก่อนที่จะเป็นตัวกำหนดแบบจำลองเสียอีก

นี่คือที่บริการเช่น การเก็บรวบรวมข้อมูล, หมายเหตุข้อมูลและ การสนับสนุนข้อมูลการฝึกอบรมด้านคอมพิวเตอร์วิชั่น กลายเป็นสิ่งสำคัญเชิงกลยุทธ์ กระบวนการทำงานต้นน้ำที่แข็งแกร่งช่วยให้ทีมกำหนดมาตรฐานรูปแบบภาพ รวบรวมข้อมูลได้ครอบคลุมมากขึ้น และลดความคลุมเครือก่อนที่จะแพร่กระจายไปตลอดทั้งกระบวนการ

เหตุใดการติดฉลากแบบทั่วไปจึงมักไม่เพียงพอ

การติดฉลากทั่วไปโปรแกรมวิเคราะห์ภาพทั่วไปมีประโยชน์สำหรับงานที่ไม่ซับซ้อน แต่ AI ด้านภาพที่มีคุณค่าสูงมักขึ้นอยู่กับบริบท ผู้เชี่ยวชาญด้านการผลิตอาจตรวจพบรูปแบบความบกพร่องเล็กน้อยที่ดูปกติสำหรับผู้ตรวจสอบทั่วไป ผู้เชี่ยวชาญด้านความปลอดภัยอาจแยกแยะความแตกต่างระหว่างการเคลื่อนไหวปกติและความเสี่ยงที่มีนัยสำคัญ ผู้ตรวจสอบทางการแพทย์อาจระบุได้ว่าทำไมรูปแบบภาพหนึ่งจึงมีความสำคัญในขณะที่อีกรูปแบบหนึ่งไม่สำคัญ

ความแตกต่างนั้นปรากฏให้เห็นชัดเจนที่สุดในกรณีพิเศษ ข้อผิดพลาดที่ร้ายแรงที่สุดใน AI ด้านการมองเห็นมักเกิดขึ้นในสถานการณ์ที่ไม่ชัดเจน ผิดปกติ หรือมีความเสี่ยงสูง นั่นเป็นเหตุผลว่าทำไมการติดป้ายกำกับที่คำนึงถึงโดเมนจึงมีความสำคัญอย่างยิ่งเมื่อทีมเปลี่ยนจากต้นแบบไปสู่การผลิต

ข้อมูลสังเคราะห์มีประโยชน์ แต่จะมีประโยชน์ก็ต่อเมื่อนำไปใช้อย่างมีจุดประสงค์เท่านั้น

ภาพและวิดีโอสังเคราะห์สามารถช่วยได้เมื่อข้อมูลจากโลกแห่งความเป็นจริงหายาก อันตราย มีราคาแพง หรือเก็บรวบรวมได้ช้า โดยเฉพาะอย่างยิ่งมีประโยชน์สำหรับข้อบกพร่องที่ผิดปกติ สถานการณ์เสี่ยง และสภาวะที่ไม่ได้ถูกนำเสนออย่างเพียงพอ แต่ข้อมูลสังเคราะห์ไม่ใช่สิ่งมหัศจรรย์ หากข้อมูลนั้นสะอาดเกินไปหรือแคบเกินไป โมเดลอาจเก่งในสถานการณ์จำลองความเป็นจริง แต่กลับอ่อนแอในสถานการณ์จริง

การใช้ข้อมูลสังเคราะห์ที่ดีที่สุดมักเป็นการเพิ่มข้อมูลแบบเจาะจงเป้าหมาย โดยจะช่วยเติมเต็มช่องว่าง เพิ่มความหลากหลาย และเตรียมแบบจำลองให้พร้อมสำหรับเหตุการณ์ที่ไม่ได้เกิดขึ้นบ่อยนักในฟุตเทจจริง

ฝึกฝนให้เข้าใจบริบทของฉาก ไม่ใช่แค่การมีอยู่ของวัตถุ

ระบบ AI ด้านการมองเห็นที่พัฒนาเต็มที่แล้วนั้น ทำได้มากกว่าแค่ตรวจจับวัตถุในระดับพิกเซล มันตีความสิ่งที่เกิดขึ้นในบริบท ทางเดินที่แออัดอาจเป็นเรื่องปกติในเวลาหนึ่ง แต่เป็นสัญญาณอันตรายในอีกเวลาหนึ่ง รถที่จอดอยู่อาจไม่เป็นอันตรายในสถานการณ์หนึ่ง แต่เป็นอันตรายในอีกสถานการณ์หนึ่ง ข้อบกพร่องอาจมีความสำคัญก็ต่อเมื่อพิจารณาร่วมกับตำแหน่ง รูปแบบการเคลื่อนไหว หรือสถานะการทำงานที่เฉพาะเจาะจงเท่านั้น

ด้วยเหตุนี้ ระบบที่มีคุณภาพสูงจึงพึ่งพาการติดฉลากและกลยุทธ์การประเมินที่ครอบคลุมมากขึ้น แทนที่จะพึ่งพาเพียงคะแนนประสิทธิภาพแคบๆ เพียงอย่างเดียว

เรื่องสั้น: เมื่อแบบจำลองดูแม่นยำจนกระทั่งถึงช่วงทำงานกะกลางคืน

ลองนึกภาพร้านค้าปลีกแห่งหนึ่งนำ AI ด้านการมองเห็นมาใช้เพื่อระบุความเสี่ยงจากการหกเลอะเทอะและทางเดินที่กีดขวาง ในระหว่างการทดสอบนำร่อง ผลลัพธ์ดูดีมาก ภาพวิดีโอในเวลากลางวันมีความคมชัด ป้ายสินค้าเป็นระเบียบ และแบบจำลองสามารถตรวจจับปัญหาที่เห็นได้ชัดส่วนใหญ่ได้

จากนั้นกะกลางคืนก็เริ่มต้นขึ้น แสงสว่างลดลง เงาสะท้อนบนพื้นเปลี่ยนไป รถเข็นทำความสะอาดบังมุมมองของกล้องบางส่วน พนักงานเคลื่อนไหวแตกต่างออกไป ทันใดนั้น ระบบก็มองข้ามอันตรายที่แท้จริงและแจ้งเตือนกิจกรรมที่ไม่เป็นอันตรายเกินจริง

โมเดลเดิมนั้นไม่ได้มีอะไรผิดปกติ เพียงแต่ไม่สมบูรณ์ ข้อมูลการฝึกฝนสะท้อนถึงสภาพแวดล้อมเพียงเวอร์ชันเดียว ไม่ใช่สภาพแวดล้อมทั้งหมด เมื่อทีมเพิ่มภาพวิดีโอในเวลากลางคืน คำอธิบายกรณีพิเศษ และข้อเสนอแนะจากผู้ตรวจสอบจากผู้ประกอบการร้านค้า ประสิทธิภาพก็ดีขึ้น เพราะในที่สุดโมเดลก็เรียนรู้จากสภาพแวดล้อมที่มันจะต้องเผชิญจริง ๆ

กรอบการตัดสินใจ: เมื่อใดควรเพิ่มข้อมูล ผู้เชี่ยวชาญ หรือข้อเสนอแนะเพิ่มเติม

วิธีปฏิบัติที่จะช่วยพัฒนา AI ด้านการมองเห็นคือการถามคำถามสี่ข้อต่อไปนี้:

  1. ความผิดพลาดประเภทไหนที่สำคัญที่สุด?
    ผลลัพธ์เชิงลบที่ผิดพลาดส่งผลกระทบแตกต่างกันในด้านความปลอดภัย การดูแลสุขภาพ การค้าปลีก และการผลิต
  2. เงื่อนไขใดบ้างที่ได้รับการนำเสนออย่างไม่เพียงพอ?
    สังเกตความแปรปรวนของแสง การเบลอจากการเคลื่อนไหว การบดบัง การเปลี่ยนแปลงตามฤดูกาล การเปลี่ยนมุมกล้อง และเหตุการณ์หายาก
  3. การตัดสินของมนุษย์เปลี่ยนแปลงฉลากตรงไหน?
    นั่นคือจุดที่ผู้เชี่ยวชาญเฉพาะด้านได้รับค่าตอบแทนที่เหมาะสม
  4. หลังจากเปิดตัวแล้ว คุณจะติดตามอะไรบ้าง?
    ความแม่นยำอย่างเดียวไม่เพียงพอ ทีมควรติดตามอัตราการพลาด การคลาดเคลื่อน ความหน่วง และประสิทธิภาพภายใต้สภาวะจริงที่เปลี่ยนแปลงไป

ลักษณะการดำเนินงาน AI ด้านการมองเห็นที่ดีควรเป็นอย่างไร

วิสัยทัศน์ที่ดี AIโปรแกรมฝึกอบรมที่ดีที่สุดมักมีลักษณะร่วมกันอยู่ไม่กี่อย่าง ได้แก่ การกำหนดมาตรฐานข้อมูลก่อนการติดป้ายกำกับ การสร้างแนวทางการติดป้ายกำกับพร้อมตัวอย่างและกฎข้อยกเว้น การเพิ่มการตรวจสอบคุณภาพแทนที่จะสันนิษฐานว่าป้ายกำกับทั้งหมดมีความน่าเชื่อถือเท่ากัน การใช้ข้อมูลสังเคราะห์เพื่อเติมเต็มช่องว่างที่มีความหมาย ไม่ใช่เพื่อแทนที่ความเป็นจริง และการสร้างวงจรการให้ข้อเสนอแนะหลังการใช้งาน เพื่อให้ผู้ปฏิบัติงานสามารถแจ้งข้อผิดพลาดและป้อนข้อมูลนั้นกลับเข้าสู่การฝึกอบรมใหม่ได้

นั่นเป็นเหตุผลที่หลายทีมมองโครงการด้านวิสัยทัศน์ว่าเป็นกระบวนการจัดการข้อมูลอย่างต่อเนื่องมากกว่าการทดลองโมเดลแบบแยกส่วน โครงสร้างพื้นฐานที่แข็งแกร่งสำหรับข้อมูลการฝึกอบรม การตรวจสอบ และวงจรการปรับปรุง จะช่วยให้โมเดลยังคงมีประโยชน์เมื่อโลกเปลี่ยนแปลงไปรอบ ๆ

สรุป

ผลลัพธ์ที่มีคุณภาพสูงในด้าน AI ด้านการมองเห็นไม่ได้มาจากการใช้ข้อมูลจำนวนมากเพียงอย่างเดียว แต่มาจากการตัดสินใจที่ดีขึ้นเกี่ยวกับสิ่งที่จะเก็บรวบรวม วิธีการติดป้ายกำกับ การใช้ผู้เชี่ยวชาญในส่วนใด การจำลองกรณีพิเศษ และวิธีการวัดประสิทธิภาพหลังการใช้งาน

กล่าวอีกนัยหนึ่ง การฝึกฝน AI ด้านการมองเห็นไม่ใช่เหมือนการเติมน้ำมันในถัง แต่เหมือนกับการฝึกสอนทีมให้รับมือกับสภาวะการแข่งขันที่เปลี่ยนแปลงไป ระบบที่ดีที่สุดจะได้รับการฝึกฝนจากตัวอย่างที่สมจริง เผชิญกับสถานการณ์ที่ยากลำบาก และพัฒนาอย่างต่อเนื่องเมื่อนำไปใช้งานจริง

ปัญญาประดิษฐ์ด้านภาพ (Vision AI) คือการใช้โมเดล AI ในการตีความภาพและวิดีโอ ซึ่งรวมถึงงานต่างๆ เช่น การตรวจจับ การจำแนก การแบ่งส่วน การติดตาม และการทำความเข้าใจฉาก

สาเหตุทั่วไป ได้แก่ การครอบคลุมกรณีพิเศษที่ไม่ครบถ้วน ป้ายกำกับที่ไม่สอดคล้องกัน ความไม่ตรงกันของโดเมน การเปลี่ยนแปลงของแสง การบดบัง และการขาดการตรวจสอบหลังการใช้งาน

ใช่ โดยเฉพาะอย่างยิ่งสำหรับสถานการณ์ที่หายากหรือมีความเสี่ยง แต่จะได้ผลดีที่สุดเมื่อใช้เป็นการเสริมข้อมูลแบบเจาะจงมากกว่าการใช้ทดแทนข้อมูลการประเมินในโลกแห่งความเป็นจริงทั้งหมด

ป้ายกำกับเหล่านี้มีความสำคัญที่สุดเมื่อต้องการการตัดสินใจเฉพาะด้าน เช่น ข้อบกพร่อง ความเสี่ยงด้านความปลอดภัย ผลการตรวจทางการแพทย์ หรือบริบทที่ละเอียดอ่อนซึ่งผู้ตรวจสอบทั่วไปอาจมองข้ามไป

ทีมควรตรวจสอบอัตราการพลาดเป้า การเบี่ยงเบน ความล่าช้า และประสิทธิภาพการทำงานในสภาวะที่เปลี่ยนแปลงไป เช่น แสงสว่าง ตำแหน่งกล้อง และรูปแบบการจราจร

ปรับปรุงกระบวนการทำงานของข้อมูล: รวบรวมตัวอย่างจากโลกแห่งความเป็นจริงใหม่ๆ ปรับปรุงกฎการระบุข้อมูล ผสานรวมข้อเสนอแนะจากผู้ตรวจสอบ และฝึกฝนโมเดลใหม่โดยใช้รูปแบบความล้มเหลวที่สังเกตได้

ชอบบทความนี้ไหม? ติดตาม Shaip บน LinkedIn เพื่อรับข้อมูลอัปเดตเพิ่มเติม

แบ่งปันสังคม