ปัญญาประดิษฐ์ด้านการมองเห็น (Vision AI) กำลังก้าวออกจากขั้นตอนการสาธิตและเข้าสู่การใช้งานจริง มีการนำไปใช้ในการตรวจสอบผลิตภัณฑ์ ตรวจสอบสภาพแวดล้อม สนับสนุนขั้นตอนการทำงานด้านความปลอดภัย และช่วยให้ระบบเข้าใจสิ่งที่เกิดขึ้นในภาพและวิดีโอสตรีม เมื่อการใช้งานเพิ่มมากขึ้น ต้นทุนของการฝึกฝนที่ไม่ดีก็เพิ่มขึ้นเช่นกัน โมเดลที่ทำงานได้ดีในชุดทดสอบที่สะอาด อาจยังคงล้มเหลวในโลกแห่งความเป็นจริงเมื่อแสงเปลี่ยนไป วัตถุซ้อนทับกัน หรือสภาพแวดล้อมเปลี่ยนแปลงไปตามเวลา
นั่นคือเหตุผลที่โปรแกรม AI ด้านการมองเห็นที่มีประสิทธิภาพสูงมักจะดูไม่เหมือนการฝึกโมเดลเพียงครั้งเดียว แต่เป็นเหมือนระเบียบวินัยในการปฏิบัติงานมากกว่า โดยจะผสมผสานการรวบรวมข้อมูลที่แข็งแกร่ง กฎการกำหนดคำอธิบายที่ชัดเจน ความเชี่ยวชาญเฉพาะด้าน การเสริมข้อมูลสังเคราะห์เมื่อจำเป็น และการตรวจสอบอย่างต่อเนื่องหลังจากการเปิดใช้งาน เป้าหมายไม่ใช่แค่ความแม่นยำที่สูงขึ้นบนกระดาษ แต่เป็นการทำงานที่เชื่อถือได้เมื่อฉากมีความซับซ้อนมากขึ้น
เหตุใดคุณภาพการฝึกอบรมจึงมีความสำคัญมากกว่าความแปลกใหม่ของแบบจำลอง
หลายทีมเริ่มต้นด้วยการมุ่งเน้นที่สถาปัตยกรรม ซึ่งเป็นสิ่งสำคัญ แต่สำหรับ AI ด้านการมองเห็น คุณภาพของข้อมูลมักเป็นตัวตัดสินว่าโครงการจะไปถึงขั้นตอนการผลิตหรือไม่ หากภาพของคุณมีการติดป้ายกำกับที่ไม่สม่ำเสมอ หมวดหมู่ข้อบกพร่องของคุณคลุมเครือ หรือขาดกรณีพิเศษ โมเดลจะเรียนรู้ภาพความเป็นจริงที่ไม่ชัดเจน
เปรียบเทียบง่ายๆ ก็คือ การสอนใครสักคนให้เป็นผู้ตัดสินกีฬาโดยใช้เพียงคลิปไฮไลท์ พวกเขาอาจจะจำจังหวะสำคัญๆ ได้ แต่จะลำบากกับมุมกล้องที่แปลกๆ มุมมองที่ไม่ครบถ้วน และการตัดสินที่ก้ำกึ่ง ปัญญาประดิษฐ์ด้านการมองเห็นก็เช่นเดียวกัน มันต้องการมากกว่าตัวอย่างที่สมบูรณ์แบบ มันต้องการกรณีที่ยากลำบากด้วย
เริ่มต้นด้วยข้อมูล ไม่ใช่แดชบอร์ด
ก่อนเริ่มการฝึกอบรม ให้กำหนดก่อนว่าโมเดลควรจะมองเห็นอะไร และอะไรคือความสำเร็จ นั่นหมายถึงการตัดสินใจว่างานนั้นเป็นการตรวจจับวัตถุ การจำแนกประเภท การแบ่งส่วน การติดตาม การตรวจจับความผิดปกติ หรือการทำความเข้าใจฉาก นอกจากนี้ยังหมายถึงการตกลงเกี่ยวกับคำจำกัดความของป้ายกำกับตั้งแต่เนิ่นๆ ด้วย
ตัวอย่างเช่น หากระบบมีจุดประสงค์เพื่อแจ้งเตือนอันตรายในสายการผลิต อะไรคือสิ่งที่ถือว่าเป็นอันตรายกันแน่? การบดบังบางส่วนยังถือว่าเป็นอันตรายอยู่หรือไม่? แสงจ้าถือเป็นตัวอย่างเชิงลบหรือเป็นกรณีพิเศษ? รายละเอียดเหล่านี้เป็นตัวกำหนดชุดข้อมูลก่อนที่จะเป็นตัวกำหนดแบบจำลองเสียอีก
นี่คือที่บริการเช่น การเก็บรวบรวมข้อมูล, หมายเหตุข้อมูลและ การสนับสนุนข้อมูลการฝึกอบรมด้านคอมพิวเตอร์วิชั่น กลายเป็นสิ่งสำคัญเชิงกลยุทธ์ กระบวนการทำงานต้นน้ำที่แข็งแกร่งช่วยให้ทีมกำหนดมาตรฐานรูปแบบภาพ รวบรวมข้อมูลได้ครอบคลุมมากขึ้น และลดความคลุมเครือก่อนที่จะแพร่กระจายไปตลอดทั้งกระบวนการ
เหตุใดการติดฉลากแบบทั่วไปจึงมักไม่เพียงพอ
โปรแกรมวิเคราะห์ภาพทั่วไปมีประโยชน์สำหรับงานที่ไม่ซับซ้อน แต่ AI ด้านภาพที่มีคุณค่าสูงมักขึ้นอยู่กับบริบท ผู้เชี่ยวชาญด้านการผลิตอาจตรวจพบรูปแบบความบกพร่องเล็กน้อยที่ดูปกติสำหรับผู้ตรวจสอบทั่วไป ผู้เชี่ยวชาญด้านความปลอดภัยอาจแยกแยะความแตกต่างระหว่างการเคลื่อนไหวปกติและความเสี่ยงที่มีนัยสำคัญ ผู้ตรวจสอบทางการแพทย์อาจระบุได้ว่าทำไมรูปแบบภาพหนึ่งจึงมีความสำคัญในขณะที่อีกรูปแบบหนึ่งไม่สำคัญ
ความแตกต่างนั้นปรากฏให้เห็นชัดเจนที่สุดในกรณีพิเศษ ข้อผิดพลาดที่ร้ายแรงที่สุดใน AI ด้านการมองเห็นมักเกิดขึ้นในสถานการณ์ที่ไม่ชัดเจน ผิดปกติ หรือมีความเสี่ยงสูง นั่นเป็นเหตุผลว่าทำไมการติดป้ายกำกับที่คำนึงถึงโดเมนจึงมีความสำคัญอย่างยิ่งเมื่อทีมเปลี่ยนจากต้นแบบไปสู่การผลิต
ข้อมูลสังเคราะห์มีประโยชน์ แต่จะมีประโยชน์ก็ต่อเมื่อนำไปใช้อย่างมีจุดประสงค์เท่านั้น
ภาพและวิดีโอสังเคราะห์สามารถช่วยได้เมื่อข้อมูลจากโลกแห่งความเป็นจริงหายาก อันตราย มีราคาแพง หรือเก็บรวบรวมได้ช้า โดยเฉพาะอย่างยิ่งมีประโยชน์สำหรับข้อบกพร่องที่ผิดปกติ สถานการณ์เสี่ยง และสภาวะที่ไม่ได้ถูกนำเสนออย่างเพียงพอ แต่ข้อมูลสังเคราะห์ไม่ใช่สิ่งมหัศจรรย์ หากข้อมูลนั้นสะอาดเกินไปหรือแคบเกินไป โมเดลอาจเก่งในสถานการณ์จำลองความเป็นจริง แต่กลับอ่อนแอในสถานการณ์จริง
การใช้ข้อมูลสังเคราะห์ที่ดีที่สุดมักเป็นการเพิ่มข้อมูลแบบเจาะจงเป้าหมาย โดยจะช่วยเติมเต็มช่องว่าง เพิ่มความหลากหลาย และเตรียมแบบจำลองให้พร้อมสำหรับเหตุการณ์ที่ไม่ได้เกิดขึ้นบ่อยนักในฟุตเทจจริง
ฝึกฝนให้เข้าใจบริบทของฉาก ไม่ใช่แค่การมีอยู่ของวัตถุ
ระบบ AI ด้านการมองเห็นที่พัฒนาเต็มที่แล้วนั้น ทำได้มากกว่าแค่ตรวจจับวัตถุในระดับพิกเซล มันตีความสิ่งที่เกิดขึ้นในบริบท ทางเดินที่แออัดอาจเป็นเรื่องปกติในเวลาหนึ่ง แต่เป็นสัญญาณอันตรายในอีกเวลาหนึ่ง รถที่จอดอยู่อาจไม่เป็นอันตรายในสถานการณ์หนึ่ง แต่เป็นอันตรายในอีกสถานการณ์หนึ่ง ข้อบกพร่องอาจมีความสำคัญก็ต่อเมื่อพิจารณาร่วมกับตำแหน่ง รูปแบบการเคลื่อนไหว หรือสถานะการทำงานที่เฉพาะเจาะจงเท่านั้น
ด้วยเหตุนี้ ระบบที่มีคุณภาพสูงจึงพึ่งพาการติดฉลากและกลยุทธ์การประเมินที่ครอบคลุมมากขึ้น แทนที่จะพึ่งพาเพียงคะแนนประสิทธิภาพแคบๆ เพียงอย่างเดียว
เรื่องสั้น: เมื่อแบบจำลองดูแม่นยำจนกระทั่งถึงช่วงทำงานกะกลางคืน
ลองนึกภาพร้านค้าปลีกแห่งหนึ่งนำ AI ด้านการมองเห็นมาใช้เพื่อระบุความเสี่ยงจากการหกเลอะเทอะและทางเดินที่กีดขวาง ในระหว่างการทดสอบนำร่อง ผลลัพธ์ดูดีมาก ภาพวิดีโอในเวลากลางวันมีความคมชัด ป้ายสินค้าเป็นระเบียบ และแบบจำลองสามารถตรวจจับปัญหาที่เห็นได้ชัดส่วนใหญ่ได้
จากนั้นกะกลางคืนก็เริ่มต้นขึ้น แสงสว่างลดลง เงาสะท้อนบนพื้นเปลี่ยนไป รถเข็นทำความสะอาดบังมุมมองของกล้องบางส่วน พนักงานเคลื่อนไหวแตกต่างออกไป ทันใดนั้น ระบบก็มองข้ามอันตรายที่แท้จริงและแจ้งเตือนกิจกรรมที่ไม่เป็นอันตรายเกินจริง
โมเดลเดิมนั้นไม่ได้มีอะไรผิดปกติ เพียงแต่ไม่สมบูรณ์ ข้อมูลการฝึกฝนสะท้อนถึงสภาพแวดล้อมเพียงเวอร์ชันเดียว ไม่ใช่สภาพแวดล้อมทั้งหมด เมื่อทีมเพิ่มภาพวิดีโอในเวลากลางคืน คำอธิบายกรณีพิเศษ และข้อเสนอแนะจากผู้ตรวจสอบจากผู้ประกอบการร้านค้า ประสิทธิภาพก็ดีขึ้น เพราะในที่สุดโมเดลก็เรียนรู้จากสภาพแวดล้อมที่มันจะต้องเผชิญจริง ๆ
กรอบการตัดสินใจ: เมื่อใดควรเพิ่มข้อมูล ผู้เชี่ยวชาญ หรือข้อเสนอแนะเพิ่มเติม
วิธีปฏิบัติที่จะช่วยพัฒนา AI ด้านการมองเห็นคือการถามคำถามสี่ข้อต่อไปนี้:
- ความผิดพลาดประเภทไหนที่สำคัญที่สุด?
ผลลัพธ์เชิงลบที่ผิดพลาดส่งผลกระทบแตกต่างกันในด้านความปลอดภัย การดูแลสุขภาพ การค้าปลีก และการผลิต - เงื่อนไขใดบ้างที่ได้รับการนำเสนออย่างไม่เพียงพอ?
สังเกตความแปรปรวนของแสง การเบลอจากการเคลื่อนไหว การบดบัง การเปลี่ยนแปลงตามฤดูกาล การเปลี่ยนมุมกล้อง และเหตุการณ์หายาก - การตัดสินของมนุษย์เปลี่ยนแปลงฉลากตรงไหน?
นั่นคือจุดที่ผู้เชี่ยวชาญเฉพาะด้านได้รับค่าตอบแทนที่เหมาะสม - หลังจากเปิดตัวแล้ว คุณจะติดตามอะไรบ้าง?
ความแม่นยำอย่างเดียวไม่เพียงพอ ทีมควรติดตามอัตราการพลาด การคลาดเคลื่อน ความหน่วง และประสิทธิภาพภายใต้สภาวะจริงที่เปลี่ยนแปลงไป
ลักษณะการดำเนินงาน AI ด้านการมองเห็นที่ดีควรเป็นอย่างไร
โปรแกรมฝึกอบรมที่ดีที่สุดมักมีลักษณะร่วมกันอยู่ไม่กี่อย่าง ได้แก่ การกำหนดมาตรฐานข้อมูลก่อนการติดป้ายกำกับ การสร้างแนวทางการติดป้ายกำกับพร้อมตัวอย่างและกฎข้อยกเว้น การเพิ่มการตรวจสอบคุณภาพแทนที่จะสันนิษฐานว่าป้ายกำกับทั้งหมดมีความน่าเชื่อถือเท่ากัน การใช้ข้อมูลสังเคราะห์เพื่อเติมเต็มช่องว่างที่มีความหมาย ไม่ใช่เพื่อแทนที่ความเป็นจริง และการสร้างวงจรการให้ข้อเสนอแนะหลังการใช้งาน เพื่อให้ผู้ปฏิบัติงานสามารถแจ้งข้อผิดพลาดและป้อนข้อมูลนั้นกลับเข้าสู่การฝึกอบรมใหม่ได้
นั่นเป็นเหตุผลที่หลายทีมมองโครงการด้านวิสัยทัศน์ว่าเป็นกระบวนการจัดการข้อมูลอย่างต่อเนื่องมากกว่าการทดลองโมเดลแบบแยกส่วน โครงสร้างพื้นฐานที่แข็งแกร่งสำหรับข้อมูลการฝึกอบรม การตรวจสอบ และวงจรการปรับปรุง จะช่วยให้โมเดลยังคงมีประโยชน์เมื่อโลกเปลี่ยนแปลงไปรอบ ๆ
สรุป
ผลลัพธ์ที่มีคุณภาพสูงในด้าน AI ด้านการมองเห็นไม่ได้มาจากการใช้ข้อมูลจำนวนมากเพียงอย่างเดียว แต่มาจากการตัดสินใจที่ดีขึ้นเกี่ยวกับสิ่งที่จะเก็บรวบรวม วิธีการติดป้ายกำกับ การใช้ผู้เชี่ยวชาญในส่วนใด การจำลองกรณีพิเศษ และวิธีการวัดประสิทธิภาพหลังการใช้งาน
กล่าวอีกนัยหนึ่ง การฝึกฝน AI ด้านการมองเห็นไม่ใช่เหมือนการเติมน้ำมันในถัง แต่เหมือนกับการฝึกสอนทีมให้รับมือกับสภาวะการแข่งขันที่เปลี่ยนแปลงไป ระบบที่ดีที่สุดจะได้รับการฝึกฝนจากตัวอย่างที่สมจริง เผชิญกับสถานการณ์ที่ยากลำบาก และพัฒนาอย่างต่อเนื่องเมื่อนำไปใช้งานจริง
Vision AI คืออะไร?
ปัญญาประดิษฐ์ด้านภาพ (Vision AI) คือการใช้โมเดล AI ในการตีความภาพและวิดีโอ ซึ่งรวมถึงงานต่างๆ เช่น การตรวจจับ การจำแนก การแบ่งส่วน การติดตาม และการทำความเข้าใจฉาก
เหตุใด AI ด้านการมองเห็นจึงล้มเหลวในการใช้งานจริง?
สาเหตุทั่วไป ได้แก่ การครอบคลุมกรณีพิเศษที่ไม่ครบถ้วน ป้ายกำกับที่ไม่สอดคล้องกัน ความไม่ตรงกันของโดเมน การเปลี่ยนแปลงของแสง การบดบัง และการขาดการตรวจสอบหลังการใช้งาน
ข้อมูลสังเคราะห์มีประโยชน์สำหรับ AI ด้านการมองเห็นหรือไม่?
ใช่ โดยเฉพาะอย่างยิ่งสำหรับสถานการณ์ที่หายากหรือมีความเสี่ยง แต่จะได้ผลดีที่สุดเมื่อใช้เป็นการเสริมข้อมูลแบบเจาะจงมากกว่าการใช้ทดแทนข้อมูลการประเมินในโลกแห่งความเป็นจริงทั้งหมด
ทีมงานต้องการผู้เชี่ยวชาญด้านการใส่คำอธิบายประกอบเมื่อใด?
ป้ายกำกับเหล่านี้มีความสำคัญที่สุดเมื่อต้องการการตัดสินใจเฉพาะด้าน เช่น ข้อบกพร่อง ความเสี่ยงด้านความปลอดภัย ผลการตรวจทางการแพทย์ หรือบริบทที่ละเอียดอ่อนซึ่งผู้ตรวจสอบทั่วไปอาจมองข้ามไป
ทีมควรวัดอะไรบ้างหลังจากการใช้งานระบบ?
ทีมควรตรวจสอบอัตราการพลาดเป้า การเบี่ยงเบน ความล่าช้า และประสิทธิภาพการทำงานในสภาวะที่เปลี่ยนแปลงไป เช่น แสงสว่าง ตำแหน่งกล้อง และรูปแบบการจราจร
คุณจะพัฒนา AI ด้านการมองเห็นให้ดียิ่งขึ้นได้อย่างไรเมื่อเวลาผ่านไป?
ปรับปรุงกระบวนการทำงานของข้อมูล: รวบรวมตัวอย่างจากโลกแห่งความเป็นจริงใหม่ๆ ปรับปรุงกฎการระบุข้อมูล ผสานรวมข้อเสนอแนะจากผู้ตรวจสอบ และฝึกฝนโมเดลใหม่โดยใช้รูปแบบความล้มเหลวที่สังเกตได้


