ทุกครั้งที่เราได้ยินคำหรืออ่านข้อความ เรามีความสามารถตามธรรมชาติในการระบุและจัดหมวดหมู่คำให้เป็นบุคคล สถานที่ สถานที่ ค่านิยม และอื่นๆ มนุษย์สามารถจดจำคำ จัดหมวดหมู่ และเข้าใจบริบทได้อย่างรวดเร็ว ตัวอย่างเช่น เมื่อคุณได้ยินคำว่า 'สตีฟจ็อบส์' คุณสามารถนึกถึงคุณลักษณะอย่างน้อยสามถึงสี่อย่างได้ทันที และแยกเอนทิตีออกเป็นหมวดหมู่
- ผู้ที่: งานสตีฟ
- บริษัท: แอปเปิล
- สถานที่ตั้ง: แคลิฟอร์เนีย
เนื่องจากคอมพิวเตอร์ไม่มีความสามารถตามธรรมชาติ จึงต้องการความช่วยเหลือจากเราในการระบุคำหรือข้อความและจัดหมวดหมู่ มันอยู่ที่ไหน ชื่อการรับรู้เอนทิตี (เนอร์) เข้ามาเล่น
มาทำความเข้าใจโดยย่อของ NER และความสัมพันธ์กับ NLP กัน
Named Entity Recognition คืออะไร?
Named Entity Recognition เป็นส่วนหนึ่งของการประมวลผลภาษาธรรมชาติ วัตถุประสงค์หลักของ NER คือการประมวลผล ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และจัดประเภทเอนทิตีที่มีชื่อเหล่านี้เป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า หมวดหมู่ทั่วไปบางประเภท ได้แก่ ชื่อ สถานที่ บริษัท เวลา มูลค่าเงิน เหตุการณ์ และอื่นๆ
โดยสรุป NER เกี่ยวข้องกับ:
- การรับรู้/การตรวจจับเอนทิตีที่มีชื่อ – การระบุคำหรือชุดคำในเอกสาร
- การจัดประเภทเอนทิตีที่มีชื่อ – จำแนกทุกเอนทิตีที่ตรวจพบเป็นประเภทที่กำหนดไว้ล่วงหน้า
แต่ NER เกี่ยวข้องกับ NLP อย่างไร?
การประมวลผลภาษาธรรมชาติช่วยพัฒนาเครื่องจักรอัจฉริยะที่สามารถแยกความหมายจากคำพูดและข้อความได้ การเรียนรู้ของเครื่องช่วยให้ระบบอัจฉริยะเหล่านี้เรียนรู้ต่อไปโดยการฝึกอบรมเกี่ยวกับภาษาธรรมชาติจำนวนมาก ชุดข้อมูล.
โดยทั่วไปแล้ว NLP ประกอบด้วยสามประเภทหลัก:
- การทำความเข้าใจโครงสร้างและกฎของภาษา – วากยสัมพันธ์
- การหาความหมายของคำ ข้อความ และคำพูด และระบุความสัมพันธ์ - อรรถศาสตร์
- ระบุและจดจำคำพูดและแปลงเป็นข้อความ - คำพูด
NER ช่วยในส่วนของความหมายของ NLPแยกความหมายของคำ ระบุและค้นหาตามความสัมพันธ์
ตัวอย่างทั่วไปของ NER
ตัวอย่างทั่วไปบางส่วนที่กำหนดไว้ล่วงหน้า การจัดประเภทนิติบุคคล คือ:
ผู้ที่: ไมเคิล แจ็คสัน, โอปราห์ วินฟรีย์, บารัค โอบามา, ซูซาน ซาแรนดอน
สถานที่ตั้ง: แคนาดา โฮโนลูลู กรุงเทพฯ บราซิล เคมบริดจ์
องค์กร: Samsung, Disney, มหาวิทยาลัยเยล, Google
เวลา: 15.35 น. 12:XNUMX น.
หมวดหมู่อื่นๆ ได้แก่ ค่าตัวเลข นิพจน์ ที่อยู่อีเมล และสิ่งอำนวยความสะดวก
ความคลุมเครือในการรับรู้เอนทิตีที่มีชื่อ
หมวดหมู่ของคำศัพท์นั้นค่อนข้างชัดเจนสำหรับมนุษย์โดยสัญชาตญาณ อย่างไรก็ตาม นั่นไม่ใช่กรณีกับคอมพิวเตอร์ เนื่องจากเกิดปัญหาการจำแนกประเภท ตัวอย่างเช่น:
เมืองแมนเชสเตอร์ (องค์กร) ได้รับรางวัล Premier League Trophy ขณะที่ในประโยคต่อไปนี้องค์กรใช้ต่างกัน เมืองแมนเชสเตอร์ (แผนที่) เป็นโรงไฟฟ้าสิ่งทอและอุตสาหกรรม
โมเดล NER ของคุณต้องการ ข้อมูลการฝึกอบรม เพื่อดำเนินการให้ถูกต้อง การสกัดเอนทิตี และการจำแนกประเภท หากคุณกำลังฝึกนางแบบของคุณเกี่ยวกับภาษาอังกฤษของเชคสเปียร์ คุณจะไม่สามารถถอดรหัส Instagram ได้
แนวทาง NER ที่แตกต่างกัน
เป้าหมายหลักของ รุ่น NER คือการติดป้ายกำกับหน่วยงานในเอกสารข้อความและจัดหมวดหมู่ โดยทั่วไปจะใช้สามวิธีต่อไปนี้เพื่อจุดประสงค์นี้ อย่างไรก็ตาม คุณสามารถเลือกที่จะรวมวิธีการอย่างน้อยหนึ่งวิธีได้เช่นกัน
แนวทางต่างๆ ในการสร้างระบบ NER ได้แก่
ระบบที่ใช้พจนานุกรม
ระบบที่ใช้พจนานุกรมอาจเป็นแนวทาง NER ที่ง่ายและเป็นพื้นฐานที่สุด โดยจะใช้พจนานุกรมที่มีคำศัพท์ คำพ้องความหมาย และคลังคำศัพท์มากมาย ระบบจะตรวจสอบว่าเอนทิตีเฉพาะที่มีอยู่ในข้อความนั้นมีอยู่ในคำศัพท์หรือไม่ โดยใช้อัลกอริธึมการจับคู่สตริง การตรวจสอบข้ามของเอนทิตีจะถูกดำเนินการ
ข้อเสียอย่างหนึ่งของการใช้วิธีนี้คือ จำเป็นต้องอัปเกรดชุดข้อมูลคำศัพท์อย่างต่อเนื่องเพื่อให้โมเดล NER ทำงานได้อย่างมีประสิทธิภาพ
ระบบตามกฎ
ในแนวทางนี้ ข้อมูลจะถูกดึงออกมาตามชุดของกฎที่ตั้งไว้ล่วงหน้า กฎหลักที่ใช้มี XNUMX ชุด คือ
กฎตามรูปแบบ – ตามชื่อที่แนะนำ กฎตามรูปแบบจะเป็นไปตามรูปแบบทางสัณฐานวิทยาหรือสตริงของคำที่ใช้ในเอกสาร
กฎตามบริบท – กฎตามบริบทขึ้นอยู่กับความหมายหรือบริบทของคำในเอกสาร
ระบบที่ใช้การเรียนรู้ของเครื่อง
ในระบบที่ใช้การเรียนรู้ด้วยเครื่อง การจำลองทางสถิติใช้เพื่อตรวจจับเอนทิตี การนำเสนอตามคุณสมบัติของเอกสารข้อความถูกนำมาใช้ในแนวทางนี้ คุณสามารถเอาชนะข้อเสียหลายประการของสองวิธีแรกได้ เนื่องจากตัวแบบสามารถรับรู้ได้ ประเภทนิติบุคคล แม้จะมีความแตกต่างเล็กน้อยในการสะกดคำ
การประยุกต์ใช้ NER
NER มีหลายกรณีการใช้งานในหลายสาขาที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติและการสร้างชุดข้อมูลการฝึกอบรมสำหรับ เรียนรู้เครื่อง และ การเรียนรู้ลึก ๆ โซลูชั่น แอปพลิเคชั่นบางตัวของ NER คือ:
การสนับสนุนลูกค้าที่คล่องตัว
ระบบ NER ตรวจพบข้อร้องเรียน ข้อสงสัย และคำติชมของลูกค้าที่เกี่ยวข้องโดยอิงจากข้อมูลที่สำคัญ เช่น ชื่อผลิตภัณฑ์ ข้อมูลจำเพาะ ที่ตั้งสาขา และอื่นๆ ได้อย่างง่ายดาย การร้องเรียนหรือข้อเสนอแนะได้รับการจัดประเภทอย่างเหมาะสมและเปลี่ยนเส้นทางไปยังแผนกที่ถูกต้องโดยการกรองคำหลักที่มีลำดับความสำคัญ
ทรัพยากรบุคคลที่มีประสิทธิภาพ
NER ช่วยทีมทรัพยากรบุคคลในการปรับปรุงกระบวนการจ้างงานและลดระยะเวลาโดยสรุปประวัติย่อของผู้สมัครอย่างรวดเร็ว เครื่องมือ NER สามารถสแกนประวัติย่อและดึงข้อมูลที่เกี่ยวข้อง – ชื่อ อายุ ที่อยู่ คุณสมบัติ วิทยาลัย และอื่นๆ
นอกจากนี้ แผนกทรัพยากรบุคคลยังสามารถใช้เครื่องมือ NER เพื่อปรับปรุงขั้นตอนการทำงานภายในโดยกรองข้อร้องเรียนของพนักงานและส่งต่อไปยังหัวหน้าแผนกที่เกี่ยวข้อง
การจัดประเภทเนื้อหาแบบง่าย
การจัดประเภทเนื้อหาเป็นงานที่ใหญ่โตสำหรับผู้ให้บริการข่าว การจัดประเภทเนื้อหาเป็นหมวดหมู่ต่างๆ ทำให้ง่ายต่อการค้นพบ รับข้อมูลเชิงลึก ระบุแนวโน้ม และทำความเข้าใจหัวข้อต่างๆ ชื่อ การรับรู้เอนทิตี เครื่องมือมีประโยชน์สำหรับผู้ให้บริการข่าว สามารถสแกนบทความจำนวนมาก ระบุคำหลักที่มีลำดับความสำคัญ และดึงข้อมูลตามบุคคล องค์กร สถานที่ และอื่นๆ
เพิ่มประสิทธิภาพเครื่องมือค้นหา
NER ช่วยในการลดความซับซ้อนและปรับปรุงความเร็วและความเกี่ยวข้องของผลการค้นหา แทนที่จะเรียกใช้คำค้นหาสำหรับบทความนับพัน โมเดล NER สามารถเรียกใช้คำค้นหาเพียงครั้งเดียวและบันทึกผลลัพธ์ ดังนั้น ตามแท็กในคำค้นหา จึงสามารถหยิบบทความที่เกี่ยวข้องกับคำค้นหาได้อย่างรวดเร็ว
คำแนะนำเนื้อหาที่ถูกต้อง
แอปพลิเคชั่นที่ทันสมัยหลายอย่างขึ้นอยู่กับเครื่องมือ NER เพื่อมอบประสบการณ์ลูกค้าที่ปรับให้เหมาะสมและปรับแต่งได้ ตัวอย่างเช่น Netflix ให้คำแนะนำส่วนบุคคลตามการค้นหาของผู้ใช้และประวัติการดูโดยใช้การจดจำเอนทิตีที่มีชื่อ
การรับรู้เอนทิตีที่มีชื่อทำให้คุณ เรียนรู้เครื่อง โมเดลที่มีประสิทธิภาพและเชื่อถือได้มากขึ้น อย่างไรก็ตาม คุณต้องการชุดข้อมูลการฝึกอบรมที่มีคุณภาพเพื่อให้แบบจำลองของคุณทำงานในระดับที่เหมาะสมและบรรลุเป้าหมายที่ตั้งไว้ สิ่งที่คุณต้องมีคือพันธมิตรบริการที่มีประสบการณ์ซึ่งสามารถจัดหาชุดข้อมูลคุณภาพที่พร้อมใช้งาน หากเป็นกรณีนี้ Shaip เป็นทางออกที่ดีที่สุดของคุณ ติดต่อเราสำหรับชุดข้อมูล NER ที่ครอบคลุมเพื่อช่วยคุณพัฒนาโซลูชัน ML ขั้นสูงที่มีประสิทธิภาพสำหรับโมเดล AI ของคุณP