กุมภาพันธ์ 8, 2022

Named Entity Recognition (NER) – แนวคิด ประเภท และการใช้งาน

ทุกครั้งที่เราได้ยินคำหรืออ่านข้อความ เรามีความสามารถตามธรรมชาติในการระบุและจัดหมวดหมู่คำให้เป็นบุคคล สถานที่ สถานที่ ค่านิยม และอื่นๆ มนุษย์สามารถจดจำคำ จัดหมวดหมู่ และเข้าใจบริบทได้อย่างรวดเร็ว ตัวอย่างเช่น เมื่อคุณได้ยินคำว่า 'สตีฟจ็อบส์' คุณสามารถนึกถึงคุณลักษณะอย่างน้อยสามถึงสี่อย่างได้ทันที และแยกเอนทิตีออกเป็นหมวดหมู่

ผู้ที่: งานสตีฟ
บริษัท: Apple
สถานที่ตั้ง: แคลิฟอร์เนีย

เนื่องจากคอมพิวเตอร์ไม่มีความสามารถตามธรรมชาติ จึงต้องการความช่วยเหลือจากเราในการระบุคำหรือข้อความและจัดหมวดหมู่ มันอยู่ที่ไหน ชื่อการรับรู้เอนทิตี (เนอร์) เข้ามาเล่น

มาทำความเข้าใจโดยย่อของ NER และความสัมพันธ์กับ NLP กัน

Named Entity Recognition คืออะไร?

Named Entity Recognition เป็นส่วนหนึ่งของการประมวลผลภาษาธรรมชาติ วัตถุประสงค์หลักของ NER คือการประมวลผล ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และจัดประเภทเอนทิตีที่มีชื่อเหล่านี้เป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า หมวดหมู่ทั่วไปบางประเภท ได้แก่ ชื่อ สถานที่ บริษัท เวลา มูลค่าเงิน เหตุการณ์ และอื่นๆ

โดยสรุป NER เกี่ยวข้องกับ:

การรับรู้/การตรวจจับเอนทิตีที่มีชื่อ – การระบุคำหรือชุดคำในเอกสาร
การจัดประเภทเอนทิตีที่มีชื่อ – จำแนกทุกเอนทิตีที่ตรวจพบเป็นประเภทที่กำหนดไว้ล่วงหน้า

แต่ NER เกี่ยวข้องกับ NLP อย่างไร?

การประมวลผลภาษาธรรมชาติช่วยพัฒนาเครื่องจักรอัจฉริยะที่สามารถแยกความหมายจากคำพูดและข้อความได้ การเรียนรู้ของเครื่องช่วยให้ระบบอัจฉริยะเหล่านี้เรียนรู้ต่อไปโดยการฝึกอบรมเกี่ยวกับภาษาธรรมชาติจำนวนมาก ชุดข้อมูล.

โดยทั่วไปแล้ว NLP ประกอบด้วยสามประเภทหลัก:

การทำความเข้าใจโครงสร้างและกฎของภาษา – วากยสัมพันธ์
การหาความหมายของคำ ข้อความ และคำพูด และระบุความสัมพันธ์ - อรรถศาสตร์
ระบุและจดจำคำพูดและแปลงเป็นข้อความ - คำพูด

NER ช่วยในส่วนความหมายของ NLP แยกความหมายของคำ ระบุและค้นหาตามความสัมพันธ์

ตัวอย่างทั่วไปของ NER

ตัวอย่างทั่วไปบางส่วนที่กำหนดไว้ล่วงหน้า การจัดประเภทนิติบุคคล คือ:

ผู้ที่: ไมเคิล แจ็คสัน, โอปราห์ วินฟรีย์, บารัค โอบามา, ซูซาน ซาแรนดอน

สถานที่ตั้ง: แคนาดา โฮโนลูลู กรุงเทพฯ บราซิล เคมบริดจ์

องค์กร: Samsung, Disney, มหาวิทยาลัยเยล, Google

เวลา: 15.35 น. 12:XNUMX น.

หมวดหมู่อื่นๆ ได้แก่ ค่าตัวเลข นิพจน์ ที่อยู่อีเมล และสิ่งอำนวยความสะดวก

ความคลุมเครือในการรับรู้เอนทิตีที่มีชื่อ

หมวดหมู่ของคำศัพท์นั้นค่อนข้างชัดเจนสำหรับมนุษย์โดยสัญชาตญาณ อย่างไรก็ตาม นั่นไม่ใช่กรณีกับคอมพิวเตอร์ เนื่องจากเกิดปัญหาการจำแนกประเภท ตัวอย่างเช่น:

เมืองแมนเชสเตอร์ (องค์กร) ได้รับรางวัล Premier League Trophy ขณะที่ในประโยคต่อไปนี้องค์กรใช้ต่างกัน เมืองแมนเชสเตอร์ (แผนที่) เป็นโรงไฟฟ้าสิ่งทอและอุตสาหกรรม

โมเดล NER ของคุณต้องการ ข้อมูลการฝึกอบรม เพื่อดำเนินการให้ถูกต้อง การสกัดเอนทิตี และการจำแนกประเภท หากคุณกำลังฝึกนางแบบของคุณเกี่ยวกับภาษาอังกฤษของเชคสเปียร์ คุณจะไม่สามารถถอดรหัส Instagram ได้

แนวทาง NER ที่แตกต่างกัน

เป้าหมายหลักของ รุ่น NER คือการติดป้ายกำกับหน่วยงานในเอกสารข้อความและจัดหมวดหมู่ โดยทั่วไปจะใช้สามวิธีต่อไปนี้เพื่อจุดประสงค์นี้ อย่างไรก็ตาม คุณสามารถเลือกที่จะรวมวิธีการอย่างน้อยหนึ่งวิธีได้เช่นกัน

มาพูดถึงความต้องการข้อมูลการฝึกอบรม AI ของคุณวันนี้

แนวทางต่างๆ ในการสร้างระบบ NER ได้แก่

ระบบที่ใช้พจนานุกรม
ระบบที่ใช้พจนานุกรมอาจเป็นแนวทาง NER ที่ง่ายและเป็นพื้นฐานที่สุด โดยจะใช้พจนานุกรมที่มีคำศัพท์ คำพ้องความหมาย และคลังคำศัพท์มากมาย ระบบจะตรวจสอบว่าเอนทิตีเฉพาะที่มีอยู่ในข้อความนั้นมีอยู่ในคำศัพท์หรือไม่ โดยใช้อัลกอริธึมการจับคู่สตริง การตรวจสอบข้ามของเอนทิตีจะถูกดำเนินการ
ข้อเสียอย่างหนึ่งของการใช้วิธีนี้คือ จำเป็นต้องอัปเกรดชุดข้อมูลคำศัพท์อย่างต่อเนื่องเพื่อให้โมเดล NER ทำงานได้อย่างมีประสิทธิภาพ
ระบบตามกฎ
ในแนวทางนี้ ข้อมูลจะถูกดึงออกมาตามชุดของกฎที่ตั้งไว้ล่วงหน้า กฎหลักที่ใช้มี XNUMX ชุด คือ
กฎตามรูปแบบ – ตามชื่อที่แนะนำ กฎตามรูปแบบจะเป็นไปตามรูปแบบทางสัณฐานวิทยาหรือสตริงของคำที่ใช้ในเอกสาร
กฎตามบริบท – กฎตามบริบทขึ้นอยู่กับความหมายหรือบริบทของคำในเอกสาร
ระบบที่ใช้การเรียนรู้ของเครื่อง
ในระบบที่ใช้การเรียนรู้ด้วยเครื่อง การจำลองทางสถิติใช้เพื่อตรวจจับเอนทิตี การนำเสนอตามคุณสมบัติของเอกสารข้อความถูกนำมาใช้ในแนวทางนี้ คุณสามารถเอาชนะข้อเสียหลายประการของสองวิธีแรกได้ เนื่องจากตัวแบบสามารถรับรู้ได้ ประเภทนิติบุคคล แม้จะมีความแตกต่างเล็กน้อยในการสะกดคำ

ใช้กรณีและตัวอย่างการรับรู้เอนทิตีที่มีชื่อหรือไม่

เผยความเก่งกาจของ Named Entity Recognition (NER):

แชทบอท: NER ช่วยแชทบอทเช่น ChatGPT ของ OpenAI ในการทำความเข้าใจคำถามของผู้ใช้โดยการระบุเอนทิตีที่สำคัญ
สนับสนุนลูกค้า: โดยจะจัดระเบียบความคิดเห็นของลูกค้าตามชื่อผลิตภัณฑ์ ซึ่งช่วยเร่งเวลาตอบสนอง
การเงิน: NER ดึงข้อมูลที่สำคัญจากรายงานทางการเงิน ช่วยในการวิเคราะห์แนวโน้มและการประเมินความเสี่ยง
ดูแลสุขภาพ: โดยดึงข้อมูลสำคัญจากบันทึกทางคลินิก ช่วยให้วิเคราะห์ข้อมูลได้รวดเร็วยิ่งขึ้น
ทรัพยากรบุคคล: ช่วยเพิ่มความคล่องตัวในการสรรหาบุคลากรโดยการสรุปโปรไฟล์ของผู้สมัครและถ่ายทอดความคิดเห็นของพนักงาน
ผู้ให้บริการข่าว: NER จัดหมวดหมู่เนื้อหาตามข้อมูลและแนวโน้มที่เกี่ยวข้อง เร่งการรายงานให้เร็วขึ้น
เครื่องยนต์แนะนำ: บริษัทอย่าง Netflix จ้าง NER เพื่อปรับแต่งคำแนะนำตามพฤติกรรมของผู้ใช้
เครื่องมือค้นหา: ด้วยการจัดหมวดหมู่เนื้อหาเว็บ NER ช่วยเพิ่มความแม่นยำของผลการค้นหา
การวิเคราะห์ความรู้สึก: NER ดึงข้อมูลการกล่าวถึงแบรนด์จากบทวิจารณ์ ซึ่งเป็นการเติมพลังให้กับเครื่องมือวิเคราะห์ความรู้สึก

การประยุกต์ใช้ NER

NER มีกรณีการใช้งานหลายกรณีในหลายสาขาที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติและการสร้างชุดข้อมูลการฝึกอบรม เรียนรู้เครื่อง และ การเรียนรู้ลึก ๆ โซลูชั่น แอปพลิเคชั่นบางตัวของ NER คือ:

การสนับสนุนลูกค้าที่คล่องตัว
ระบบ NER สามารถตรวจพบข้อร้องเรียน ข้อซักถาม และข้อเสนอแนะของลูกค้าที่เกี่ยวข้องได้อย่างง่ายดาย โดยอิงจากข้อมูลที่สำคัญ เช่น ชื่อผลิตภัณฑ์ ข้อมูลจำเพาะ ที่ตั้งสาขา และอื่นๆ ข้อร้องเรียนหรือข้อเสนอแนะจะถูกจัดประเภทอย่างเหมาะสมและส่งต่อไปยังแผนกที่ถูกต้องโดยการกรองคำหลักที่มีลำดับความสำคัญ
ทรัพยากรบุคคลที่มีประสิทธิภาพ
NER ช่วยให้ทีมทรัพยากรบุคคลปรับปรุงกระบวนการจ้างงานและลดระยะเวลาโดยการสรุปประวัติย่อของผู้สมัครอย่างรวดเร็ว เครื่องมือ NER สามารถสแกนเรซูเม่และดึงข้อมูลที่เกี่ยวข้อง เช่น ชื่อ อายุ ที่อยู่ คุณวุฒิ วิทยาลัย และอื่นๆ
นอกจากนี้ แผนกทรัพยากรบุคคลยังสามารถใช้เครื่องมือ NER เพื่อปรับปรุงขั้นตอนการทำงานภายในโดยกรองข้อร้องเรียนของพนักงานและส่งต่อไปยังหัวหน้าแผนกที่เกี่ยวข้อง
การจัดประเภทเนื้อหาแบบง่าย
การจัดประเภทเนื้อหาเป็นงานที่ใหญ่โตสำหรับผู้ให้บริการข่าว การจัดประเภทเนื้อหาเป็นหมวดหมู่ต่างๆ ทำให้ง่ายต่อการค้นพบ รับข้อมูลเชิงลึก ระบุแนวโน้ม และทำความเข้าใจหัวข้อต่างๆ ชื่อ การรับรู้เอนทิตี เครื่องมือมีประโยชน์สำหรับผู้ให้บริการข่าว สามารถสแกนบทความจำนวนมาก ระบุคำหลักที่มีลำดับความสำคัญ และดึงข้อมูลตามบุคคล องค์กร สถานที่ และอื่นๆ
เพิ่มประสิทธิภาพเครื่องมือค้นหา
NER ช่วยในการลดความซับซ้อนและปรับปรุงความเร็วและความเกี่ยวข้องของผลการค้นหา แทนที่จะเรียกใช้คำค้นหาสำหรับบทความนับพัน โมเดล NER สามารถเรียกใช้คำค้นหาเพียงครั้งเดียวและบันทึกผลลัพธ์ ดังนั้น ตามแท็กในคำค้นหา จึงสามารถหยิบบทความที่เกี่ยวข้องกับคำค้นหาได้อย่างรวดเร็ว
คำแนะนำเนื้อหาที่ถูกต้อง
แอปพลิเคชันสมัยใหม่หลายแอปพลิเคชันอาศัยเครื่องมือ NER เพื่อมอบประสบการณ์ลูกค้าที่ได้รับการปรับแต่งและปรับให้เหมาะสมที่สุด ตัวอย่างเช่น Netflix ให้คำแนะนำส่วนบุคคลตามการค้นหาของผู้ใช้และประวัติการดูโดยใช้การรับรู้เอนทิตีที่มีชื่อ

การรับรู้เอนทิตีที่มีชื่อทำให้คุณ เรียนรู้เครื่อง โมเดลที่มีประสิทธิภาพและเชื่อถือได้มากขึ้น อย่างไรก็ตาม คุณต้องการชุดข้อมูลการฝึกอบรมที่มีคุณภาพเพื่อให้แบบจำลองของคุณทำงานในระดับที่เหมาะสมและบรรลุเป้าหมายที่ตั้งไว้ สิ่งที่คุณต้องมีคือพันธมิตรบริการที่มีประสบการณ์ซึ่งสามารถจัดหาชุดข้อมูลคุณภาพที่พร้อมใช้งาน หากเป็นกรณีนี้ Shaip เป็นทางออกที่ดีที่สุดของคุณ ติดต่อเราสำหรับชุดข้อมูล NER ที่ครอบคลุมเพื่อช่วยคุณพัฒนาโซลูชัน ML ขั้นสูงที่มีประสิทธิภาพสำหรับโมเดล AI ของคุณ

[อ่านเพิ่มเติม: กรณีศึกษา: การรับรู้เอนทิตีที่มีชื่อ (NER) สำหรับ NLP ทางคลินิก]

การรับรู้เอนทิตีที่มีชื่อทำงานอย่างไร

การเจาะลึกเข้าสู่ขอบเขตของ Named Entity Recognition (NER) เผยให้เห็นการเดินทางที่เป็นระบบซึ่งประกอบด้วยหลายขั้นตอน:

tokenization
ในขั้นต้น ข้อมูลที่เป็นข้อความจะถูกแบ่งออกเป็นหน่วยเล็กๆ เรียกว่าโทเค็น ซึ่งอาจมีตั้งแต่คำไปจนถึงประโยค ตัวอย่างเช่น ข้อความ “บารัค โอบามาเคยเป็นประธานาธิบดีของสหรัฐอเมริกา” แบ่งออกเป็นโทเค็น เช่น “บารัค”, “โอบามา”, “เคยเป็น”, “ที่”, “ประธานาธิบดี”, “ของ”, “ที่” และ “ สหรัฐอเมริกา".
การตรวจจับเอนทิตี
การใช้แนวทางทางภาษาและวิธีการทางสถิติผสมผสานกัน เอนทิตีที่มีชื่อที่มีศักยภาพจึงได้รับความสนใจ การจดจำรูปแบบ เช่น การใช้อักษรตัวพิมพ์ใหญ่ในชื่อ (“บารัค โอบามา”) หรือรูปแบบที่แตกต่างกัน (เช่น วันที่) เป็นสิ่งสำคัญในขั้นตอนนี้
การจำแนกประเภทเอนทิตี
การตรวจจับภายหลัง เอนทิตีจะถูกจัดเรียงตามหมวดหมู่ที่กำหนดไว้ล่วงหน้า เช่น "บุคคล" "องค์กร" หรือ "สถานที่" โมเดลการเรียนรู้ของเครื่องซึ่งดูแลบนชุดข้อมูลที่มีป้ายกำกับ มักจะขับเคลื่อนการจัดหมวดหมู่นี้ ในที่นี้ "Barack Obama" ถูกแท็กเป็น "บุคคล" และ "USA" เป็น "สถานที่"
การประเมินบริบท
ความกล้าหาญของระบบ NER มักจะถูกขยายโดยการประเมินบริบทโดยรอบ ตัวอย่างเช่น ในวลี "วอชิงตันได้เห็นเหตุการณ์ทางประวัติศาสตร์" บริบทช่วยให้แยกแยะ "วอชิงตัน" ว่าเป็นสถานที่มากกว่าชื่อของบุคคล
การปรับแต่งหลังการประเมิน
หลังจากการระบุและการจำแนกประเภทเบื้องต้น การปรับแต่งหลังการประเมินอาจตามมาเพื่อปรับแต่งผลลัพธ์ ขั้นตอนนี้อาจจัดการกับความคลุมเครือ หลอมรวมเอนทิตีโทเค็นหลายรายการ หรือใช้ฐานความรู้เพื่อเพิ่มข้อมูลเอนทิตี

วิธีการที่อธิบายไว้นี้ไม่เพียงแต่ทำให้เข้าใจถึงแก่นแท้ของ NER เท่านั้น แต่ยังปรับเนื้อหาให้เหมาะสมสำหรับโปรแกรมค้นหาด้วย ช่วยเพิ่มการมองเห็นกระบวนการที่ซับซ้อนที่ NER รวบรวมไว้

ประโยชน์และความท้าทายของ NER?

ประโยชน์ที่ได้รับ:

การสกัดข้อมูล: NER ระบุข้อมูลสำคัญ ช่วยในการดึงข้อมูล
องค์กรเนื้อหา: ช่วยจัดหมวดหมู่เนื้อหาที่เป็นประโยชน์ต่อฐานข้อมูลและเครื่องมือค้นหา
ประสบการณ์ผู้ใช้ที่ดีขึ้น: NER ปรับแต่งผลการค้นหาและปรับแต่งคำแนะนำในแบบของคุณ
การวิเคราะห์เชิงลึก: อำนวยความสะดวกในการวิเคราะห์ความรู้สึกและการตรวจจับแนวโน้ม
เวิร์กโฟลว์อัตโนมัติ: NER ส่งเสริมระบบอัตโนมัติ ประหยัดเวลาและทรัพยากร

ข้อจำกัด/ความท้าทาย:

ความละเอียดที่ไม่ชัดเจน: ดิ้นรนกับการแยกเอนทิตีที่คล้ายคลึงกัน
การปรับเปลี่ยนเฉพาะโดเมน: เน้นทรัพยากรในโดเมนที่หลากหลาย
การพึ่งพาภาษา: ประสิทธิผลแตกต่างกันไปตามภาษา
ความขาดแคลนของข้อมูลที่ติดป้ายกำกับ: ต้องการชุดข้อมูลที่มีป้ายกำกับขนาดใหญ่สำหรับการฝึกอบรม
การจัดการข้อมูลที่ไม่มีโครงสร้าง: ต้องใช้เทคนิคขั้นสูง
การวัดประสิทธิภาพ: การประเมินที่แม่นยำนั้นซับซ้อน
การประมวลผลตามเวลาจริง: ความสมดุลของความเร็วและความแม่นยำเป็นสิ่งที่ท้าทาย

แบ่งปันสังคม

พูดคุยกับผู้เชี่ยวชาญ

ชื่อ*
นามสกุล*
อีเมลล์*
เบอร์โทรศัพท์*
บริษัท*
ประเทศ*
ประเทศ
ความคิดเห็น*
ในการลงทะเบียน ฉันเห็นด้วยกับ Shaip นโยบายความเป็นส่วนตัว และ ใช้บริการมา และให้ความยินยอมของฉันในการรับการสื่อสารการตลาดแบบ B2B จาก Shaip
CAPTCHA

ดาวน์โหลดหนังสือฟรี

Named Entity Recognition (NER) – แนวคิด ประเภท และการใช้งาน

Named Entity Recognition คืออะไร?

ตัวอย่างทั่วไปของ NER

แนวทาง NER ที่แตกต่างกัน

ระบบที่ใช้พจนานุกรม

ระบบตามกฎ

ระบบที่ใช้การเรียนรู้ของเครื่อง

ใช้กรณีและตัวอย่างการรับรู้เอนทิตีที่มีชื่อหรือไม่

การประยุกต์ใช้ NER

การสนับสนุนลูกค้าที่คล่องตัว

ทรัพยากรบุคคลที่มีประสิทธิภาพ

การจัดประเภทเนื้อหาแบบง่าย

เพิ่มประสิทธิภาพเครื่องมือค้นหา

คำแนะนำเนื้อหาที่ถูกต้อง

การรับรู้เอนทิตีที่มีชื่อทำงานอย่างไร

tokenization

การตรวจจับเอนทิตี

การจำแนกประเภทเอนทิตี

การประเมินบริบท

การปรับแต่งหลังการประเมิน

ประโยชน์และความท้าทายของ NER?

ประโยชน์ที่ได้รับ:

ข้อจำกัด/ความท้าทาย:

แบ่งปันสังคม

พูดคุยกับผู้เชี่ยวชาญ

บริการข้อมูล AI

พิเศษ

Industry

ผลิตภัณฑ์

บริษัท

แหล่งข้อมูล

ติดต่อเรา