ชุดข้อมูล NLP สำหรับ ML

15 ชุดข้อมูล NLP ที่ดีที่สุดเพื่อฝึกโมเดลการประมวลผลภาษาธรรมชาติ

การประมวลผลภาษาธรรมชาติเป็นส่วนสำคัญในเกราะการเรียนรู้ของเครื่อง อย่างไรก็ตาม มันต้องการข้อมูลจำนวนมหาศาลและการฝึกอบรมเพื่อให้โมเดลทำงานได้ดี ปัญหาสำคัญประการหนึ่งของ NLP คือการขาดชุดข้อมูลการฝึกอบรมที่สามารถครอบคลุมพื้นที่ที่น่าสนใจมากมายภายในโดเมน

หากคุณกำลังเริ่มต้นในพื้นที่กว้างใหญ่นี้ คุณอาจพบว่าการสร้างชุดข้อมูลของคุณมีความท้าทายและซ้ำซ้อนในทางปฏิบัติ ยิ่งเมื่อมีคุณภาพ NLP ชุดข้อมูลที่พร้อมใช้งานเพื่อฝึกโมเดลการเรียนรู้ของเครื่องตามวัตถุประสงค์

ตลาด NLP มีกำหนดจะเติบโตที่ CAGR ที่ 11.7% ในช่วงปี 2018 และ 2026 เพื่อให้บรรลุเป้าหมาย $ 28.6 พันล้านภายในปี 2026. ต้องขอบคุณความต้องการที่เพิ่มขึ้นสำหรับ NLP และแมชชีนเลิร์นนิง ตอนนี้คุณจึงสามารถรับมือกับชุดข้อมูลคุณภาพที่จัดไว้ให้กับการวิเคราะห์ความคิดเห็น การทบทวน การวิเคราะห์คำถามและคำตอบ และชุดข้อมูลการวิเคราะห์คำพูด

ชุดข้อมูล NLP สำหรับการเรียนรู้ของเครื่องที่คุณวางใจได้

เนื่องจากชุดข้อมูลจำนวนนับไม่ถ้วนซึ่งมุ่งเน้นไปที่ความต้องการที่หลากหลายนั้นได้รับการเผยแพร่เกือบทุกวัน การเข้าถึงคุณภาพ ความน่าเชื่อถือ และชุดข้อมูลที่ดีที่สุดจึงอาจเป็นเรื่องยาก ที่นี่ เราได้ทำให้การทำงานของคุณง่ายขึ้น เนื่องจากเราได้นำเสนอชุดข้อมูลที่ได้รับการดูแลจัดการโดยแยกตามหมวดหมู่ที่ให้บริการ

General

Spambase สร้างขึ้นที่ Hewlett-Packard Labs มีกลุ่มอีเมลสแปมโดยผู้ใช้ โดยมีเป้าหมายเพื่อพัฒนาตัวกรองสแปมส่วนบุคคล มีการสังเกตจากข้อความอีเมลมากกว่า 4600 รายการ ซึ่งเกือบ 1820 รายการเป็นสแปม

ชุดข้อมูลของ Enron มีคอลเล็กชันอีเมล "ของจริง" ที่ไม่เปิดเผยชื่อจำนวนมาก ซึ่งเปิดให้สาธารณชนทั่วไปได้ใช้เพื่อฝึกโมเดลการเรียนรู้ของเครื่อง มีอีเมลมากกว่าครึ่งล้านฉบับจากผู้ใช้กว่า 150 ราย ซึ่งส่วนใหญ่เป็นผู้บริหารระดับสูงของ Enron ชุดข้อมูลนี้สามารถใช้ได้ทั้งในรูปแบบที่มีโครงสร้างและไม่มีโครงสร้าง คุณต้องใช้เทคนิคการประมวลผลข้อมูลเพื่อทำให้ข้อมูลที่ไม่มีโครงสร้างดีขึ้น

ชุดข้อมูลระบบผู้แนะนำคือชุดข้อมูลขนาดใหญ่ที่มีคุณลักษณะต่างๆ เช่น

  • รีวิวสินค้า
  • การจัดระดับดาว
  • ติดตามการออกกำลังกาย
  • ข้อมูลเพลง
  • เครือข่ายทางสังคม
  • timestamps
  • การโต้ตอบกับผู้ใช้/รายการ
  • ข้อมูล GPS

การวิเคราะห์ความเชื่อมั่น

  • พจนานุกรมสำหรับภาพยนตร์และการเงิน (ลิงค์)

การวิเคราะห์ความเชื่อมั่น
ชุดข้อมูล Dictionaries for Movies and Finance มีพจนานุกรมเฉพาะโดเมนสำหรับขั้วบวกหรือลบในการเติม Finance และบทวิจารณ์ภาพยนตร์ พจนานุกรมเหล่านี้มาจากการกรอก IMDb และแบบฟอร์ม 8 ของสหรัฐอเมริกา

Sentiment 140 มีทวีตมากกว่า 160,000 รายการพร้อมอีโมติคอนต่างๆ ที่จัดอยู่ใน 6 ฟิลด์ที่แตกต่างกัน: วันที่ทวีต ขั้ว ข้อความ ชื่อผู้ใช้ ID และข้อความค้นหา ชุดข้อมูลนี้ช่วยให้คุณค้นพบความรู้สึกของแบรนด์ ผลิตภัณฑ์ หรือแม้แต่หัวข้อตามกิจกรรมของ Twitter เนื่องจากชุดข้อมูลนี้ถูกสร้างขึ้นโดยอัตโนมัติ ซึ่งแตกต่างจากทวีตอื่น ๆ ที่มีคำอธิบายประกอบโดยมนุษย์ จึงจัดประเภททวีตที่มีอารมณ์เชิงบวกและอารมณ์เชิงลบว่าไม่เอื้ออำนวย

  • ชุดข้อมูลความเชื่อมั่นแบบหลายโดเมน (ลิงค์)

ชุดข้อมูลความเชื่อมั่นแบบหลายโดเมนนี้เป็นที่เก็บบทวิจารณ์ Amazon สำหรับผลิตภัณฑ์ต่างๆ หมวดหมู่สินค้าบางประเภท เช่น หนังสือ มีบทวิจารณ์เป็นพันรายการ ในขณะที่ประเภทอื่นๆ มีบทวิจารณ์เพียงไม่กี่ร้อยรายการ นอกจากนี้ บทวิจารณ์ที่มีการจัดระดับดาวสามารถแปลงเป็นป้ายกำกับไบนารีได้

มาพูดถึงความต้องการข้อมูลการฝึกอบรม AI ของคุณวันนี้

ข้อความ

WiKi QA Corpus สร้างขึ้นเพื่อช่วยตอบคำถามในโดเมนแบบเปิดกว้าง เป็นหนึ่งในชุดข้อมูลสาธารณะที่กว้างขวางที่สุด รวบรวมจากบันทึกการสืบค้นของโปรแกรมค้นหาของ Bing ซึ่งมาพร้อมกับคู่คำถามและคำตอบ มีคำถามมากกว่า 3000 ข้อและประโยคคำตอบ 1500 ประโยค

  • ชุดข้อมูลรายงานกรณีทางกฎหมาย (ลิงค์)

ชุดข้อมูลรายงานกรณีทางกฎหมายมีคอลเลกชันคดีทางกฎหมาย 4000 คดี และสามารถใช้ในการฝึกอบรมสำหรับการสรุปข้อความอัตโนมัติและการวิเคราะห์การอ้างอิง แต่ละเอกสาร บทกลอน คลาสการอ้างอิง บทอ้างอิงอ้างอิง และอื่นๆ ถูกนำมาใช้

ชุดข้อมูล Jeopardy คือชุดคำถามมากกว่า 200,000 คำถามในรายการทีวีตอบคำถามยอดนิยมที่รวบรวมโดยผู้ใช้ Reddit จุดข้อมูลแต่ละจุดจะจำแนกตามวันที่ออกอากาศ หมายเลขตอน มูลค่า รอบ และคำถาม/คำตอบ

เสียงพูด

เสียงพูด ชุดข้อมูลนี้เหมาะสำหรับทุกคนที่ต้องการก้าวไปไกลกว่าภาษาอังกฤษ ชุดข้อมูลนี้มีชุดบทความที่ใช้ภาษาดัตช์ เยอรมัน และอังกฤษ มีหัวข้อและชุดผู้พูดที่หลากหลายซึ่งใช้เวลาหลายร้อยชั่วโมง

ชุดข้อมูลภาษาอังกฤษ HUB2000 ของ 5 มีบันทึกการสนทนาทางโทรศัพท์เป็นภาษาอังกฤษ 40 รายการ ข้อมูลนี้จัดทำโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ โดยมุ่งเน้นที่การจดจำคำพูดสนทนาและการแปลงคำพูดเป็นข้อความ

ชุดข้อมูล LibriSpeech คือชุดของคำพูดภาษาอังกฤษเกือบ 1000 ชั่วโมงที่นำมาและแบ่งตามหัวข้ออย่างเหมาะสมเป็นบทจากหนังสือเสียง ทำให้เป็นเครื่องมือที่สมบูรณ์แบบสำหรับการประมวลผลภาษาธรรมชาติ

รีวิว

ชุดข้อมูล Yelp มีคอลเลกชั่นรีวิว 8.5 ล้านรีวิวจากกว่า 160,000 ธุรกิจ บทวิจารณ์ และข้อมูลผู้ใช้ บทวิจารณ์สามารถใช้เพื่อฝึกโมเดลของคุณเกี่ยวกับการวิเคราะห์ความเชื่อมั่นได้ นอกจากนี้ ชุดข้อมูลนี้ยังมีรูปภาพมากกว่า 200,000 ภาพครอบคลุมพื้นที่ในเมืองใหญ่แปดแห่ง

บทวิจารณ์ IMDB เป็นหนึ่งในชุดข้อมูลยอดนิยมที่มีข้อมูลนักแสดง การให้คะแนน คำอธิบาย และประเภทสำหรับภาพยนตร์มากกว่า 50 เรื่อง สามารถใช้ชุดข้อมูลนี้เพื่อทดสอบและฝึกโมเดลการเรียนรู้ของเครื่อง

  • ชุดข้อมูลรีวิวและการให้คะแนนของ Amazon (ลิงค์)

ชุดข้อมูลการตรวจสอบและการให้คะแนนของ Amazon ประกอบด้วยชุดข้อมูลเมตาอันมีค่าและบทวิจารณ์ผลิตภัณฑ์ต่างๆ จาก Amazon ที่รวบรวมตั้งแต่ปี 1996 ถึง 2014 – ประมาณ 142.8 ล้านระเบียน ข้อมูลเมตาประกอบด้วยราคา คำอธิบายผลิตภัณฑ์ แบรนด์ หมวดหมู่ และอื่นๆ ในขณะที่บทวิจารณ์มีคุณภาพข้อความ ประโยชน์ของข้อความ การให้คะแนน และอื่นๆ

คุณเลือกชุดข้อมูลใดในการฝึกโมเดลแมชชีนเลิร์นนิงของคุณ

ในขณะที่เราไปเราจะปล่อยให้คุณกับ โปรทิป 

ตรวจสอบให้แน่ใจว่าได้อ่านไฟล์ README อย่างละเอียดก่อนที่จะเลือกชุดข้อมูล NLP ตามความต้องการของคุณ ชุดข้อมูลจะมีข้อมูลที่จำเป็นทั้งหมดที่คุณอาจต้องการ เช่น เนื้อหาของชุดข้อมูล พารามิเตอร์ต่างๆ ที่มีการจัดหมวดหมู่ข้อมูล และกรณีการใช้งานที่เป็นไปได้ของชุดข้อมูล

ไม่ว่าคุณจะสร้างโมเดลใด มีโอกาสที่น่าตื่นเต้นในการผสานรวมเครื่องจักรของเราอย่างใกล้ชิดและเข้ากับชีวิตของเรามากขึ้น ด้วย NLP ความเป็นไปได้สำหรับธุรกิจ ภาพยนตร์ การรู้จำคำพูด การเงิน และอื่นๆ จะเพิ่มขึ้นมากมาย หากคุณกำลังมองหาชุดข้อมูลดังกล่าวเพิ่มเติม คลิกที่นี่.

แบ่งปันสังคม

คุณอาจจะชอบ