การประมวลผลภาษาธรรมชาติเป็นส่วนสำคัญในเกราะการเรียนรู้ของเครื่อง อย่างไรก็ตาม มันต้องการข้อมูลจำนวนมหาศาลและการฝึกอบรมเพื่อให้โมเดลทำงานได้ดี ปัญหาสำคัญประการหนึ่งของ NLP คือการขาดชุดข้อมูลการฝึกอบรมที่สามารถครอบคลุมพื้นที่ที่น่าสนใจมากมายภายในโดเมน
หากคุณกำลังเริ่มต้นในพื้นที่กว้างใหญ่นี้ คุณอาจพบว่าการสร้างชุดข้อมูลของคุณมีความท้าทายและซ้ำซ้อนในทางปฏิบัติ ยิ่งเมื่อมีคุณภาพ NLP ชุดข้อมูลที่พร้อมใช้งานเพื่อฝึกโมเดลการเรียนรู้ของเครื่องตามวัตถุประสงค์
ตลาด NLP มีกำหนดจะเติบโตที่ CAGR ที่ 11.7% ในช่วงปี 2018 และ 2026 เพื่อให้บรรลุเป้าหมาย $ 28.6 พันล้านภายในปี 2026. ต้องขอบคุณความต้องการที่เพิ่มขึ้นสำหรับ NLP และแมชชีนเลิร์นนิง ตอนนี้คุณจึงสามารถรับมือกับชุดข้อมูลคุณภาพที่จัดไว้ให้กับการวิเคราะห์ความคิดเห็น การทบทวน การวิเคราะห์คำถามและคำตอบ และชุดข้อมูลการวิเคราะห์คำพูด
ชุดข้อมูล NLP สำหรับการเรียนรู้ของเครื่องที่คุณวางใจได้
เนื่องจากชุดข้อมูลจำนวนนับไม่ถ้วนซึ่งมุ่งเน้นไปที่ความต้องการที่หลากหลายนั้นได้รับการเผยแพร่เกือบทุกวัน การเข้าถึงคุณภาพ ความน่าเชื่อถือ และชุดข้อมูลที่ดีที่สุดจึงอาจเป็นเรื่องยาก ที่นี่ เราได้ทำให้การทำงานของคุณง่ายขึ้น เนื่องจากเราได้นำเสนอชุดข้อมูลที่ได้รับการดูแลจัดการโดยแยกตามหมวดหมู่ที่ให้บริการ
General
สแปมเบสของ UCI (ลิงค์)
Spambase สร้างขึ้นที่ Hewlett-Packard Labs มีกลุ่มอีเมลสแปมโดยผู้ใช้ โดยมีเป้าหมายเพื่อพัฒนาตัวกรองสแปมส่วนบุคคล มีการสังเกตจากข้อความอีเมลมากกว่า 4600 รายการ ซึ่งเกือบ 1820 รายการเป็นสแปม
ชุดข้อมูล Enron (ลิงค์)
ชุดข้อมูลของ Enron มีคอลเล็กชันอีเมล "ของจริง" ที่ไม่เปิดเผยชื่อจำนวนมาก ซึ่งเปิดให้สาธารณชนทั่วไปได้ใช้เพื่อฝึกโมเดลการเรียนรู้ของเครื่อง มีอีเมลมากกว่าครึ่งล้านฉบับจากผู้ใช้กว่า 150 ราย ซึ่งส่วนใหญ่เป็นผู้บริหารระดับสูงของ Enron ชุดข้อมูลนี้สามารถใช้ได้ทั้งในรูปแบบที่มีโครงสร้างและไม่มีโครงสร้าง คุณต้องใช้เทคนิคการประมวลผลข้อมูลเพื่อทำให้ข้อมูลที่ไม่มีโครงสร้างดีขึ้น
ชุดข้อมูลระบบผู้แนะนำ (ลิงค์)
ชุดข้อมูลระบบผู้แนะนำคือชุดข้อมูลขนาดใหญ่ที่มีคุณลักษณะต่างๆ เช่น
- รีวิวสินค้า
- การจัดระดับดาว
- ติดตามการออกกำลังกาย
- ข้อมูลเพลง
- เครือข่ายทางสังคม
- timestamps
- การโต้ตอบกับผู้ใช้/รายการ
- ข้อมูล GPS
การวิเคราะห์ความเชื่อมั่น
พจนานุกรมสำหรับภาพยนตร์และการเงิน (ลิงค์)
ชุดข้อมูล Dictionaries for Movies and Finance มีพจนานุกรมเฉพาะโดเมนสำหรับขั้วบวกหรือลบในการเติม Finance และบทวิจารณ์ภาพยนตร์ พจนานุกรมเหล่านี้มาจากการกรอก IMDb และแบบฟอร์ม 8 ของสหรัฐอเมริกา
ค่าความเชื่อมั่น 140 (ลิงค์)
Sentiment 140 มีทวีตมากกว่า 160,000 รายการพร้อมอีโมติคอนต่างๆ ที่จัดอยู่ใน 6 ฟิลด์ที่แตกต่างกัน: วันที่ทวีต ขั้ว ข้อความ ชื่อผู้ใช้ ID และข้อความค้นหา ชุดข้อมูลนี้ช่วยให้คุณค้นพบความรู้สึกของแบรนด์ ผลิตภัณฑ์ หรือแม้แต่หัวข้อตามกิจกรรมของ Twitter เนื่องจากชุดข้อมูลนี้ถูกสร้างขึ้นโดยอัตโนมัติ ซึ่งแตกต่างจากทวีตอื่น ๆ ที่มีคำอธิบายประกอบโดยมนุษย์ จึงจัดประเภททวีตที่มีอารมณ์เชิงบวกและอารมณ์เชิงลบว่าไม่เอื้ออำนวย
ชุดข้อมูลความเชื่อมั่นแบบหลายโดเมน (ลิงค์)
ชุดข้อมูลความเชื่อมั่นแบบหลายโดเมนนี้เป็นที่เก็บบทวิจารณ์ Amazon สำหรับผลิตภัณฑ์ต่างๆ หมวดหมู่สินค้าบางประเภท เช่น หนังสือ มีบทวิจารณ์เป็นพันรายการ ในขณะที่ประเภทอื่นๆ มีบทวิจารณ์เพียงไม่กี่ร้อยรายการ นอกจากนี้ บทวิจารณ์ที่มีการจัดระดับดาวสามารถแปลงเป็นป้ายกำกับไบนารีได้
ข้อความ
Wiki QA Corpus (ลิงค์)
WiKi QA Corpus สร้างขึ้นเพื่อช่วยตอบคำถามในโดเมนแบบเปิดกว้าง เป็นหนึ่งในชุดข้อมูลสาธารณะที่กว้างขวางที่สุด รวบรวมจากบันทึกการสืบค้นของโปรแกรมค้นหาของ Bing ซึ่งมาพร้อมกับคู่คำถามและคำตอบ มีคำถามมากกว่า 3000 ข้อและประโยคคำตอบ 1500 ประโยค
ชุดข้อมูลรายงานกรณีทางกฎหมาย (ลิงค์)
ชุดข้อมูลรายงานกรณีทางกฎหมายมีคอลเลกชันคดีทางกฎหมาย 4000 คดี และสามารถใช้ในการฝึกอบรมสำหรับการสรุปข้อความอัตโนมัติและการวิเคราะห์การอ้างอิง แต่ละเอกสาร บทกลอน คลาสการอ้างอิง บทอ้างอิงอ้างอิง และอื่นๆ ถูกนำมาใช้
อันตราย (ลิงค์)
ชุดข้อมูล Jeopardy คือชุดคำถามมากกว่า 200,000 คำถามในรายการทีวีตอบคำถามยอดนิยมที่รวบรวมโดยผู้ใช้ Reddit จุดข้อมูลแต่ละจุดจะจำแนกตามวันที่ออกอากาศ หมายเลขตอน มูลค่า รอบ และคำถาม/คำตอบ
เสียงพูด
ภาษาวิกิพีเดียภาษาพูด (ลิงค์)
ชุดข้อมูลนี้เหมาะสำหรับทุกคนที่ต้องการก้าวไปไกลกว่าภาษาอังกฤษ ชุดข้อมูลนี้มีชุดบทความที่ใช้ภาษาดัตช์ เยอรมัน และอังกฤษ มีหัวข้อและชุดผู้พูดที่หลากหลายซึ่งใช้เวลาหลายร้อยชั่วโมง
2000 HUB5 ภาษาอังกฤษ (ลิงค์)
ชุดข้อมูลภาษาอังกฤษ HUB2000 ของ 5 มีบันทึกการสนทนาทางโทรศัพท์เป็นภาษาอังกฤษ 40 รายการ ข้อมูลนี้จัดทำโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ โดยมุ่งเน้นที่การจดจำคำพูดสนทนาและการแปลงคำพูดเป็นข้อความ
LibriSpeech (ลิงค์)
ชุดข้อมูล LibriSpeech คือชุดของคำพูดภาษาอังกฤษเกือบ 1000 ชั่วโมงที่นำมาและแบ่งตามหัวข้ออย่างเหมาะสมเป็นบทจากหนังสือเสียง ทำให้เป็นเครื่องมือที่สมบูรณ์แบบสำหรับการประมวลผลภาษาธรรมชาติ
รีวิว
Yelp ความคิดเห็น (ลิงค์)
ชุดข้อมูล Yelp มีคอลเลกชั่นรีวิว 8.5 ล้านรีวิวจากกว่า 160,000 ธุรกิจ บทวิจารณ์ และข้อมูลผู้ใช้ บทวิจารณ์สามารถใช้เพื่อฝึกโมเดลของคุณเกี่ยวกับการวิเคราะห์ความเชื่อมั่นได้ นอกจากนี้ ชุดข้อมูลนี้ยังมีรูปภาพมากกว่า 200,000 ภาพครอบคลุมพื้นที่ในเมืองใหญ่แปดแห่ง
IMDB ความคิดเห็น (ลิงค์)
บทวิจารณ์ IMDB เป็นหนึ่งในชุดข้อมูลยอดนิยมที่มีข้อมูลนักแสดง การให้คะแนน คำอธิบาย และประเภทสำหรับภาพยนตร์มากกว่า 50 เรื่อง สามารถใช้ชุดข้อมูลนี้เพื่อทดสอบและฝึกโมเดลการเรียนรู้ของเครื่อง
ชุดข้อมูลรีวิวและการให้คะแนนของ Amazon (ลิงค์)
ชุดข้อมูลการตรวจสอบและการให้คะแนนของ Amazon ประกอบด้วยชุดข้อมูลเมตาอันมีค่าและบทวิจารณ์ผลิตภัณฑ์ต่างๆ จาก Amazon ที่รวบรวมตั้งแต่ปี 1996 ถึง 2014 – ประมาณ 142.8 ล้านระเบียน ข้อมูลเมตาประกอบด้วยราคา คำอธิบายผลิตภัณฑ์ แบรนด์ หมวดหมู่ และอื่นๆ ในขณะที่บทวิจารณ์มีคุณภาพข้อความ ประโยชน์ของข้อความ การให้คะแนน และอื่นๆ
คุณเลือกชุดข้อมูลใดในการฝึกโมเดลแมชชีนเลิร์นนิงของคุณ
ในขณะที่เราไปเราจะปล่อยให้คุณกับ โปรทิป
ตรวจสอบให้แน่ใจว่าได้อ่านไฟล์ README อย่างละเอียดก่อนที่จะเลือกชุดข้อมูล NLP ตามความต้องการของคุณ ชุดข้อมูลจะมีข้อมูลที่จำเป็นทั้งหมดที่คุณอาจต้องการ เช่น เนื้อหาของชุดข้อมูล พารามิเตอร์ต่างๆ ที่มีการจัดหมวดหมู่ข้อมูล และกรณีการใช้งานที่เป็นไปได้ของชุดข้อมูล
ไม่ว่าคุณจะสร้างโมเดลใด มีโอกาสที่น่าตื่นเต้นในการผสานรวมเครื่องจักรของเราอย่างใกล้ชิดและเข้ากับชีวิตของเรามากขึ้น ด้วย NLP ความเป็นไปได้สำหรับธุรกิจ ภาพยนตร์ การรู้จำคำพูด การเงิน และอื่นๆ จะเพิ่มขึ้นมากมาย หากคุณกำลังมองหาชุดข้อมูลดังกล่าวเพิ่มเติม คลิกที่นี่.