January 4, 2022

15 ชุดข้อมูล NLP ที่ดีที่สุดเพื่อฝึกโมเดลการประมวลผลภาษาธรรมชาติ

การประมวลผลภาษาธรรมชาติเป็นส่วนสำคัญในเกราะการเรียนรู้ของเครื่อง อย่างไรก็ตาม มันต้องการข้อมูลจำนวนมหาศาลและการฝึกอบรมเพื่อให้โมเดลทำงานได้ดี ปัญหาสำคัญประการหนึ่งของ NLP คือการขาดชุดข้อมูลการฝึกอบรมที่สามารถครอบคลุมพื้นที่ที่น่าสนใจมากมายภายในโดเมน

หากคุณกำลังเริ่มต้นในพื้นที่กว้างใหญ่นี้ คุณอาจพบว่าการสร้างชุดข้อมูลของคุณมีความท้าทายและซ้ำซ้อนในทางปฏิบัติ ยิ่งเมื่อมีคุณภาพ NLP ชุดข้อมูลที่พร้อมใช้งานเพื่อฝึกโมเดลการเรียนรู้ของเครื่องตามวัตถุประสงค์

ตลาด NLP มีกำหนดจะเติบโตที่ CAGR ที่ 11.7% ในช่วงปี 2018 และ 2026 เพื่อให้บรรลุเป้าหมาย $ 28.6 พันล้านภายในปี 2026. ต้องขอบคุณความต้องการที่เพิ่มขึ้นสำหรับ NLP และแมชชีนเลิร์นนิง ตอนนี้คุณจึงสามารถรับมือกับชุดข้อมูลคุณภาพที่จัดไว้ให้กับการวิเคราะห์ความคิดเห็น การทบทวน การวิเคราะห์คำถามและคำตอบ และชุดข้อมูลการวิเคราะห์คำพูด

ชุดข้อมูล NLP สำหรับการเรียนรู้ของเครื่องที่คุณวางใจได้

เนื่องจากชุดข้อมูลจำนวนนับไม่ถ้วนซึ่งมุ่งเน้นไปที่ความต้องการที่หลากหลายนั้นได้รับการเผยแพร่เกือบทุกวัน การเข้าถึงคุณภาพ ความน่าเชื่อถือ และชุดข้อมูลที่ดีที่สุดจึงอาจเป็นเรื่องยาก ที่นี่ เราได้ทำให้การทำงานของคุณง่ายขึ้น เนื่องจากเราได้นำเสนอชุดข้อมูลที่ได้รับการดูแลจัดการโดยแยกตามหมวดหมู่ที่ให้บริการ

General

สแปมเบสของ UCI (ลิงค์)

Spambase สร้างขึ้นที่ Hewlett-Packard Labs มีกลุ่มอีเมลสแปมโดยผู้ใช้ โดยมีเป้าหมายเพื่อพัฒนาตัวกรองสแปมส่วนบุคคล มีการสังเกตจากข้อความอีเมลมากกว่า 4600 รายการ ซึ่งเกือบ 1820 รายการเป็นสแปม

ชุดข้อมูล Enron (ลิงค์)

ชุดข้อมูลของ Enron มีคอลเล็กชันอีเมล "ของจริง" ที่ไม่เปิดเผยชื่อจำนวนมาก ซึ่งเปิดให้สาธารณชนทั่วไปได้ใช้เพื่อฝึกโมเดลการเรียนรู้ของเครื่อง มีอีเมลมากกว่าครึ่งล้านฉบับจากผู้ใช้กว่า 150 ราย ซึ่งส่วนใหญ่เป็นผู้บริหารระดับสูงของ Enron ชุดข้อมูลนี้สามารถใช้ได้ทั้งในรูปแบบที่มีโครงสร้างและไม่มีโครงสร้าง คุณต้องใช้เทคนิคการประมวลผลข้อมูลเพื่อทำให้ข้อมูลที่ไม่มีโครงสร้างดีขึ้น

ชุดข้อมูลระบบผู้แนะนำ (ลิงค์)

ชุดข้อมูลระบบผู้แนะนำคือชุดข้อมูลขนาดใหญ่ที่มีคุณลักษณะต่างๆ เช่น

รีวิวสินค้า
การจัดระดับดาว
ติดตามการออกกำลังกาย
ข้อมูลเพลง
เครือข่ายทางสังคม
timestamps
การโต้ตอบกับผู้ใช้/รายการ
ข้อมูล GPS

การวิเคราะห์ความเชื่อมั่น

พจนานุกรมสำหรับภาพยนตร์และการเงิน (ลิงค์)

ชุดข้อมูล Dictionaries for Movies and Finance มีพจนานุกรมเฉพาะโดเมนสำหรับขั้วบวกหรือลบในการเติม Finance และบทวิจารณ์ภาพยนตร์ พจนานุกรมเหล่านี้มาจากการกรอก IMDb และแบบฟอร์ม 8 ของสหรัฐอเมริกา

ค่าความเชื่อมั่น 140 (ลิงค์)

Sentiment 140 มีทวีตมากกว่า 160,000 รายการพร้อมอีโมติคอนต่างๆ ที่จัดอยู่ใน 6 ฟิลด์ที่แตกต่างกัน: วันที่ทวีต ขั้ว ข้อความ ชื่อผู้ใช้ ID และข้อความค้นหา ชุดข้อมูลนี้ช่วยให้คุณค้นพบความรู้สึกของแบรนด์ ผลิตภัณฑ์ หรือแม้แต่หัวข้อตามกิจกรรมของ Twitter เนื่องจากชุดข้อมูลนี้ถูกสร้างขึ้นโดยอัตโนมัติ ซึ่งแตกต่างจากทวีตอื่น ๆ ที่มีคำอธิบายประกอบโดยมนุษย์ จึงจัดประเภททวีตที่มีอารมณ์เชิงบวกและอารมณ์เชิงลบว่าไม่เอื้ออำนวย

ชุดข้อมูลความเชื่อมั่นแบบหลายโดเมน (ลิงค์)

ชุดข้อมูลความเชื่อมั่นแบบหลายโดเมนนี้เป็นที่เก็บบทวิจารณ์ Amazon สำหรับผลิตภัณฑ์ต่างๆ หมวดหมู่สินค้าบางประเภท เช่น หนังสือ มีบทวิจารณ์เป็นพันรายการ ในขณะที่ประเภทอื่นๆ มีบทวิจารณ์เพียงไม่กี่ร้อยรายการ นอกจากนี้ บทวิจารณ์ที่มีการจัดระดับดาวสามารถแปลงเป็นป้ายกำกับไบนารีได้

มาพูดถึงความต้องการข้อมูลการฝึกอบรม AI ของคุณวันนี้

ข้อความ

Wiki QA Corpus (ลิงค์)

WiKi QA Corpus สร้างขึ้นเพื่อช่วยตอบคำถามในโดเมนแบบเปิดกว้าง เป็นหนึ่งในชุดข้อมูลสาธารณะที่กว้างขวางที่สุด รวบรวมจากบันทึกการสืบค้นของโปรแกรมค้นหาของ Bing ซึ่งมาพร้อมกับคู่คำถามและคำตอบ มีคำถามมากกว่า 3000 ข้อและประโยคคำตอบ 1500 ประโยค

ชุดข้อมูลรายงานกรณีทางกฎหมาย (ลิงค์)

ชุดข้อมูลรายงานกรณีทางกฎหมายมีคอลเลกชันคดีทางกฎหมาย 4000 คดี และสามารถใช้ในการฝึกอบรมสำหรับการสรุปข้อความอัตโนมัติและการวิเคราะห์การอ้างอิง แต่ละเอกสาร บทกลอน คลาสการอ้างอิง บทอ้างอิงอ้างอิง และอื่นๆ ถูกนำมาใช้

อันตราย (ลิงค์)

ชุดข้อมูล Jeopardy คือชุดคำถามมากกว่า 200,000 คำถามในรายการทีวีตอบคำถามยอดนิยมที่รวบรวมโดยผู้ใช้ Reddit จุดข้อมูลแต่ละจุดจะจำแนกตามวันที่ออกอากาศ หมายเลขตอน มูลค่า รอบ และคำถาม/คำตอบ

เสียงพูด

ภาษาวิกิพีเดียภาษาพูด (ลิงค์)

ชุดข้อมูลนี้เหมาะสำหรับทุกคนที่ต้องการก้าวไปไกลกว่าภาษาอังกฤษ ชุดข้อมูลนี้มีชุดบทความที่ใช้ภาษาดัตช์ เยอรมัน และอังกฤษ มีหัวข้อและชุดผู้พูดที่หลากหลายซึ่งใช้เวลาหลายร้อยชั่วโมง

2000 HUB5 ภาษาอังกฤษ (ลิงค์)

ชุดข้อมูลภาษาอังกฤษ HUB2000 ของ 5 มีบันทึกการสนทนาทางโทรศัพท์เป็นภาษาอังกฤษ 40 รายการ ข้อมูลนี้จัดทำโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ โดยมุ่งเน้นที่การจดจำคำพูดสนทนาและการแปลงคำพูดเป็นข้อความ

LibriSpeech (ลิงค์)

ชุดข้อมูล LibriSpeech คือชุดของคำพูดภาษาอังกฤษเกือบ 1000 ชั่วโมงที่นำมาและแบ่งตามหัวข้ออย่างเหมาะสมเป็นบทจากหนังสือเสียง ทำให้เป็นเครื่องมือที่สมบูรณ์แบบสำหรับการประมวลผลภาษาธรรมชาติ

รีวิว

Yelp ความคิดเห็น (ลิงค์)

ชุดข้อมูล Yelp มีคอลเลกชั่นรีวิว 8.5 ล้านรีวิวจากกว่า 160,000 ธุรกิจ บทวิจารณ์ และข้อมูลผู้ใช้ บทวิจารณ์สามารถใช้เพื่อฝึกโมเดลของคุณเกี่ยวกับการวิเคราะห์ความเชื่อมั่นได้ นอกจากนี้ ชุดข้อมูลนี้ยังมีรูปภาพมากกว่า 200,000 ภาพครอบคลุมพื้นที่ในเมืองใหญ่แปดแห่ง

IMDB ความคิดเห็น (ลิงค์)

บทวิจารณ์ IMDB เป็นหนึ่งในชุดข้อมูลยอดนิยมที่มีข้อมูลนักแสดง การให้คะแนน คำอธิบาย และประเภทสำหรับภาพยนตร์มากกว่า 50 เรื่อง สามารถใช้ชุดข้อมูลนี้เพื่อทดสอบและฝึกโมเดลการเรียนรู้ของเครื่อง

ชุดข้อมูลรีวิวและการให้คะแนนของ Amazon (ลิงค์)

ชุดข้อมูลการตรวจสอบและการให้คะแนนของ Amazon ประกอบด้วยชุดข้อมูลเมตาอันมีค่าและบทวิจารณ์ผลิตภัณฑ์ต่างๆ จาก Amazon ที่รวบรวมตั้งแต่ปี 1996 ถึง 2014 – ประมาณ 142.8 ล้านระเบียน ข้อมูลเมตาประกอบด้วยราคา คำอธิบายผลิตภัณฑ์ แบรนด์ หมวดหมู่ และอื่นๆ ในขณะที่บทวิจารณ์มีคุณภาพข้อความ ประโยชน์ของข้อความ การให้คะแนน และอื่นๆ

คุณเลือกชุดข้อมูลใดในการฝึกโมเดลแมชชีนเลิร์นนิงของคุณ

ในขณะที่เราไปเราจะปล่อยให้คุณกับ โปรทิป

ตรวจสอบให้แน่ใจว่าได้อ่านไฟล์ README อย่างละเอียดก่อนที่จะเลือกชุดข้อมูล NLP ตามความต้องการของคุณ ชุดข้อมูลจะมีข้อมูลที่จำเป็นทั้งหมดที่คุณอาจต้องการ เช่น เนื้อหาของชุดข้อมูล พารามิเตอร์ต่างๆ ที่มีการจัดหมวดหมู่ข้อมูล และกรณีการใช้งานที่เป็นไปได้ของชุดข้อมูล

ไม่ว่าคุณจะสร้างโมเดลใด มีโอกาสที่น่าตื่นเต้นในการผสานรวมเครื่องจักรของเราอย่างใกล้ชิดและเข้ากับชีวิตของเรามากขึ้น ด้วย NLP ความเป็นไปได้สำหรับธุรกิจ ภาพยนตร์ การรู้จำคำพูด การเงิน และอื่นๆ จะเพิ่มขึ้นมากมาย หากคุณกำลังมองหาชุดข้อมูลดังกล่าวเพิ่มเติม คลิกที่นี่.

แบ่งปันสังคม

พูดคุยกับผู้เชี่ยวชาญ

ชื่อ*
นามสกุล*
อีเมลล์*
เบอร์โทรศัพท์*
บริษัท*
ประเทศ*
ประเทศ
ความคิดเห็น*
ในการลงทะเบียน ฉันเห็นด้วยกับ Shaip นโยบายความเป็นส่วนตัว และ ใช้บริการมา และให้ความยินยอมของฉันในการรับการสื่อสารการตลาดแบบ B2B จาก Shaip
CAPTCHA

ดาวน์โหลดหนังสือฟรี

15 ชุดข้อมูล NLP ที่ดีที่สุดเพื่อฝึกโมเดลการประมวลผลภาษาธรรมชาติ

ชุดข้อมูล NLP สำหรับการเรียนรู้ของเครื่องที่คุณวางใจได้

General

สแปมเบสของ UCI (ลิงค์)

ชุดข้อมูล Enron (ลิงค์)

ชุดข้อมูลระบบผู้แนะนำ (ลิงค์)

การวิเคราะห์ความเชื่อมั่น

พจนานุกรมสำหรับภาพยนตร์และการเงิน (ลิงค์)

ค่าความเชื่อมั่น 140 (ลิงค์)

ชุดข้อมูลความเชื่อมั่นแบบหลายโดเมน (ลิงค์)

ข้อความ

Wiki QA Corpus (ลิงค์)

ชุดข้อมูลรายงานกรณีทางกฎหมาย (ลิงค์)

อันตราย (ลิงค์)

เสียงพูด

ภาษาวิกิพีเดียภาษาพูด (ลิงค์)

2000 HUB5 ภาษาอังกฤษ (ลิงค์)

LibriSpeech (ลิงค์)

รีวิว

Yelp ความคิดเห็น (ลิงค์)

IMDB ความคิดเห็น (ลิงค์)

ชุดข้อมูลรีวิวและการให้คะแนนของ Amazon (ลิงค์)

แบ่งปันสังคม

พูดคุยกับผู้เชี่ยวชาญ

บริการข้อมูล AI

พิเศษ

Industry

ผลิตภัณฑ์

บริษัท

แหล่งข้อมูล

ติดต่อเรา