ชุดข้อมูลโอเพนซอร์สสำหรับโมเดล AI/ML ของคุณ
การค้นหาชุดข้อมูลที่เหมาะสมสำหรับโมเดล AI ของคุณไม่ควรใช้เวลานานหลายสัปดาห์ คลังชุดข้อมูลแบบเปิดช่วยให้ทีม ML เข้าถึงชุดข้อมูลที่คัดสรรและตรวจสอบโดยมนุษย์แล้วกว่า 100 ชุด ครอบคลุม NLP, คอมพิวเตอร์วิชั่น, การประมวลผลเสียง และ AI เชิงสร้างสรรค์ ได้ทันที โดยทั้งหมดนี้สามารถสำรวจได้ฟรี
ดังนั้น หากคุณต้องการเริ่มต้นความคิดริเริ่ม AI/ML ใหม่และตอนนี้ คุณตระหนักได้อย่างรวดเร็วว่าการค้นหาข้อมูลการฝึกอบรมคุณภาพสูงจะเป็นหนึ่งในแง่มุมที่ท้าทายมากขึ้นของโครงการของคุณ เนื่องจากชุดข้อมูลคุณภาพสูงเป็นเชื้อเพลิงที่ช่วยให้ AI/ เครื่องยนต์ ML ทำงาน เราได้รวบรวมรายการชุดข้อมูลแบบเปิดที่ใช้งานได้ฟรีและฝึกโมเดล AI/ML ของคุณในอนาคต
| ความเชี่ยวชาญ | ประเภทข้อมูล | ชื่อชุดข้อมูล | อุตสาหกรรม / ฝ่าย | คำอธิบายประกอบ/กรณีการใช้งาน | ลิงค์ |
|---|---|---|---|---|---|
| +NLP | ข้อความ | รีวิว Amazon | E-Commerce | การวิเคราะห์ความเชื่อมั่น | ลิงค์ |
| รายละเอียด | ชุดบทวิจารณ์และการให้คะแนน 35 ล้านรายการในช่วง 18 ปีที่ผ่านมาในรูปแบบข้อความธรรมดาพร้อมรายละเอียดผู้ใช้และผลิตภัณฑ์ | ||||
| +NLP | ข้อความ | Wikipedia ลิงก์ข้อมูล | ทั่วไป | ลิงค์ | |
| รายละเอียด | บทความมากกว่า 4 ล้านบทความที่มีคำ 1.9 พันล้านคำจากวิกิพีเดีย แต่ละบทความมีไฮเปอร์ลิงก์ไปยังเอนทิตีที่เกี่ยวข้อง | ||||
| +NLP | ข้อความ | สแตนด์ฟอร์ด เซนติเมนท์ ทรีแบงค์ | ความบันเทิง | การวิเคราะห์ความเชื่อมั่น | ลิงค์ |
| รายละเอียด | ชุดข้อมูลคำอธิบายประกอบความรู้สึกสำหรับประโยครีวิวภาพยนตร์จาก Rotten Tomatoes กว่า 10,000 ประโยค มีให้บริการในระดับวลี โดยแต่ละประโยคจะถูกแยกเป็นวลีย่อยโดยการแปลงไฟล์ไบนารีของ parse tree ในรูปแบบ Penn Treebank | ||||
| +NLP | ข้อความ | Twitter ความเชื่อมั่นของสายการบินสหรัฐฯ | สายการบิน | การวิเคราะห์ความเชื่อมั่น | ลิงค์ |
| รายละเอียด | ทวีตเกี่ยวกับสายการบินสหรัฐฯ ในปี 2015 แบ่งออกเป็นความคิดเห็นเชิงบวก เป็นกลาง และเชิงลบ | ||||
| +CV | ภาพ | อิมเมจเน็ต | ทั่วไป | ลิงค์ | |
| รายละเอียด | ชุดข้อมูลที่มีรูปภาพมากกว่า 14 ล้านภาพในรูปแบบไฟล์ต่างๆ จับคู่กับซินเซ็ตประมาณ 21,000 รายการ ซินเซ็ตคือคำพ้องความหมายที่มีเอนทิตีที่เกี่ยวข้องปรากฏเป็นรูปภาพ รูปภาพ 1 ล้านภาพมีกรอบล้อมรอบ และรูปภาพมากกว่า 1 ล้านภาพมีคุณลักษณะ SIFT | ||||
| +CV | ภาพ | รูปภาพเปิดของ Google | ทั่วไป | ลิงค์ | |
| รายละเอียด | ชุดข้อมูลคล้ายกับ ImageNet ที่มี 600 หมวดหมู่ พร้อมใช้งานสำหรับการพัฒนา การตรวจสอบความถูกต้อง และการฝึกอบรม บางภาพยังมีกรอบขอบเขตและความสัมพันธ์ทางภาพด้วย | ||||
| +NLP | ข้อความ | บทสนทนาในภาพยนตร์ของคอร์เนลล์ | ความบันเทิง | ไดอะล็อก | ลิงค์ |
| รายละเอียด | ชุดบทสนทนาสมมติ พร้อมข้อมูลเมตาของตัวละครและภาพยนตร์ แต่ละแถวเป็นบทสนทนาระหว่างคนสองคนในรูปแบบถาม-ตอบ | ||||
| รายละเอียด | ชุดข้อมูลคำถาม-คำตอบซึ่งประกอบด้วยคำถามและคำตอบจากพอร์ทัล Yahoo Answers ระหว่างเดือนเมษายน พ.ศ. 2007 ถึงเดือนตุลาคม พ.ศ. 2007 | ||||
| +NLP | ข้อความ | คุณมาร์โก | ทั่วไป | ตอบคำถาม | ลิงค์ |
| รายละเอียด | ชุดข้อมูลคำถาม-คำตอบพร้อมคำอธิบายประกอบจากบันทึกการค้นหาเว็บของ Bing แต่ละคำถามประกอบด้วยคำตอบจากผู้ใช้ รวมถึงข้อความบนเว็บที่มีคำตอบ | ||||
| +NLP | ข้อความ | ชุดข้อมูลคำถามธรรมชาติ | ทั่วไป | ตอบคำถาม | ลิงค์ |
| รายละเอียด | ชุดข้อมูลนี้เผยแพร่โดย Google ประกอบด้วยคำถามและคำตอบของผู้ใช้จริงจากบทความ Wikipedia | ||||
| +NLP | ข้อความ | ดีบีพีเดีย | ทั่วไป | กราฟความรู้ | ลิงค์ |
| รายละเอียด | การแสดงผลแบบมีโครงสร้างของ Wikipedia โดยมีเอนทิตีและความสัมพันธ์ที่แยกออกมาเป็น Knowledge Graph | ||||
| +NLP | ข้อความ | ยาโกะ | ทั่วไป | กราฟความรู้ | ลิงค์ |
| รายละเอียด | กราฟความรู้ที่ประกอบด้วยเอนทิตีและความสัมพันธ์จาก Wikipedia, WordNet และ GeoNames | ||||
| +NLP | ข้อความ | ฟรีเบส | ทั่วไป | กราฟความรู้ | ลิงค์ |
| รายละเอียด | ฐานความรู้ที่รวบรวมจากแหล่งข้อมูลจำนวนมาก ซึ่งประกอบด้วยเอนทิตีและความสัมพันธ์ ซึ่งขณะนี้รวมเข้าในกราฟความรู้ของ Google แล้ว | ||||
| +NLP | ข้อความ | ออนโทโน้ต | ทั่วไป | การติดฉลากบทบาททางความหมาย | ลิงค์ |
| รายละเอียด | คอร์ปัสที่มีคำอธิบายประกอบในระดับไวยากรณ์ ความหมาย และบทสนทนาที่ใช้ในงานที่ใช้ร่วมกันของ CoNLL | ||||
| รายละเอียด | ชุดข้อมูลภาษาอังกฤษที่มีคำอธิบายประกอบสำหรับเอนทิตีที่มีชื่อ เช่น บุคคล องค์กร และตำแหน่งที่ตั้ง | ||||
| +CV | ภาพ | COCO | ทั่วไป | การตรวจจับวัตถุ | ลิงค์ |
| รายละเอียด | วัตถุทั่วไปในบริบท: ชุดข้อมูลที่มีคำอธิบายประกอบอย่างละเอียดสำหรับการตรวจจับวัตถุ การแบ่งส่วน และการสร้างคำอธิบายภาพ | ||||
| +CV | ภาพ | ปาสกาล VOC | ทั่วไป | การตรวจจับวัตถุ | ลิงค์ |
| รายละเอียด | ชุดข้อมูลมาตรฐานสำหรับความท้าทายในการตรวจจับวัตถุและการแบ่งส่วน | ||||
| +CV | ภาพ | ภาพเมือง | การขับขี่อัตโนมัติ | การแบ่งส่วนความหมาย | ลิงค์ |
| รายละเอียด | ชุดข้อมูลสำหรับการทำความเข้าใจฉากในเมืองพร้อมคำอธิบายระดับพิกเซลสำหรับ 30 คลาส | ||||
| +CV | ภาพ | สวพ.FMXNUMX | ทั่วไป | การจำแนกประเภทตัวเลข | ลิงค์ |
| รายละเอียด | ชุดข้อมูลตัวเลขที่เขียนด้วยลายมือพร้อมการฝึกอบรม 60,000 รายการและรูปภาพทดสอบ 10,000 รูปภาพขนาด 28x28 พิกเซล | ||||
| +CV | ภาพ | แฟชั่น-MNIST | ขายปลีก | การจำแนกรูปภาพ | ลิงค์ |
| รายละเอียด | ชุดข้อมูลภาพบทความของ Zalando ในรูปแบบเดียวกับ MNIST ใช้แทนการประเมินประสิทธิภาพแบบทันที | ||||
| +NLP | เสียง | LibriSpeech | ทั่วไป | ASR | ลิงค์ |
| รายละเอียด | คลังคำพูดภาษาอังกฤษที่อ่านได้จากหนังสือเสียง ประกอบด้วยคำพูดและข้อความที่เกี่ยวข้อง 1000 ชั่วโมง | ||||
| +NLP | เสียง | เท็ด-เลียม | ทั่วไป | ASR | ลิงค์ |
| รายละเอียด | ถอดเสียงบรรยาย TED พร้อมเสียงและการถอดเสียงที่สอดคล้องสำหรับการวิจัยการจดจำเสียงพูด | ||||
| +NLP | เสียง | ทิมิต | ทั่วไป | การจดจำหน่วยเสียง | ลิงค์ |
| รายละเอียด | ถอดเสียงคำพูดของผู้พูดภาษาอังกฤษแบบอเมริกัน ใช้กันอย่างแพร่หลายสำหรับงานการจดจำหน่วยเสียง | ||||
| +NLP | เสียง | เสียงสามัญ | ทั่วไป | ASR | ลิงค์ |
| รายละเอียด | คลังข้อมูลคำพูดอ่านได้หลายภาษาที่ส่งมาโดยอาสาสมัครจากทั่วโลก | ||||
| +NLP | เสียง | ว็อกซ์เซเลป | ทั่วไป | การจดจำลำโพง | ลิงค์ |
| รายละเอียด | ชุดข้อมูลการระบุตัวผู้พูดขนาดใหญ่ที่รวบรวมจากวิดีโอ YouTube | ||||
| +NLP | ข้อความ | วิกิพีเดียดัมพ์ | ทั่วไป | การสร้างแบบจำลองภาษา | ลิงค์ |
| รายละเอียด | การดัมพ์ข้อความเต็มของบทความ Wikipedia ที่ได้รับการอัปเดตเป็นประจำ ใช้สำหรับการฝึกอบรมโมเดลภาษาเบื้องต้น | ||||
| +NLP | ข้อความ | กิกะเวิร์ด | ข่าวสาร | การสร้างแบบจำลองภาษา | ลิงค์ |
| รายละเอียด | คลังข้อมูลข้อความข่าวที่ครอบคลุมจากสำนักข่าวหลายแห่ง | ||||
| +NLP | ข้อความ | IMDB ความคิดเห็น | ความบันเทิง | การวิเคราะห์ความเชื่อมั่น | ลิงค์ |
| รายละเอียด | ชุดข้อมูลบทวิจารณ์ภาพยนตร์ขนาดใหญ่สำหรับการจำแนกประเภทความรู้สึกแบบไบนารี | ||||
| +CV | วีดีโอ | จลนศาสตร์-700 | ทั่วไป | การรับรู้การกระทำ | ลิงค์ |
| รายละเอียด | ชุดข้อมูลวิดีโอ YouTube คุณภาพสูงขนาดใหญ่ ครอบคลุมคลาสการกระทำของมนุษย์ 700 คลาส | ||||
| +CV | วีดีโอ | UCF101 | ทั่วไป | การรับรู้การกระทำ | ลิงค์ |
| รายละเอียด | ชุดข้อมูลวิดีโอแอคชั่นสมจริง พร้อมหมวดหมู่แอคชั่น 101 หมวดหมู่ | ||||
| +CV | วีดีโอ | เอชเอ็มดีบี51 | ทั่วไป | การรับรู้การกระทำ | ลิงค์ |
| รายละเอียด | ฐานข้อมูลวิดีโอการเคลื่อนไหวของมนุษย์ขนาดใหญ่พร้อมหมวดหมู่การกระทำ 51 หมวดหมู่ | ||||
| รายละเอียด | ฐานข้อมูลภาพถ่ายใบหน้าที่ออกแบบมาเพื่อศึกษาการจดจำใบหน้าแบบไม่มีข้อจำกัด | ||||
| +CV | ภาพ | CASIA-เว็บเฟซ | ทั่วไป | การจดจำใบหน้า | ลิงค์ |
| รายละเอียด | ชุดข้อมูลที่มีภาพใบหน้านับล้านภาพเพื่อการฝึกโมเดลการจดจำใบหน้าเชิงลึก | ||||
| +NLP | ข้อความ | ทีม | ทั่วไป | อ่านวิเคราะห์ | ลิงค์ |
| รายละเอียด | ชุดคำถามและคำตอบของ Stanford: คำถามที่ถูกถามโดย Crowdworkers ในชุดบทความ Wikipedia | ||||
| รายละเอียด | ชุดข้อมูลความเข้าใจของเครื่องจักรพร้อมคำถามและคำตอบที่อ้างอิงจากบทความข่าว CNN | ||||
| +NLP | ข้อความ | มัลติเอ็นแอลไอ | ทั่วไป | การอนุมานภาษาธรรมชาติ | ลิงค์ |
| รายละเอียด | ชุดข้อมูลสำหรับการอนุมานภาษาธรรมชาติของคู่ประโยคในหลายประเภท | ||||
| +NLP | ข้อความ | ส.ส.ล. | ทั่วไป | การอนุมานภาษาธรรมชาติ | ลิงค์ |
| รายละเอียด | คอร์ปัสการอนุมานภาษาธรรมชาติของสแตนฟอร์ดพร้อมคู่ประโยคที่มีป้ายกำกับว่า การส่งผลตามมา การขัดแย้ง หรือความเป็นกลาง | ||||
| รายละเอียด | คอลเลกชันโทเค็นมากกว่า 100 ล้านรายการที่ดึงมาจากชุดบทความที่ดีและบทความเด่นที่ผ่านการตรวจยืนยันบน Wikipedia | ||||
| รายละเอียด | ชุดข้อมูลภาพรถยนต์จำนวน 16,185 ภาพจากรถยนต์ 196 ประเภท | ||||
| +CV | ภาพ | อ็อกซ์ฟอร์ด ฟลาวเวอร์ส 102 | พฤกษศาสตร์ | การจำแนกประเภทแบบละเอียด | ลิงค์ |
| รายละเอียด | 102 หมวดหมู่ดอกไม้ที่พบได้ทั่วไปในสหราชอาณาจักร | ||||
| +CV | ภาพ | ซิฟาร์ -10 | ทั่วไป | การจำแนกรูปภาพ | ลิงค์ |
| รายละเอียด | ภาพของ 10 คลาส: เครื่องบิน รถยนต์ นก แมว กวาง สุนัข กบ ม้า เรือ และรถบรรทุก | ||||
| +CV | ภาพ | ซิฟาร์ -100 | ทั่วไป | การจำแนกรูปภาพ | ลิงค์ |
| รายละเอียด | ชุดข้อมูลที่คล้ายกับ CIFAR-10 แต่มีคลาสละเอียด 100 คลาส | ||||
| +CV | ภาพ | เค้าโครงบุคคล VOC | ทั่วไป | ประมาณการท่าทาง | ลิงค์ |
| รายละเอียด | ส่วนหนึ่งของ PASCAL VOC ที่มุ่งเน้นไปที่คำอธิบายเค้าโครงของบุคคล เช่น ศีรษะ มือ และเท้า | ||||
| +CV | ภาพ | ท่ามนุษย์ MPII | ทั่วไป | ประมาณการท่าทาง | ลิงค์ |
| รายละเอียด | รูปภาพประมาณ 25,000 รูปประกอบด้วยผู้คนมากกว่า 40,000 คนพร้อมคำอธิบายเกี่ยวกับข้อต่อของร่างกาย | ||||
| รายละเอียด | คอลเลกชันบทความข่าวของรอยเตอร์สเพื่อการวิจัยการจัดหมวดหมู่ข้อความ | ||||
| +NLP | ข้อความ | 20 กลุ่มข่าว | ทั่วไป | การจัดประเภทข้อความ | ลิงค์ |
| รายละเอียด | เอกสารกลุ่มข่าวจำนวน 20,000 ฉบับที่แบ่งออกเป็นกลุ่มข่าว 20 กลุ่มที่แตกต่างกัน | ||||