เทคโนโลยีการรู้จำอักขระด้วยแสง (OCR) ในปัจจุบันถูกนำมาใช้ในการสแกนใบเสร็จ การตรวจสอบบัตรประจำตัว การออกใบแจ้งหนี้อัตโนมัติ การแปลงเอกสารจดหมายเหตุทางประวัติศาสตร์ให้เป็นดิจิทัล และแอปพลิเคชันจดบันทึกด้วยปากกา Stylus ตลาด OCR คาดว่าจะเติบโตถึง 32.90 พันล้านดอลลาร์สหรัฐภายในปี 2030 ด้วยอัตราการเติบโตเฉลี่ยต่อปี (CAGR) 14.8% (Grand View Research, 2024) โดยการรู้จำอักขระอัจฉริยะ ซึ่งเป็นสาขาการอ่านลายมือของ OCR จะเติบโตเร็วที่สุด ไม่ว่าคุณจะสร้างระบบวิเคราะห์เอกสาร การตรวจจับข้อความในภาพ หรือการถอดความลายมือ ชุดข้อมูล OCR ที่คุณใช้ในการฝึกฝนจะเป็นตัวกำหนดขีดจำกัดความแม่นยำของคุณ คู่มือนี้ครอบคลุมชุดข้อมูล OCR แบบโอเพนซอร์สฟรี 22 ชุด รวมถึงชุดข้อมูลลายมือที่ดีที่สุด โดยจัดเรียงตามกรณีการใช้งานและอัปเดตด้วยชุดข้อมูลที่แข็งแกร่งที่สุดจนถึงปี 2024
ประเด็นที่สำคัญ
- OCR (การรู้จำอักขระด้วยแสง): เทคโนโลยีที่แปลงภาพตัวอักษร ภาพทิวทัศน์ หรือข้อความที่เขียนด้วยลายมือ ให้เป็นข้อมูลที่เครื่องสามารถอ่านได้
- ชุดข้อมูล OCR แบ่งออกเป็นห้ากลุ่ม ได้แก่ เอกสาร/แบบฟอร์ม ข้อความในภาพ ตัวเลข/ตัวอักษร ลายมือ และหลายภาษา
- ชุดข้อมูล OCR เอกสาร บันทึกหน้าเว็บที่มีโครงสร้าง เช่น แบบฟอร์มและใบเสร็จรับเงิน; ชุดข้อมูลฉากและข้อความ บันทึกข้อความ “ในสภาพแวดล้อมจริง”
- IAM, MNIST, ICDAR และ SROIE ยังคงเป็นมาตรฐานการวัด OCR ที่ถูกอ้างอิงมากที่สุดในงานวิจัยต่างๆ
- เงื่อนไขการอนุญาตใช้งานแตกต่างกันอย่างมาก โปรดตรวจสอบชุดข้อมูล OCR แต่ละชุดก่อนนำไปใช้ในการฝึกอบรมเชิงพาณิชย์
OCR (การรู้จำอักขระด้วยแสง) คืออะไร
OCR คือเทคโนโลยีที่แปลงเอกสารประเภทต่างๆ เช่น เอกสารกระดาษที่สแกน PDF หรือรูปภาพข้อความ ให้เป็นข้อมูลที่แก้ไขและค้นหาได้ โดยทำงานดังนี้:
- การวิเคราะห์โครงสร้างข้อความในภาพ
- การแบ่งข้อความออกเป็นบรรทัดและอักขระ
- การแปลงอักขระภาพเหล่านี้เป็นข้อความที่เครื่องอ่านได้
การใช้งานทั่วไป ได้แก่ :
- การแปลงเอกสารที่สแกนเป็นไฟล์ข้อความที่สามารถแก้ไขได้
- การพิมพ์หนังสือในรูปแบบดิจิทัล
- การดึงข้อความจากภาพถ่าย
- การแปลงใบสั่งยาที่เขียนด้วยลายมือเป็นข้อความดิจิทัล
- การจดจำป้ายทะเบียน
คุณจะเลือกชุดข้อมูล OCR ที่เหมาะสมได้อย่างไร?
การเลือกชุดข้อมูล OCR ขึ้นอยู่กับปัจจัยสี่ประการ ได้แก่ ประเภทของข้อความ สภาพแวดล้อมในการจับภาพ ความละเอียดของการระบุข้อมูล และใบอนุญาต OCR สำหรับเอกสารสิ่งพิมพ์ต้องการข้อมูลฝึกฝนที่แตกต่างจากข้อความที่เขียนด้วยลายมือแบบตัวเขียนหรือข้อความโค้ง ชุดข้อมูลเอกสารเหมาะสำหรับใบแจ้งหนี้ แบบฟอร์ม และใบเสร็จรับเงิน ชุดข้อมูลข้อความเหมาะสำหรับป้ายและข้อมูลผลิตภัณฑ์ ชุดข้อมูลลายมือเหมาะสำหรับบันทึกย่อ ต้นฉบับ และการป้อนข้อมูลด้วยปากกา การระบุข้อมูลระดับคำและระดับบรรทัดรองรับกระบวนการ OCR เต็มรูปแบบ ในขณะที่ชุดข้อมูลระดับตัวอักษรเหมาะสำหรับเกณฑ์มาตรฐานการจำแนกประเภท ควรตรวจสอบเงื่อนไขใบอนุญาตเสมอ เนื่องจากชุดข้อมูล OCR บางชุดมีไว้สำหรับการวิจัยเท่านั้นหรือต้องลงทะเบียน
ชุดข้อมูล OCR สำหรับเอกสารและแบบฟอร์มที่ดีที่สุดคืออะไร?
ชุดข้อมูล OCR สำหรับเอกสารใช้ในการฝึกฝนโมเดลเพื่อวิเคราะห์เอกสารที่มีโครงสร้าง เช่น ใบแจ้งหนี้ แบบฟอร์ม ใบเสร็จรับเงิน และบัตรประจำตัว ซึ่งเป็นส่วนสำคัญในการทำงานอัตโนมัติของเอกสารทางธุรกิจและการดึงข้อมูลคีย์-ค่า
- ฟันเอสดี — แบบฟอร์มสแกนที่มีคำอธิบายประกอบ 199 แบบ ซึ่งมีลักษณะเหมือนจริงและมีสัญญาณรบกวน เป็นมาตรฐานสำหรับการทำความเข้าใจแบบฟอร์มและการสกัดค่าสำคัญ
- สรอ.ไออี — ชุดข้อมูลใบเสร็จรับเงินที่สแกนแล้ว ICDAR 2019 ประกอบด้วยใบเสร็จประมาณ 1,000 ใบ รองรับการตรวจจับข้อความ การจดจำ และการดึงข้อมูลในชุดเดียว
- สาย — ชุดข้อมูลใบเสร็จรับเงินแบบรวมศูนย์ที่สร้างขึ้นสำหรับการวิเคราะห์หลัง OCR พร้อมป้ายกำกับระดับฟิลด์ที่ครบถ้วนสำหรับการสร้างใบแจ้งหนี้และใบเสร็จรับเงินโดยอัตโนมัติ
- เอ็กซ์ฟันด์ — ส่วนขยายหลายภาษาของ FUNSD ครอบคลุมเจ็ดภาษา (เยอรมัน สเปน ฝรั่งเศส อิตาลี ญี่ปุ่น โปรตุเกส จีน) โดยแต่ละภาษามี 199 หน้า เหมาะอย่างยิ่งสำหรับ AI เอกสารหลายภาษา
- ดีดีไอ-100 — ภาพเอกสารบิดเบี้ยวประมาณ 100,000 ภาพ สำหรับการตรวจจับและจดจำภายใต้สภาวะความเสื่อมโทรมในโลกแห่งความเป็นจริง เช่น การเอียง การเบลอ และสัญญาณรบกวน
ชุดข้อมูล OCR ข้อความฉากที่ดีที่สุดคืออะไร?
ชุดข้อมูล Scene-text OCR ใช้สำหรับฝึกโมเดลให้สามารถอ่านข้อความในภาพธรรมชาติ เช่น ป้าย ผลิตภัณฑ์ และภาพทิวทัศน์บนท้องถนน ซึ่งมีความสำคัญอย่างยิ่งสำหรับการใช้งาน OCR ในสภาพแวดล้อมจริงที่มีพื้นหลังรก
- การอ่านที่แข็งแกร่งของ ICDAR — กลุ่มมาตรฐานที่อยู่เบื้องหลังงานวิจัยเกี่ยวกับข้อความในฉากส่วนใหญ่ รวมถึงโจทย์ท้าทาย Focused Scene Text และ Incidental Scene Text ที่ใช้กรอบขอบเขตคำและคำถอดเสียงระดับคำ
- โคโค-เท็กซ์ — การใส่คำอธิบายประกอบภาพขนาดใหญ่ลงบนภาพ MS-COCO มีประสิทธิภาพสูงในการตรวจจับข้อความขนาดใหญ่ในฉากธรรมชาติ
- ข้อความทั้งหมด — มีความเชี่ยวชาญในการประมวลผลข้อความที่มีลักษณะโค้งและวางตัวในทิศทางที่ไม่แน่นอน ซึ่งเป็นจุดอ่อนที่พบได้บ่อยในโมเดล OCR รุ่นเก่า
- SVT (ข้อความในมุมมองถนน) — ภาพตัวอักษรที่ได้มาจาก Google Street View ซึ่งมักมีความละเอียดต่ำและมีความแปรปรวนสูง สามารถดูได้ผ่านทางเว็บไซต์สำรองของ Papers with Code
- ข้อความลำดับชั้น — การใส่คำอธิบายประกอบแบบลำดับชั้น ตั้งแต่ย่อหน้า บรรทัด ไปจนถึงคำ ครอบคลุมทั้งข้อความที่เขียนด้วยลายมือและข้อความที่พิมพ์ มีประโยชน์สำหรับ OCR ที่คำนึงถึงเค้าโครง
ชุดข้อมูล OCR ตัวเลขและตัวอักษรที่ดีที่สุดคืออะไร?
ชุดข้อมูล OCR ตัวเลขและตัวอักษรใช้สำหรับฝึกโมเดลให้จดจำสัญลักษณ์แต่ละตัวในสภาพแวดล้อมที่มีการควบคุม นี่คือจุดเริ่มต้นมาตรฐานสำหรับเกณฑ์พื้นฐานในการจำแนกประเภท
- สวพ.FMXNUMX — ภาพตัวเลขเขียนด้วยลายมือขาวดำจำนวน 70,000 ภาพ เป็นเกณฑ์มาตรฐานที่เร็วที่สุดสำหรับการตรวจสอบความถูกต้องของตัวจำแนกตัวเลข
- เอ็มนิสต์ — เพิ่มข้อมูลตัวอักษรและตัวเลขที่เขียนด้วยลายมือจำนวน 814,255 รายการจากฐานข้อมูลพิเศษ NIST 19 ลงในฐานข้อมูล MNIST
- SVHN (หมายเลขบ้านใน Street View) — ภาพตัวเลขจริงกว่า 600,000 ภาพจากหมายเลขบ้าน เป็นการพัฒนาต่อยอดจาก MNIST ที่ใช้งานได้จริงในสภาพแวดล้อมที่มีสัญญาณรบกวนสูง
- ชาร์ส74เค — ภาพจำนวน 74,107 ภาพ ครอบคลุมตัวอักษรภาษาอังกฤษและภาษากันนาดา จากภาพธรรมชาติและแบบอักษรที่สร้างจากคอมพิวเตอร์
- ฐานข้อมูลพิเศษ NIST 19 — ภาพตัวอักษรที่เขียนด้วยลายมือมากกว่า 810,000 ภาพ จากนักเขียน 3,600 คน แหล่งข้อมูลที่ใช้เป็นมาตรฐานอ้างอิงสำหรับโปรแกรม OCR ภาษาอังกฤษหลายๆ โปรแกรม
ชุดข้อมูลลายมือที่ดีที่สุดสำหรับ OCR คืออะไร?
ชุดข้อมูลลายมือใช้ในการฝึกฝนโมเดล OCR เพื่ออ่านลายมือเขียนหวัด ลายมือพิมพ์ และลายมือเขียนในอดีต ชุดข้อมูลลายมือเขียนแบบเปิดที่แข็งแกร่งที่สุดยังคงเป็นเกณฑ์มาตรฐานที่ถูกอ้างอิงมากที่สุดสำหรับการรู้จำลายมือเขียน (HTR)
- ฐานข้อมูลลายมือ IAM — ชุดข้อมูลลายมือภาษาอังกฤษที่เป็นมาตรฐานระดับทองคำ ประกอบด้วยข้อความ 13,353 บรรทัดจากผู้เขียน 657 คน ยังคงเป็นชุดข้อมูลลายมือที่ถูกอ้างอิงมากที่สุดในการวิจัย OCR ปี 2024–2025
- ไอแอม-ออนดีบี — เวอร์ชันออนไลน์ของ IAM ที่บันทึกข้อมูลการลากเส้นด้วยปากกา ข้อมูลชุดลายมือมาตรฐานสำหรับการจดจำด้วยปากกาและแท็บเล็ต
- เอกสารเบนแธม — ถอดความจากต้นฉบับภาษาอังกฤษโบราณของนักปรัชญา เจเรมี เบนแธม เป็นมาตรฐานชั้นนำสำหรับการรู้จำลายมือโบราณด้วยระบบ OCR สามารถเข้าถึงได้ผ่าน Transkribus
- GNHK (GoodNotes Handwriting Collection) — ชุดข้อมูลปี 2021 ที่รวบรวมบันทึกย่อภาษาอังกฤษที่เขียนด้วยลายมือในโลกแห่งความเป็นจริงโดยไม่มีข้อจำกัดใดๆ มีลักษณะใกล้เคียงกับข้อมูลการใช้งานจริงที่ไม่เป็นระเบียบมากกว่าข้อมูล IAM ที่สะอาดหมดจดจากห้องปฏิบัติการ
ชุดข้อมูล OCR หลายภาษาและที่ไม่ใช่ภาษาละตินที่ดีที่สุดคืออะไร?
ชุดข้อมูล OCR หลายภาษาช่วยฝึกฝนโมเดลให้เรียนรู้ตัวอักษรนอกเหนือจากภาษาอังกฤษ รวมถึงภาษาจีน ภาษาอาหรับ และสัญลักษณ์ทางคณิตศาสตร์ ซึ่งมีความสำคัญอย่างยิ่งสำหรับการจดจำเอกสารและลายมือทั่วโลก
- คาเซีย-เอชดับบลิวดีบี — มาตรฐานการคัดกรองข้อความด้วยคอมพิวเตอร์ (OCR) ของภาษาจีน โดยใช้ตัวอย่างตัวอักษรเขียนด้วยมือ 1.17 ล้านตัว จากผู้เขียน 1,020 คน
- คัตต์ — เอกสารลายมือภาษาอาหรับ 1,000 แบบ จากผู้เขียน 1,000 คน สแกนด้วยความละเอียดหลายระดับ ชุดข้อมูล OCR ภาษาอาหรับแบบเปิดที่ครอบคลุมที่สุด
- โครม — การแข่งขันด้านการจดจำนิพจน์คณิตศาสตร์ที่เขียนด้วยลายมือทางออนไลน์: นิพจน์มากกว่า 10,000 รายการ ครอบคลุมสัญลักษณ์ทางคณิตศาสตร์มากกว่า 101 ตัว ทั้งในรูปแบบออนไลน์และออฟไลน์ จำเป็นอย่างยิ่งสำหรับการจดจำสมการที่เขียนด้วยลายมือ (OCR)
ข้อผิดพลาดที่พบบ่อยเมื่อใช้ชุดข้อมูล OCR ฟรีมีอะไรบ้าง?
สามกับดักที่ทีมส่วนใหญ่มักพลาดพลั้ง
โดเมนไม่ตรงกัน: การฝึกอบรมเกี่ยวกับการใช้ IAM หรือ COCO-Text ที่สะอาดหมดจด และการนำไปใช้กับใบแจ้งหนี้ที่ยับยู่ยี่ รับประกันได้ว่าความแม่นยำจะต่ำ
การมองข้ามใบอนุญาต: ชุดข้อมูล OCR เกี่ยวกับฉากและข้อความ รวมถึงข้อมูล OCR ทางประวัติศาสตร์หลายชุด มีไว้สำหรับการวิจัยเท่านั้น หรือต้องลงทะเบียนก่อนจึงจะสามารถใช้งานได้ในเชิงพาณิชย์
ช่องว่างในคำอธิบายประกอบ: ชุดข้อมูล OCR จำนวนมากขาดข้อมูลเมตาเกี่ยวกับเค้าโครง กรอบขอบเขตระดับบรรทัด หรือป้ายกำกับฟิลด์ที่ระบบการผลิตต้องการ
ลองนึกภาพบริษัทโลจิสติกส์ขนาดกลางแห่งหนึ่งที่กำลังใช้ระบบอัตโนมัติในการอ่านฉลากสินค้า การฝึกอบรมโดยใช้ข้อความในสภาพแวดล้อมสาธารณะช่วยให้พวกเขาทำคะแนนได้ 80% ในเกณฑ์มาตรฐาน แต่เมื่อเจอฉลากจริงที่มีแสงสะท้อนและรอยพับ คะแนนกลับลดลงเหลือเพียง 58% การลดช่องว่างนี้จึงจำเป็นต้องมีการวางแผนอย่างเจาะจง หมายเหตุข้อมูล ประกอบด้วยภาพฉลากภายในโดเมนจำนวน 6,000 ภาพก่อนเปิดตัว
ประโยชน์และความท้าทายของชุดข้อมูลโอเพ่นซอร์ส

ธุรกิจจำเป็นต้องแยกแยะผลประโยชน์และความท้าทายซึ่งกันและกันเพื่อทำความเข้าใจว่าพวกเขาต้องเลือกใช้ข้อมูลฟรีสำหรับแอปพลิเคชัน ML ของตนหรือไม่
ประโยชน์
- ข้อมูลสามารถเข้าถึงได้ง่าย เนื่องจากความพร้อมของข้อมูล ต้นทุนในการพัฒนาแอปพลิเคชันจึงลดลงอย่างมาก
- เวลาและความพยายามที่ใช้ในการรวบรวมข้อมูลสำหรับแอปพลิเคชันจะลดลงอย่างมากเนื่องจากชุดข้อมูลพร้อมใช้งาน
- มีฟอรัมชุมชนหรือกลุ่มช่วยเหลือมากมายที่ช่วยเรียนรู้ ปรับและเพิ่มประสิทธิภาพชุดข้อมูล
- ข้อได้เปรียบที่สำคัญอย่างหนึ่งของชุดข้อมูลโอเพนซอร์สคือไม่มีข้อจำกัดในการปรับแต่ง
- ข้อมูลโอเพนซอร์สสามารถเข้าถึงได้โดยประชากรส่วนใหญ่ ทำให้การวิเคราะห์และนวัตกรรมเป็นไปได้โดยไม่มีอุปสรรคทางการเงิน
ชาเลนจ์ (Challenge)
- ข้อมูลเฉพาะของโครงการนั้นยากต่อการได้มา นอกจากนี้ ยังมีความเป็นไปได้ที่ข้อมูลจะขาดหายไปและมีการใช้ข้อมูลที่มีอยู่อย่างไม่ถูกต้อง
- การได้มาซึ่งข้อมูลที่เป็นกรรมสิทธิ์ต้องใช้เวลา ความพยายาม และค่าใช้จ่ายสูง
- แม้ว่าการรับข้อมูลอาจทำได้ง่ายกว่า แต่ต้นทุนความรู้และการวิเคราะห์อาจมีค่ามากกว่าข้อได้เปรียบเบื้องต้น
- นักพัฒนารายอื่นยังใช้ข้อมูลเดียวกันนี้เพื่อพัฒนาแอปพลิเคชัน
- ชุดข้อมูลเหล่านี้มีความเสี่ยงสูงต่อการละเมิดความปลอดภัย ความเป็นส่วนตัว และความยินยอม
Shaip ให้การสนับสนุนโครงการ OCR และการจดจำลายมืออย่างไร?
ไชป์ บริการข้อมูลการฝึกอบรม OCR ผสานการดูแลจัดการชุดข้อมูลเปิดเข้ากับการปรับแต่งเฉพาะบุคคล การเก็บรวบรวมข้อมูล รองรับมากกว่า 60 ภาษา ครอบคลุมเอกสารสิ่งพิมพ์ ลายมือ ใบเสร็จ และบัตรประจำตัว เวิร์กโฟลว์การใส่คำอธิบายประกอบของ Shaip เพิ่มเลเยอร์ที่ชุดข้อมูล OCR สาธารณะขาดไป ได้แก่ กรอบขอบเขตระดับบรรทัด ป้ายกำกับระดับฟิลด์ การตรวจสอบคุณภาพการถอดเสียง และข้อมูลเมตาของผู้เขียน
สรุป
ชุดข้อมูล OCR ทั้ง 22 ชุดข้างต้น มอบรากฐานโอเพนซอร์สที่สมบูรณ์แบบสำหรับการจดจำข้อความในเอกสาร ข้อความในภาพ ตัวเลข ลายมือ และหลายภาษา สำหรับปี 2026 เริ่มต้นด้วยชุดข้อมูล OCR ที่ตรงกับประเภทข้อความและสภาพแวดล้อมการจับภาพของคุณ ตรวจสอบความถูกต้องกับตัวอย่างข้อมูลจริงที่แยกไว้ต่างหาก และจัดงบประมาณสำหรับคำอธิบายประกอบแบบกำหนดเองเพื่อปิดช่องว่างในโดเมน การผสมผสานนี้จะทำให้ส่งมอบได้เร็วกว่าการสร้างจากศูนย์
ชุดข้อมูล OCR ฟรีที่ดีที่สุดสำหรับแมชชีนเลิร์นนิงคืออะไร?
ชุดข้อมูล OCR ฟรีที่ดีที่สุดนั้นขึ้นอยู่กับลักษณะงาน ICDAR Robust Reading เหมาะสำหรับข้อความในภาพ FUNSD และ SROIE เหมาะสำหรับเอกสารและใบเสร็จรับเงิน และ IAM เหมาะสำหรับลายมือ สำหรับการจดจำตัวเลข MNIST และ SVHN เป็นมาตรฐาน ทีมส่วนใหญ่จะใช้ชุดข้อมูล OCR สองหรือสามชุดร่วมกันในหลายๆ หมวดหมู่ แทนที่จะใช้เพียงชุดเดียว
ชุดข้อมูล OCR แบบโอเพนซอร์สสามารถนำไปใช้ในเชิงพาณิชย์ได้ฟรีหรือไม่?
ชุดข้อมูล OCR แบบโอเพนซอร์สไม่ได้เปิดให้ใช้งานเชิงพาณิชย์ได้ฟรีทั้งหมด MNIST, SVHN และ COCO-Text ใช้ใบอนุญาตแบบเปิดกว้าง ในขณะที่ชุดข้อมูล IAM, ICDAR และชุดข้อมูลลายมือโบราณมักต้องลงทะเบียนหรือจำกัดการใช้งานเฉพาะงานวิจัย ควรตรวจสอบใบอนุญาตของแต่ละชุดข้อมูลก่อนฝึกฝนโมเดลเชิงพาณิชย์เสมอ
ชุดข้อมูล OCR กับชุดข้อมูลลายมือแตกต่างกันอย่างไร?
ชุดข้อมูล OCR ครอบคลุมการรู้จำข้อความที่เครื่องอ่านได้ทั้งหมด รวมถึงเอกสารสิ่งพิมพ์ ข้อความในภาพ และตัวเลข ในขณะที่ชุดข้อมูลลายมือเป็นชุดย่อยที่เน้นเนื้อหาที่เขียนด้วยลายมือ ชุดข้อมูลลายมือ เช่น IAM และ Bentham ใช้สำหรับฝึกโมเดล HTR ในขณะที่ชุดข้อมูล OCR สำหรับเอกสารและข้อความในภาพจะจัดการกับข้อความที่พิมพ์และข้อความในสภาพแวดล้อมจริง
ชุดข้อมูล OCR ใดบ้างที่รองรับการรู้จำหลายภาษา?
ชุดข้อมูล OCR หลายภาษาประกอบด้วย XFUND สำหรับแบบฟอร์มเจ็ดภาษา, CASIA-HWDB สำหรับภาษาจีน, KHATT สำหรับภาษาอาหรับ และ ICDAR MLT สำหรับข้อความฉากหลายภาษา การรวมชุดข้อมูล OCR เฉพาะภาษาเข้ากับการเพิ่มประสิทธิภาพข้อมูลสังเคราะห์มักให้ผลลัพธ์ที่ดีกว่าการฝึกฝนโดยใช้ชุดข้อมูลใดชุดข้อมูลหนึ่งเพียงอย่างเดียว
ฉันต้องการคำอธิบายประกอบแบบกำหนดเองมากแค่ไหน นอกเหนือจากชุดข้อมูล OCR ฟรี?
ความต้องการการใส่คำอธิบายประกอบแบบกำหนดเองขึ้นอยู่กับว่าเอกสารของคุณอยู่ห่างจากข้อมูลสาธารณะมากน้อยเพียงใด แบบฟอร์มที่พิมพ์อย่างเรียบร้อยอาจต้องการตัวอย่างในโดเมนเดียวกัน 1,000–5,000 ตัวอย่าง ในขณะที่ลายมือที่ยุ่งเหยิง ใบเสร็จรับเงิน หรือแบบอักษรที่หายากมักต้องการ 10,000–50,000 ตัวอย่าง โดยทั่วไปแล้ว กระบวนการใส่คำอธิบายประกอบของ Shaip จะให้ความแม่นยำเพิ่มขึ้น 15–30% เมื่อเทียบกับการฝึกอบรม OCR โดยใช้เฉพาะข้อมูลสาธารณะเท่านั้น


