ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) टेक्स्ट की छवियों - स्कैन, स्मार्टफोन फोटो, पीडीएफ - को मशीन द्वारा पढ़े जा सकने वाले टेक्स्ट और संरचित डेटा में बदल देता है। आधुनिक ओसीआर एक पाइपलाइन है जो एक छवि को साफ करती है, टेक्स्ट ढूंढती है, उसे पढ़ती है, और समृद्ध मेटाडेटा निर्यात करती है ताकि डाउनस्ट्रीम सिस्टम डेटा को खोज, अनुक्रमित या निकाल सकें। दो व्यापक रूप से उपयोग किए जाने वाले आउटपुट मानक हैं hOCR, टेक्स्ट और लेआउट के लिए एक एचटीएमएल माइक्रोफ़ॉर्मैट, और ALTO XML, एक पुस्तकालय/अभिलेखागार-उन्मुख स्कीमा; दोनों स्थितियों, पढ़ने के क्रम और अन्य लेआउट संकेतों को संरक्षित करते हैं और लोकप्रिय इंजनों द्वारा समर्थित हैं जैसे टेसरैक्ट.
प्रीप्रोसेसिंग। ओसीआर की गुणवत्ता छवि की सफाई से शुरू होती है: ग्रेस्केल रूपांतरण, डिनोइज़िंग, थ्रेसहोल्डिंग (बिनारिज़ेशन), और डेस्क्यूइंग। कैनोनिकल ओपनसीवी ट्यूटोरियल वैश्विक, अनुकूली और ओत्सु थ्रेसहोल्डिंग को कवर करते हैं - असमान प्रकाश या बिमोडल हिस्टोग्राम वाले दस्तावेज़ों के लिए स्टेपल। जब एक पृष्ठ के भीतर रोशनी बदलती है (फोन स्नैप्स सोचें), अनुकूली तरीके अक्सर एक ही वैश्विक थ्रेसहोल्ड से बेहतर प्रदर्शन करते हैं; ओत्सु हिस्टोग्राम का विश्लेषण करके स्वचालित रूप से एक थ्रेसहोल्ड चुनता है। झुकाव सुधार समान रूप से महत्वपूर्ण है: हफ-आधारित डेस्क्यूइंग (हफ लाइन ट्रांसफॉर्म) ओत्सु बिनारिज़ेशन के साथ मिलकर उत्पादन प्रीप्रोसेसिंग पाइपलाइनों में एक आम और प्रभावी नुस्खा है।
पहचान बनाम मान्यता। ओसीआर को आम तौर पर टेक्स्ट डिटेक्शन (टेक्स्ट कहाँ है ?) और टेक्स्ट रिकॉग्निशन (यह क्या कहता है?) में विभाजित किया जाता है। प्राकृतिक दृश्यों और कई स्कैन में, पूरी तरह से कनवल्शनल डिटेक्टर जैसे ईस्ट भारी प्रस्ताव चरणों के बिना कुशलतापूर्वक शब्द- या पंक्ति-स्तरीय चतुर्भुज की भविष्यवाणी करते हैं और आम टूलकिट में लागू किए जाते हैं (जैसे, ओपनसीवी का टेक्स्ट डिटेक्शन ट्यूटोरियल)। जटिल पृष्ठों (समाचार पत्र, फॉर्म, किताबें) पर, लाइनों/क्षेत्रों का विभाजन और पढ़ने के क्रम का अनुमान मायने रखता है:क्रैकेन पारंपरिक ज़ोन/लाइन सेगमेंटेशन और न्यूरल बेसलाइन सेगमेंटेशन को लागू करता है, जिसमें विभिन्न लिपियों और दिशाओं (LTR/RTL/ऊर्ध्वाधर) के लिए स्पष्ट समर्थन होता है।
मान्यता मॉडल। क्लासिक ओपन-सोर्स वर्कहॉर्स टेसरैक्ट (Google द्वारा ओपन-सोर्स, जिसकी जड़ें HP में हैं) एक कैरेक्टर क्लासिफायर से एक LSTM-आधारित अनुक्रम पहचानकर्ता में विकसित हुआ और खोज योग्य PDF, hOCR/ALTO-अनुकूल आउटपुट, और CLI से और भी बहुत कुछ उत्सर्जित कर सकता है। आधुनिक पहचानकर्ता पूर्व-खंडित वर्णों के बिना अनुक्रम मॉडलिंग पर भरोसा करते हैं। कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (CTC) मौलिक बनी हुई है, जो इनपुट फ़ीचर अनुक्रमों और आउटपुट लेबल स्ट्रिंग्स के बीच संरेखण सीखती है; यह व्यापक रूप से लिखावट और दृश्य-पाठ पाइपलाइनों में उपयोग किया जाता है।
पिछले कुछ वर्षों में, ट्रांसफॉर्मर्स ने ओसीआर को नया रूप दिया है। TrOCR एक विज़न ट्रांसफॉर्मर एनकोडर और एक टेक्स्ट ट्रांसफॉर्मर डिकोडर का उपयोग करता है, जिसे बड़े सिंथेटिक कॉर्पोरा पर प्रशिक्षित किया जाता है और फिर वास्तविक डेटा पर फाइन-ट्यून किया जाता है, जिसमें मुद्रित, हस्तलिखित और दृश्य-पाठ बेंचमार्क में मजबूत प्रदर्शन होता है (यह भी देखें हगिंग फेस डॉक्स)। समानांतर में, कुछ सिस्टम डाउनस्ट्रीम समझने के लिए ओसीआर को दरकिनार करते हैं: डोनट (डॉक्यूमेंट अंडरस्टैंडिंग ट्रांसफॉर्मर) एक ओसीआर-मुक्त एनकोडर-डिकोडर है जो सीधे दस्तावेज़ छवियों से संरचित उत्तर (जैसे कुंजी-मूल्य JSON) आउटपुट करता है (रेपो, मॉडल कार्ड), जब एक अलग ओसीआर चरण एक IE सिस्टम को फीड करता है तो त्रुटि संचय से बचता है।
यदि आप कई लिपियों में बैटरी-शामिल टेक्स्ट रीडिंग चाहते हैं, EasyOCR 80+ भाषा मॉडल के साथ एक सरल एपीआई प्रदान करता है, जो बॉक्स, टेक्स्ट और आत्मविश्वास लौटाता है - प्रोटोटाइप और गैर-लैटिन लिपियों के लिए आसान। ऐतिहासिक दस्तावेज़ों के लिए, क्रैकेन बेसलाइन सेगमेंटेशन और स्क्रिप्ट-अवेयर रीडिंग ऑर्डर के साथ चमकता है; लचीले लाइन-स्तरीय प्रशिक्षण के लिए, कैलामरी ओक्रॉपी वंश पर बनाता है (ओक्रॉपी) (मल्टी-)एलएसटीएम+सीटीसी पहचानकर्ताओं और कस्टम मॉडल को फाइन-ट्यून करने के लिए एक सीएलआई के साथ।
सामान्यीकरण डेटा पर निर्भर करता है। लिखावट के लिए, IAM लिखावट डेटाबेस प्रशिक्षण और मूल्यांकन के लिए लेखक-विविध अंग्रेजी वाक्य प्रदान करता है; यह लाइन और शब्द पहचान के लिए एक लंबे समय से चली आ रही संदर्भ सेट है। दृश्य पाठ के लिए, कोको-टेक्स्ट ने एमएस-कोको पर व्यापक एनोटेशन स्तरित किए, जिसमें मुद्रित/हस्तलिखित, सुपाठ्य/अपठनीय, लिपि और पूर्ण प्रतिलेखन के लिए लेबल थे (मूल परियोजना पृष्ठभी देखें)। यह क्षेत्र सिंथेटिक प्रीट्रेनिंग पर भी बहुत अधिक निर्भर करता है: सिंथटेक्स्ट इन द वाइल्ड यथार्थवादी ज्यामिति और प्रकाश के साथ तस्वीरों में पाठ प्रस्तुत करता है, डिटेक्टरों और पहचानकर्ताओं को प्रीट्रेन करने के लिए भारी मात्रा में डेटा प्रदान करता है (संदर्भ कोड और डेटा).
के तहत प्रतियोगिताएं ICDAR’s रोबस्ट रीडिंग मूल्यांकन को आधार बनाती हैं। हाल के कार्यों में एंड-टू-एंड डिटेक्शन/रीडिंग पर जोर दिया गया है और इसमें शब्दों को वाक्यांशों में जोड़ना शामिल है, जिसमें आधिकारिक कोड रिपोर्टिंग सटीकता/रिकॉल/एफ-स्कोर, इंटरसेक्शन-ओवर-यूनियन (IoU), और कैरेक्टर-लेवल एडिट-डिस्टेंस मेट्रिक्स - जो अभ्यासकर्ताओं को ट्रैक करना चाहिए, को दर्शाता है।
ओसीआर शायद ही कभी सादे पाठ पर समाप्त होता है। अभिलेखागार और डिजिटल पुस्तकालय पसंद करते हैं ALTO XML क्योंकि यह सामग्री के साथ भौतिक लेआउट (निर्देशांक के साथ ब्लॉक/लाइनें/शब्द) को एन्कोड करता है, और यह METS पैकेजिंग के साथ अच्छी तरह से मेल खाता है। hOCR माइक्रोफ़ॉर्मैट, इसके विपरीत, ocr_line और ocrx_word जैसे क्लास का उपयोग करके HTML/CSS में उसी विचार को एम्बेड करता है, जिससे वे ब टूलिंग के साथ प्रदर्शन, संपादन और रूपांतरण करना आसान हो जाता है। टेसरैक्ट दोनों को उजागर करता है - जैसे, सीएलआई से सीधे एचओसीआर या खोज योग्य पीडीएफ बनाना (पीडीएफ आउटपुट गाइड); पाइथन रैपर जैसे pytesseract सुविधा जोड़ते हैं। hOCR और ALTO के बीच अनुवाद करने के लिए कन्वर्टर्स मौजूद हैं जब रिपॉजिटरी में निश्चित अंतर्ग्रहण मानक होते हैं - इस क्यूरेटेड सूची को देखें ओसीआर फ़ाइल-प्रारूप उपकरण.
सबसे मजबूत प्रवृत्ति अभिसरण है: पहचान, मान्यता, भाषा मॉडलिंग, और यहां तक कि कार्य-विशिष्ट डिकोडिंग एकीकृत ट्रांसफार्मर स्टैक में विलीन हो रहे हैं। बड़े सिंथेटिक कॉर्पोरा पर प्री-ट्रेनिंग एक बल गुणक बना हुआ है। ओसीआर-मुक्त मॉडल आक्रामक रूप से प्रतिस्पर्धा करेंगे जहां लक्ष्य वर्बेटिम ट्रांसक्रिप्ट के बजाय संरचित आउटपुट है। हाइब्र िड परिनियोजन की भी अपेक्षा करें: एक हल्का डिटेक्टर और लंबे-फॉर्म टेक्स्ट के लिए एक TrOCR-शैली पहचानकर्ता, और फॉर्म और रसीदों के लिए एक डोनट-शैली मॉडल।
टेसरैक्ट (गिटहब) · टेसरैक्ट डॉक्स · hOCR स्पेक · ALTO पृष्ठभूमि · ईस्ट डिटेक्टर · ओपनसीवी टेक्स्ट डिटेक्शन · TrOCR · डोनट · कोको-टेक्स्ट · सिंथटेक्स्ट · क्रैकेन · कैलामरी OCR · ICDAR आरआरसी · pytesseract · IAM लिखावट · ओसीआर फ़ाइल-प्रारूप उपकरण · EasyOCR
ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) एक प्रौद्योगिकी है जिसका उपयोग विभिन्न प्रकार के दस्तावेज़ों, जैसे कि कागजी दस्तावेज़, PDF फ़ाइलें या डिजिटल कैमरा द्वारा कैप्चर की गई छवियों, को संपादन योग्य और खोजनीय डेटा में परिवर्तित करने के लिए किया जाता है।
OCR एक इनपुट छवि या दस्तावेज़ को स्कैन करता है, छवि को अलग-अलग अक्षरों में बांटता है, और पैटर्न पहचान या विशेषता पहचान का उपयोग करके प्रत्येक वर्ण की तुलना करता है।
OCR का उपयोग विभिन्न क्षेत्रों और अनुप्रयोगों में किया जाता है, जैसे कि मुद्रित दस्तावेज़ों को डिजिटाइज़ करने, टेक्स्ट-टू-स्पीच सेवाओं को सक्षम करने, डेटा एंट्री प्रक्रियाओं को स्वचालित करने, और दृष्टिबाधित उपयोगकर्ताओं को टेक्स्ट के साथ बेहतर बातचीत करने सहायता करने।
हालांकि OCR प्रौद्योगिकी में काफ़ी प्रगति हुई है, लेकिन यह अचूक नहीं है। सटीकता मूल दस्तावेज़ की गुणवत्ता और उपयोग किए जा रहे OCR सॉफ़्टवेयर की बारीकियों पर निर्भर कर सकती है।
हालाँकि OCR मुद्रित टेक्स्ट के लिए मुख्य रूप से डिज़ाइन किया गया है, कुछ उन्नत OCR सिस् टम लिखावट पहचानने में भी सक्षम होते हैं। हालाँकि, आमतौर पर लिखावट की पहचान करने में कम सटीकता होती है क्योंकि व्यक्तिगत लेखन शैलियों में व्यापक भिन्नता होती है।
हाँ, कई OCR सॉफ़्टवेयर सिस्टम कई भाषाओं को पहचान सकते हैं। हालाँकि, यह महत्वपूर्ण है कि आपके उपयोग में आने वाले सॉफ़्टवेयर द्वारा विशिष्ट भाषा का समर्थन किया जा रहा हो।
OCR का अर्थ ऑप्टिकल कैरेक्टर रिकग्निशन है और इसका उपयोग मुद्रित पाठ को पहचानने के लिए किया जाता है, जबकि ICR, या इंटेलिजेंट कैरेक्टर रिकग्निशन, अधिक उन्नत है और इसका उपयोग हस्तलिखित पाठ को पहचानने के लिए किया जाता है।
OCR स्पष्ट, आसानी से पढ़ ने वाले फ़ॉन्ट और मानक टेक्स्ट आकारों के साथ सबसे अच्छा काम करता है। हालांकि यह विभिन्न फ़ॉन्ट और आकारों के साथ काम कर सकता है, लेकिन असामान्य फ़ॉन्ट्स या बहुत छोटे टेक्स्ट आकारों के साथ काम करते समय सटीकता कम होने की प्रवृत्ति होती है।
OCR को कम-रिज़ॉल्यूशन वाले दस्तावेज़ों, जटिल फ़ॉन्ट, खराब प्रिंट वाले पाठ, लिखावट, और ऐसी पृष्ठभूमि वाले दस्तावेज़ों के साथ समस्या हो सकती है जो पाठ के साथ हस्तक्षेप करती हैं। इसके अलावा, यह कई भाषाओं के साथ काम कर सकता है, लेकिन यह हर भाषा को पूरी तरह से कवर नहीं कर सकता है।
हाँ, OCR रंगीन टेक्स्ट और बैकग्राउंड को स्कैन कर सकता है, हालाँकि यह आमतौर पर उच्च-विपरीत रंग संयोजनों, जैसे कि एक सफे द पृष्ठभूमि पर काले टेक्स्ट, के साथ अधिक प्रभावी होता है। टेक्स्ट और पृष्ठभूमि रंगों में पर्याप्त विपरीतता की कमी होने पर सटीकता कम हो सकती है।
JPEG 2000 मल्टी-लेयर (JPM) फॉर्मेट JPEG 2000 स्टैंडर्ड का एक एक्सटेंशन है, जो एक इमेज कंप्रेसन स्टैंडर्ड और कोडिंग सिस्टम है। इसे 2000 में जॉइंट फोटोग्राफिक एक्सपर्ट्स ग्रुप कमेटी द्वारा मूल JPEG स्टैंडर्ड को सुपरसीड करने के इरादे से बनाया गया था। JPEG 2000 अपनी हाई कंप्रेसन एफिशिएंसी और ग्रेस्केल, कलर और मल्टी-कंपोनेंट इमेज सहित कई तरह के इमेज टाइप को हैंडल करने की क्षमता के लिए जाना जाता है। JPM फॉर्मेट विशेष रूप से कंपाउंड डॉक्यूमेंट के लिए सपोर्ट को शामिल करने के लिए JPEG 2000 की क्षमताओं का विस्तार करता है, जिसमें टेक्स्ट, ग्राफिक्स और इमेज का मिश्रण हो सकता है।
JPM को JPEG 2000 सूट (ISO/IEC 15444-6) के भाग 6 में परिभाषित किया गया है, और इसे एक ही फाइल में कई इमेज और संबंधित डेटा को एनकैप्सुलेट करने के लिए डिज़ाइन किया गया है। यह इसे विशेष रूप से डॉक्यूमेंट इमेजिंग, मेडिकल इमेजिंग और तकनीकी इमेजिंग जैसे अनुप्रयोगों के लिए उपयोगी बनाता है जहां विभिन्न प्रकार की सामग्री को एक साथ संग्रहीत करने की आवश्यकता होती है। JPM फॉर्मेट एक डॉक्यूमेंट के भीतर पेजों के कुशल भंडारण की अनुमति देता है, जिनमें से प्रत्येक में विभिन्न विशेषताओं के साथ कई इमेज क्षेत्र हो सकते हैं, साथ ही एनोटेशन या मेटाडेटा जैसे गैर-इमेज डेटा भी हो सकते हैं।
JPM की प्रमुख विशेषताओं में से एक JPEG 2000 कोड स्ट्रीम (JPX) का उपयोग है, जो मूल JPEG 2000 कोड स्ट्रीम (JP2) का एक विस्तारित संस्करण है। JPX कलर स्पेस की एक विस्तृत श्रृंखला, अधिक परिष्कृत मेटाडेटा और उच्च बिट डेप्थ का समर्थन क रता है। एक JPM फाइल में, प्रत्येक इमेज या 'लेयर' को एक अलग JPX कोड स्ट्रीम के रूप में संग्रहीत किया जाता है। यह प्रत्येक लेयर को अपनी विशेषताओं के अनुसार कंप्रेस करने की अनुमति देता है, जिससे अधिक कुशल कंप्रेसन और उच्च गुणवत्ता वाले परिणाम मिल सकते हैं, विशेष रूप से विविध सामग्री प्रकारों वाले कंपाउंड डॉक्यूमेंट के लिए।
एक JPM फाइल की संरचना पदानुक्रमित होती है और इसमें कई बॉक्स होते हैं। एक बॉक्स एक स्व-निहित इकाई है जिसमें एक हेडर और डेटा शामिल होता है। हेडर बॉक्स के प्रकार और लंबाई को निर्दिष्ट करता है, जबकि डेटा में वास्तविक सामग्री होती है। एक JPM फाइल में शीर्ष-स्तरीय बॉक्स सिग्नेचर बॉक्स होता है, जो फाइल को JPEG 2000 परिवार की फाइल के रूप में पहचानता है। सिग्नेचर बॉक्स के बाद, अन्य के बीच फ़ाइल प्रकार बॉक्स, हेडर बॉक्स और सामग्री बॉक्स होते हैं। हेडर बॉक्स में फ़ाइल के बारे में जान कारी होती है, जैसे कि पृष्ठों की संख्या और प्रत्येक पृष्ठ की विशेषताएँ, जबकि सामग्री बॉक्स में इमेज डेटा और कोई भी संबद्ध गैर-इमेज डेटा होता है।
कंप्रेसन के संदर्भ में, JPM फाइलें लॉसलेस और लॉसी दोनों कंप्रेसन विधियों का उपयोग कर सकती हैं। लॉसलेस कंप्रेसन यह सुनिश्चित करता है कि मूल इमेज डेटा को कंप्रेस्ड डेटा से पूरी तरह से पुनर्निर्मित किया जा सकता है, जो उन अनुप्रयोगों के लिए महत्वपूर्ण है जहां इमेज की अखंडता सर्वोपरि है, जैसे कि मेडिकल इमेजिंग। दूसरी ओर, लॉसी कंप्रेसन कुछ इमेज डेटा को त्यागकर छोटे फ़ाइल आकार की अनुमति देता है, जो उन स्थितियों में स्वीकार्य हो सकता है जहां सही निष्ठा की आवश्यकता नहीं होती है।
JPM 'प्रोग्रेसिव डिकोडिंग' की अवधारणा का भी समर्थन करता है, जिसका अर्थ है कि इमेज का कम-रिज़ॉल्यूशन संस्करण प्रदर्शित किया जा सकता है जबकि पूर्ण-रिज़ॉल्यूशन इमेज अभी भी डाउनलोड या संसाधित की जा रही है। यह बड़ी इमेज या धीमे नेटवर्क कनेक्शन के लिए विशेष रूप से उपयोगी है, क्योंकि यह उपयोगकर्ताओं को पूरी फ़ाइल के उपलब्ध होने की प्रतीक्षा किए बिना एक त्वरित पूर्वावलोकन प्राप्त करने की अनुमति देता है।
JPM का एक और महत्वपूर्ण पहलू मेटाडेटा के लिए इसका समर्थन है। JPM फाइलों में मेटाडेटा में डॉक्यूमेंट के बारे में जानकारी शामिल हो सकती है, जैसे कि लेखक, शीर्षक और कीवर्ड, साथ ही प्रत्येक इमेज के बारे में जानकारी, जैसे कि कैप्चर तिथि, कैमरा सेटिंग और भौगोलिक स्थान। यह मेटाडेटा XML प्रारूप में संग्रहीत किया जा सकता है, जिससे इसे आसानी से एक्सेस किया जा सकता है और संशोधित किया जा सकता है। इसके अतिरिक्त, JPM ICC प्रोफाइल को शामिल करने का समर्थन करता है, जो इमेज के कलर स्पेस को परिभाषित करता है, जिससे विभिन्न उपकरणों पर सटीक कलर प्रजनन सुनिश्चित होता है।
JPM फाइलें एक इमेज के कई संस्करणों को संग्रहीत करने में भी सक्षम हैं, प्रत्येक में अलग-अलग रिज़ॉल्यूशन या गुणवत्ता सेटिंग्स हैं। 'मल्टी-लेयरिंग' के रूप में जानी जाने वाली यह सुविधा अधिक कुशल भंडारण और संचरण की अनुमति देती है, क्योंकि इमेज के उपयुक्त संस्करण को एप्लिकेशन की विशिष्ट आवश्यकताओं या उपलब्ध बैंडविड्थ के आधार पर चुना जा सकता है।
सुरक्षा एक और क्षेत्र है जहां JPM मजबूत विशेषताएं प्रदान करता है। प्रारूप डिजिटल हस्ताक्षर और एन्क्रिप्शन को शामिल करने का समर्थन करता है, जिसका उपयोग दस्तावेज़ की प्रामाणिकता को सत्यापित करने और संवेदनशील जानकारी की सुरक्षा के लिए किया जा सकता है। यह कानूनी और चिकित्सा दस्तावेज़ प्रबंधन जैसे क्षेत्रों में विशेष रूप से महत्वपूर्ण है, जहां दस्तावेज़ों की अखंडता और गोपनीयता अत्यंत महत्वपूर्ण है।
अपने कई लाभों के बावजूद, JPM प्रारूप को व्यापक रूप से अपनाया नहीं गया है, खासकर उपभोक्ता बाजार में। यह आंशिक रूप से प्रारूप की जटिलता और JPM फाइलों को संसाधित करने के लिए आवश्यक कम्प्यूटेशनल संसाधनों के कारण है। इसके अतिरिक्त, JPM सहित JPEG 2000 मानकों का परिवार पेटेंट लाइसेंसिंग मुद्दों के अधीन रहा है, जिसने मूल JPEG मानक की तुलना में इसके अपनाने में बाधा उत्पन्न की है, जो आम तौर पर पेटेंट से मुक्त है।
JPM फाइलों के साथ काम करने वाले सॉफ़्टवेयर डेवलपर्स और इंजीनियरों के लिए, कई लाइब्रेरी और टूल उपलब्ध हैं जो प्रारूप के लिए समर्थन प्रदान करते हैं। इनमें OpenJPEG लाइब्रेरी शामिल है, जो एक ओपन-सोर्स JPEG 2000 कोडेक है, और विभिन्न इमेजिंग सॉफ़्टवेयर कंपनियों की व्यावसायिक पेशकश है। JPM फाइलों के साथ काम करते समय, डेवलपर्स को JPEG 2000 कोड स्ट्रीम सिंटैक्स के साथ-साथ कंपाउंड डॉक्यूमेंट और मेटाडेटा को संभालने के लिए विशिष्ट आवश्यकताओं से परिचित होना चा हिए।
निष्कर्ष में, JPM इमेज फॉर्मेट JPEG 2000 स्टैंडर्ड का एक शक्तिशाली विस्तार है जो कंपाउंड डॉक्यूमेंट को संग्रहीत करने और प्रबंधित करने के लिए उपयुक्त सुविधाओं की एक श्रृंखला प्रदान करता है। मल्टीपल इमेज लेयर, प्रोग्रेसिव डिकोडिंग, मेटाडेटा, मल्टी-लेयरिंग और सुरक्षा सुविधाओं के लिए इसका समर्थन इसे पेशेवर और तकनीकी