OCR, या ऑप्टिकल कैरेक्टर रिकग्निशन, एक प्रौद्योगिकी है जिसका उपयोग विभिन्न प्रकार के दस्तावेज़ों, जैसे कि स्कैन किए गए कागज़ी दस्तावेज़, PDF फ़ाइलें या डिजिटल कैमरे द्वारा कैप्चर की गई छवियों, को संपादन योग्य और खोजनेयोग्य डेटा में परिवर्तित करने के लिए किया जाता है।
OCR के पहले चरण में, पाठ दस्तावेज़ की एक छवि स्कैन की जाती है। यह एक फ़ोटो या स्कैन किया गया दस्तावेज़ हो सकत ा है। इस चरण का उद्देश्य यह है कि दस्तावेज़ की एक डिजिटल प्रतिलिपि बनाई जाए, मैन्युअल ट्रांसक्रिप्शन की आवश्यकता के बजाय। इसके अलावा, यह डिजिटाइजेशन प्रक्रिया सामग्री की लंबावधि को बढ़ाने में भी मदद कर सकती है क्योंकि यह नाज़ुक संसाधनों के हैंडलिंग को कम कर सकती है।
एक बार जब दस्तावेज़ को डिजिटलीकृत कर दिया जाता है, तो OCR सॉफ़्टवेयर छवि को पहचान के लिए व्यक्तिगत वर्णों में अलग करता है। इसे सेगमेंटेशन प्रक्रिया कहा जाता है। सेगमेंटेशन दस्तावेज़ को लाइनों, शब्दों और फिर अंतिम रूप में व्यक्तिगत वर्णों में तोड़ता है। यह विभाजन एक जटिल प्रक्रिया होती है क्योंकि इसमें असंख्य कारक शामिल होते हैं - विभिन्न फ़ॉन्ट, विभिन्न आकार के पाठ, और टेक्स्ट के विभिन्न संरेखण, केवल कुछ नाम लिए।
सेगमेंटेशन के बाद, OCR एल्गोरिदम फिर पैटर्न पहचान का उपयोग करके प्रत्येक व्यक्तिगत वर्ण की पहचान करता है। प्रत्येक वर्ण के लिए, एल्गोरिदम इसे वर्ण आकार के डाटाबेस से तुलना करेगा। सबसे करीबी मिलान फिर वर्ण की पहचान के रूप में चयनित होता है। फीचर पहचान में, OCR का एक और उन्नत रूप, एल्गोरिदम न केवल आकार की जांच करता है बल्कि पैटर्न में रेखाओं और वक्रों को भी ध्यान में लेता है।
OCR के अनेक व्यावहारिक अनुप्रयोग हैं - मुद्रित दस्तावेज़ों को डिजिटलीकरण से लेकर, टेक्स्ट-तो-स्पीच सेवाओं को सक्षम करने, डेटा प्रवेश प्रक्रियाओं को स्वचालित करने, से लेकर दृष्टिहीन उपयोगकर्ताओं को पाठ के साथ बेहतर इंटरैक्ट करने में सहायता करने तक। हालांकि, यह ध्यान देने योग्य है कि OCR प्रक्रिया अचूक नहीं होती है और विशेष रूप से निम्न-रिज़ॉल्यूशन दस्तावेजों, जटिल फ़ॉन्ट, या बेढंगा मुद्रित पाठ के साथ उपचार करते समय त्रुटियाँ कर सकती है। इसलिए, OCR सिस्टमों की सटीकता मूल दस्तावेज़ की गुणवत्ता और OCR सॉफ़्टवेयर क ा विशिष्ट विवरण पर अधिकार है।
OCR एक महत्वपूर्ण प्रौद्योगिकी है आधुनिक डेटा निकासी और डिजिटलीकरण प्रचारों में। यह मैन्युअल डेटा प्रवेश की आवश्यकता को कम करके और भौतिक दस्तावेजों को डिजिटल प्रारूप में परिवर्तित करने का एक विश्वसनीय, कुशल तरीका प्रदान करके संसाधनों का काफी समय और बचत करती है।
ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) एक प्रौद्योगिकी है जिसका उपयोग विभिन्न प्रकार के दस्तावेज़ों, जैसे कि स्कैन किए गए कागज के दस्तावेज, PDF फ़ाइलें या डिजिटल कैमरा द्वारा कैप्चर किए गए छवियों, को संपादन योग्य और खोजनीय डाटा में परिवर्तित करने के लिए उपयोग होता है।
OCR एक इनपुट छवि या दस्तावेज को स्कैन करके, इमेज को व्यक्तिगत वर्णों में बांटकर, और पैटर्न पहचान या विशेषता पहचान का उपयोग करके प्रत्येक वर्ण की तुलना करके काम करता है।
OCR का उपयोग विभिन्न क्षेत्रों और अनुप्रयोगों में उपयोग किया जाता है, जैसे कि मुद्रित दस्तावेजों को डिजिटाइज करना, टेक्स्ट-टू-स्पीच सेवाओं को सक्षम करना, डाटा एंट्री प्रक्रियाओं को स्वचालित करना, और दृष्टिहीन उपयोगकर्ताओं को पाठ से बेहतर बातचीत करने में सहायता करना।
हालांकि OCR प्रौद्योगिकी में महान प्रगति की गई है, लेकिन यह अफसोसवार नहीं है। सत्यापन मूल दस्तावेज की गुणवत्ता और OCR सॉफ़्टवेयर की विशिष्टताओं पर निर्भर कर सकता है।
हालाँकि OCR मुद्रित पाठ के लिए मुख्य रूप से डिज़ाइन किया गया है, कुछ उन्नत OCR सिस्टम हस्तलिखित पहचानने में भी सक्षम होते हैं। हालाँकि, आमतौर पर हस्तलिखित पहचाननेवालों की पहचान करने में कम सटीकता होती है क्योंकि व्यक्तिगत लेखन शैलियों में व्यापक भिन्नता होती है।
हाँ, कई OCR सॉफ़्टवेयर सिस्टम एकाधिक भाषाओं को पहचान सकते हैं। हालाँकि, यह महत्वपूर्ण है कि आपके उपयोग में आने वाले सॉफ़्टवेयर द्वारा विशिष्ट भाषा का समर्थन किया जा रहा हो।
OCR ऑप्टिकल कैरेक्टर रिकग्निशन के लिए होता है और यह मुद्रित पाठ को पहचानने के लिए उपयोग होता है, जबकि ICR, या इंटेलिजेंट कैरेक्टर रिकग्निशन, अधिक उन्नत होते हैं और हस्तलिखित पाठ को पहचानने के लिए उपयोग होते हैं।
OCR स्पष्ट, आसानी से पढ़ने वाले फ़ॉन्ट और मानक पाठ आकारों के साथ सबसे अच्छा काम करता है। हालांकि यह विभिन्न फ़ॉन्ट और आकारों के साथ काम कर सकता है, लेकिन असामान्य फ़ॉन्ट्स या बहुत छोटे पाठ आकारों के साथ काम करते समय सटीकता कम होने की प्रवृत्ति होती है।
OCR कम resolution के दस्तावेज़, जटिल fonts, खराब प्रिंट वाले पाठ, हस्तलिखित, और वे दस्तावेज़ जो पाठ के साथ दखल देने वाले पृष्ठभूमियों के साथ संघर्ष कर सकते हैं। साथ ही, जबकि यह कई भाषाओं के साथ काम कर सकता है, यह हर भाषा को पूरी तरह से नहीं कवर कर सकता है।
हाँ, OCR रंगीन पाठ और पृष्ठभूमियों को स्कैन कर सकता है, हालाँकि यह आमतौर पर उच्च-विपरीत रंग संयोजनों, जैसे कि एक सफेद पृष्ठभूमि पर काले पाठ, के साथ अधिक प्रभावी होता है। पाठ और पृष्ठभूमि रंगों में पर्याप्त विपरीतता की कमी होने पर सटीकता कम हो सकती है।
JPEG, जो कि संयुक्त फोटोग्राफिक विशेषज्ञ समूह के लिए है, डिजिटल छवियों के लिए हानिपूर्ण संपीड़न की एक सामान्यतः उपयोग की जाने वाली विधि है, विशेष रूप से डिजिटल फोटोग्राफी द्वारा निर्मित उन छवियों के लिए। संपीड़न की डिग्री को समायोजित किया जा सकता है, जिससे संग्रहण आकार और छवि गुणवत्ता के बीच एक चयन योग्य व्यापार की अनुमति मिलती है। JPEG आमतौर पर छवि गुणवत्ता में थोड़े बोधगम्य नुकसान के साथ 10:1 संपीड़न प्राप्त करता है।
JPEG संपीड़न एल्गोरिथ्म JPEG मानक के मू ल में है। प्रक्रिया एक डिजिटल छवि से शुरू होती है जिसे उसके विशिष्ट RGB रंग स्थान से YCbCr नामक एक अलग रंग स्थान में परिवर्तित किया जाता है। YCbCr रंग स्थान छवि को चमक (Y) में अलग करता है, जो चमक के स्तर का प्रतिनिधित्व करता है, और क्रोमिनेंस (Cb और Cr), जो रंग की जानकारी का प्रतिनिधित्व करता है। यह पृथक्करण फायदेमंद है क्योंकि मानवीय आँख रंग की तुलना में चमक में बदलाव के प्रति अधिक संवेदनशील होती है, जिससे संपीड़न को चमक से अधिक रंग की जानकारी को संपीड़ित करके इसका लाभ उठाने की अनुमति मिलती है।
एक बार छवि YCbCr रंग स्थान में हो जाती है, तो JPEG संपीड़न प्रक्रिया में अगला कदम क्रोमिनेंस चैनलों को डाउनसैंपल करना है। डाउनसैंपलिंग क्रोमिनेंस जानकारी के रिज़ॉल्यूशन को कम करता है, जो आमतौर पर छवि की कथित गुणवत्ता को महत्वपूर्ण रूप से प्रभावित नहीं करता है, क्योंकि मानवीय आँख रंग विवरण के प्रति कम संवेदन शील होती है। यह चरण वैकल्पिक है और छवि गुणवत्ता और फ़ाइल आकार के बीच वांछित संतुलन के आधार पर इसे समायोजित किया जा सकता है।
डाउनसैंपलिंग के बाद, छवि को ब्लॉकों में विभाजित किया जाता है, आमतौर पर आकार में 8x8 पिक्सेल। फिर प्रत्येक ब्लॉक को अलग से संसाधित किया जाता है। प्रत्येक ब्लॉक को संसाधित करने में पहला कदम असतत कोसाइन ट्रांसफॉर्म (DCT) को लागू करना है। DCT एक गणितीय संक्रिया है जो स्थानिक डोमेन डेटा (पिक्सेल मान) को आवृत्ति डोमेन में बदल देती है। परिणाम आवृत्ति गुणांकों का एक मैट्रिक्स है जो छवि ब्लॉक के डेटा को उसके स्थानिक आवृत्ति घटकों के संदर्भ में दर्शाता है।
DCT से प्राप्त आवृत्ति गुणांकों को फिर क्वांटिज़ किया जाता है। क्वांटिज़ेशन इनपुट मानों के एक बड़े सेट को एक छोटे सेट में मैप करने की प्रक्रिया है - JPEG के मामले में, इसका मतलब आवृत्ति गुणांकों की परिशुद्धता को कम करना है। यहीं पर संपीड़न का हानिपूर्ण भाग होता है, क्योंकि कुछ छवि जानकारी को त्याग दिया जाता है। क्वांटिज़ेशन चरण को एक क्वांटिज़ेशन टेबल द्वारा नियंत्रित किया जाता है, जो यह निर्धारित करता है कि प्रत्येक आवृत्ति घटक पर कितना संपीड़न लागू किया जाता है। क्वांटिज़ेशन टेबल को उच्च छवि गुणवत्ता (कम संपीड़न) या छोटे फ़ाइल आकार (अधिक संपीड़न) के पक्ष में समायोजित किया जा सकता है।
क्वांटिज़ेशन के बाद, गुणांकों को एक ज़िगज़ैग क्रम में व्यवस्थित किया जाता है, जो ऊपरी-बाएँ कोने से शुरू होता है और एक पैटर्न का अनुसरण करता है जो उच्च आवृत्ति वाले लोगों पर कम आवृत्ति वाले घटकों को प्राथमिकता देता है। ऐसा इसलिए है क्योंकि कम आवृत्ति वाले घटक (जो छवि के अधिक समान भागों का प्रतिनिधित्व करते हैं) उच्च आवृत्ति वाले घटकों (जो महीन विवरण और किनारों का प्रतिनिधित्व करते हैं) की तुलना में समग्र रूप स े अधिक महत्वपूर्ण होते हैं।
JPEG संपीड़न प्रक्रिया में अगला कदम एन्ट्रॉपी कोडिंग है, जो दोषरहित संपीड़न की एक विधि है। JPEG में उपयोग की जाने वाली एन्ट्रॉपी कोडिंग का सबसे सामान्य रूप हफ़मैन कोडिंग है, हालांकि अंकगणितीय कोडिंग भी एक विकल्प है। हफ़मैन कोडिंग अधिक बार होने वाली घटनाओं को छोटे कोड और कम बार होने वाली घटनाओं को लंबे कोड असाइन करके काम करता है। चूंकि ज़िगज़ैग ऑर्डरिंग समान आवृत्ति गुणांकों को एक साथ समूहित करता है, इसलिए यह हफ़मैन कोडिंग की दक्षता को बढ़ाता है।
एक बार एन्ट्रॉपी कोडिंग पूरी हो जाने के बाद, संपीड़ित डेटा को एक फ़ाइल प्रारूप में संग्रहीत किया जाता है जो JPEG मानक के अनुरूप होता है। इस फ़ाइल प्रारूप में एक हेडर शामिल होता है जिसमें छवि के बारे में जानकारी होती है, जैसे कि इसके आयाम और उपयोग की जाने वाली क्वांटिज़ेशन टेबल, इसके बाद हफ़मैन-कोडित छवि डेटा। फ़ाइल प्रारूप EXIF डेटा जैसे मेटाडेटा को शामिल करने का भी समर्थन करता है, जिसमें तस्वीर लेने के लिए उपयोग की गई कैमरा सेटिंग्स, इसे लिए गए दिनांक और समय और अन्य प्रासंगिक विवरणों के बारे में जानकारी हो सकती है।
जब एक JPEG छवि खोली जाती है, तो डीकंप्रेसन प्रक्रिया अनिवार्य रूप से संपीड़न चरणों को उलट देती है। हफ़मैन-कोडित डेटा को डिकोड किया जाता है, क्वांटिज़्ड आवृत्ति गुणांकों को उन्हीं क्वांटिज़ेशन टेबल का उपयोग करके डी-क्वांटिज़ किया जाता है जो संपीड़न के दौरान उपयोग किए गए थे, और व्युत्क्रम असतत कोसाइन ट्रांसफॉर्म (IDCT) को आवृत्ति डोमेन डेटा को वापस स्थानिक डोमेन पिक्सेल मानों में बदलने के लिए प्रत्येक ब्लॉक पर लागू किया जाता है।
डी-क्वांटिज़ेशन और IDCT प्रक्रियाएं संपीड़न की हानिपूर्ण प्रकृति के कारण कुछ त्रुटियों का परिचय देती हैं, यही वजह है कि JPEG उन छवियों के लिए आदर्श नहीं है जो कई संपादनों और पुनः-सहेजने से गुजरेंगी। हर बार जब एक JPEG छवि को सहेजा जाता है, तो यह फिर से संपीड़न प्रक्रिया से गुजरती है, और अतिरिक्त छवि जानकारी खो जाती है। इससे समय के साथ छवि गुणवत्ता में ध्यान देने योग्य गिरावट आ सकती है, एक घटना जिसे 'जनरेशन लॉस' के रूप में जाना जाता है।
JPEG संपीड़न की हानिपूर्ण प्रकृति के बावजूद, यह अपने लचीलेपन और दक्षता के कारण एक लोकप्रिय छवि प्रारूप बना हुआ है। JPEG छवियां फ़ाइल आकार में बहुत छोटी हो सकती हैं, जो उन्हें वेब पर उपयोग के लिए आदर्श बनाती हैं, जहां बैंडविड्थ और लोडिंग समय महत्वपूर्ण विचार हैं। इसके अतिरिक्त, JPEG मानक में एक प्रगतिशील मोड शामिल है, जो एक छवि को इस तरह से एन्कोड करने की अनुमति देता है कि इसे कई पास में डिकोड किया जा सकता है, प्रत्येक पास छवि के रिज़ॉल्यूशन में सुधार करता है। यह विशेष रूप से वेब छवियों के लिए उपयोगी है, क्योंकि यह छवि के निम्न-गुणवत्ता वाले संस्करण को जल्दी से प्रदर्शित करने की अनुमति देता है, गुणवत्ता में सुधार के साथ जैसे-जैसे अधिक डेटा डाउनलोड किया जाता है।
JPEG की कुछ सीमाएँ भी हैं और यह हमेशा सभी प्रकार की छवियों के लिए सबसे अच्छा विकल्प नहीं होता है। उदाहरण के लिए, यह तेज किनारों या उच्च कंट्रास्ट टेक्स्ट वाली छवियों के लिए उपयुक्त नहीं है, क्योंकि संपीड़न इन क्षेत्रों के आसपास ध्यान देने योग्य कलाकृतियां बना सकता है। इसके अतिरिक्त, JPEG पारदर्श