OCR, या ऑप्टिकल कैरेक्टर रिकग्निशन, एक प्रौद्योगिकी है जिसका उपयोग विभिन्न प्रकार के दस्तावेज़ों, जैसे कि स्कैन किए गए कागज़ी दस्तावेज़, PDF फ़ाइलें या डिजिटल कैमरे द्वारा कैप्चर की गई छवियों, को संपादन योग्य और खोजनेयोग्य डेटा में परिवर्तित करने के लिए किया जाता है।
OCR के पहले चरण में, पाठ दस्तावेज़ की एक छवि स्कैन की जाती है। यह एक फ़ोटो या स्कैन किया गया दस्तावेज़ हो सकता है। इस चरण का उद्देश्य यह है कि दस्तावेज़ की एक डिजिटल प्रतिलिपि बनाई जाए, मैन्युअल ट्रांसक्रिप्शन की आवश्यकता के बजाय। इसके अलावा, यह डिजिटाइजेशन प्रक्रिया सामग्री की लंबावधि को बढ़ाने में भी मदद कर सकती है क्योंकि यह नाज़ुक संसाधनों के हैंडलिंग को कम कर सकती है।
एक बार जब दस्तावेज़ को डिजिटलीकृत कर दिया जाता है, तो OCR सॉफ़्टवेयर छवि को पहचान के लिए व्यक्तिगत वर्णों में अलग करता है। इसे सेगमेंटेशन प्रक्रिया कहा जाता है। सेगमेंटेशन दस्तावेज़ को लाइनों, शब्दों और फिर अंतिम रूप में व्यक्तिगत वर्णों में तोड़ता है। यह विभाजन एक जटिल प्रक्रिया होती है क्योंकि इसमें असंख्य कारक शामिल होते हैं - विभिन्न फ़ॉन्ट, विभिन्न आकार के पाठ, और टेक्स्ट के विभिन्न संरेखण, केवल कुछ नाम लिए।
सेगमेंटेशन के बाद, OCR एल्गोरिदम फिर पैटर्न पहचान का उपयोग करके प्रत्येक व्यक्तिगत वर्ण की पहचान करता है। प्रत्येक वर्ण के लिए, एल्गोरिदम इसे वर्ण आकार के डाटाबेस से तुलना करेगा। सबसे करीबी मिलान फिर वर्ण की पहचान के रूप में चयनित होता है। फीचर पहचान में, OCR का एक और उन्नत रूप, एल्गोरिदम न केवल आकार की जांच करता है बल्कि पैटर्न में रेखाओं और वक्रों को भी ध्यान में लेता है।
OCR के अनेक व्यावहारिक अनुप्रयोग हैं - मुद्रित दस्तावेज़ों को डिजिटलीकरण से लेकर, टेक्स्ट-तो-स्पीच सेवाओं को सक्षम करने, डेटा प्रवेश प्रक्रियाओं को स्वचालित करने, से लेकर दृष्टिहीन उपयोगकर्ताओं को पाठ के साथ बेहतर इंटरैक्ट करने में सहायता करने तक। हालांकि, यह ध्यान देने योग्य है कि OCR प्रक्रिया अचूक नहीं होती है और विशेष रूप से निम्न-रिज़ॉल्यूशन दस्तावेजों, जटिल फ़ॉन्ट, या बेढंगा मुद्रित पाठ के साथ उपचार करते समय त्रुटियाँ कर सकती है। इसलिए, OCR सिस्टमों की सटीकता मूल दस्तावेज़ की गुणवत्ता और OCR सॉफ़्टवेयर का विशिष्ट विवरण पर अधिकार है।
OCR एक महत्वपूर्ण प्रौद्योगिकी है आधुनिक डेटा निकासी और डिजिटलीकरण प्रचारों में। यह मैन्युअल डेटा प्रवेश की आवश्यकता को कम करके और भौतिक दस्तावेजों को डिजिटल प्रारूप में परिवर्तित करने का एक विश्वसनीय, कुशल तरीका प्रदान करके संसाधनों का काफी समय और बचत करती है।
ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) एक प्रौद्योगिकी है जिसका उपयोग विभिन्न प्रकार के दस्तावेज़ों, जैसे कि स्कैन किए गए कागज के दस्तावेज, PDF फ़ाइलें या डिजिटल कैमरा द्वारा कैप्चर किए गए छवियों, को संपादन योग्य और खोजनीय डाटा में परिवर्तित करने के लिए उपयोग होता है।
OCR एक इनपुट छवि या दस्तावेज को स्कैन करके, इमेज को व्यक्तिगत वर्णों में बांटकर, और पैटर्न पहचान या विशेषता पहचान का उपयोग करके प्रत्येक वर्ण की तुलना करके काम करता है।
OCR का उपयोग विभिन्न क्षेत्रों और अनुप्रयोगों में उपयोग किया जाता है, जैसे कि मुद्रित दस्तावेजों को डिजिटाइज करना, टेक्स्ट-टू-स्पीच सेवाओं को सक्षम करना, डाटा एंट्री प्रक्रियाओं को स्वचालित करना, और दृष्टिहीन उपयोगकर्ताओं को पाठ से बेहतर बातचीत करने में सहायता करना।
हालांकि OCR प्रौद्योगिकी में महान प्रगति की गई है, लेकिन यह अफसोसवार नहीं है। सत्यापन मूल दस्तावेज की गुणवत्ता और OCR सॉफ़्टवेयर की विशिष्टताओं पर निर्भर कर सकता है।
हालाँकि OCR मुद्रित पाठ के लिए मुख्य रूप से डिज़ाइन किया गया है, कुछ उन्नत OCR सिस्टम हस्तलिखित पहचानने में भी सक्षम होते हैं। हालाँकि, आमतौर पर हस्तलिखित पहचाननेवालों की पहचान करने में कम सटीकता होती है क्योंकि व्यक्तिगत लेखन शैलियों में व्यापक भिन्नता होती है।
हाँ, कई OCR सॉफ़्टवेयर सिस्टम एकाधिक भाषाओं को पहचान सकते हैं। हालाँकि, यह महत्वपूर्ण है कि आपके उपयोग में आने वाले सॉफ़्टवेयर द्वारा विशिष्ट भाषा का समर्थन किया जा रहा हो।
OCR ऑप्टिकल कैरेक्टर रिकग्निशन के लिए होता है और यह मुद्रित पाठ को पहचानने के लिए उपयोग होता है, जबकि ICR, या इंटेलिजेंट कैरेक्टर रिकग्निशन, अधिक उन्नत होते हैं और हस्तलिखित पाठ को पहचानने के लिए उपयोग होते हैं।
OCR स्पष्ट, आसानी से पढ़ने वाले फ़ॉन्ट और मानक पाठ आकारों के साथ सबसे अच्छा काम करता है। हालांकि यह विभिन्न फ़ॉन्ट और आकारों के साथ काम कर सकता है, लेकिन असामान्य फ़ॉन्ट्स या बहुत छोटे पाठ आकारों के साथ काम करते समय सटीकता कम होने की प्रवृत्ति होती है।
OCR कम resolution के दस्तावेज़, जटिल fonts, खराब प्रिंट वाले पाठ, हस्तलिखित, और वे दस्तावेज़ जो पाठ के साथ दखल देने वाले पृष्ठभूमियों के साथ संघर्ष कर सकते हैं। साथ ही, जबकि यह कई भाषाओं के साथ काम कर सकता है, यह हर भाषा को पूरी तरह से नहीं कवर कर सकता है।
हाँ, OCR रंगीन पाठ और पृष्ठभूमियों को स्कैन कर सकता है, हालाँकि यह आमतौर पर उच्च-विपरीत रंग संयोजनों, जैसे कि एक सफेद पृष्ठभूमि पर काले पाठ, के साथ अधिक प्रभावी होता है। पाठ और पृष्ठभूमि रंगों में पर्याप्त विपरीतता की कमी होने पर सटीकता कम हो सकती है।
बिटमैप (BMP) फ़ाइल प्रारूप, डिजिटल इमेजिंग के क्षेत्र में एक मुख्य आधार, मोनोक्रोम और रंग दोनों तरह की द्वि-आयामी डिजिटल छवियों को संग्रहीत करने की एक सरल लेकिन बहुमुखी विधि के रूप में कार्य करता है। 1980 के दशक के अंत में Windows 3.0 के साथ इसकी स्थापना के बाद से, BMP प्रारूप अपनी सादगी और व्यापक संगतता के लिए व्यापक रूप से पहचाना जाने लगा है, जो लगभग सभी Windows वातावरण और कई गैर-Windows अनुप्रयोगों द्वारा समर्थित है। यह छवि प्रारूप विशेष रूप से अपने सबसे बुनियादी रूपों में किसी भी संपीड़न की क मी के लिए जाना जाता है, जिसके परिणामस्वरूप JPEG या PNG जैसे अन्य प्रारूपों की तुलना में बड़े फ़ाइल आकार होते हैं, लेकिन छवि डेटा की त्वरित पहुँच और हेरफेर की सुविधा मिलती है।
एक BMP फ़ाइल में एक हेडर, एक रंग तालिका (अनुक्रमित-रंग छवियों के लिए) और स्वयं बिटमैप डेटा होता है। BMP प्रारूप का एक प्रमुख घटक हेडर, बिटमैप छवि के बारे में मेटाडेटा समाहित करता है, जैसे कि इसकी चौड़ाई, ऊँचाई, रंग की गहराई और उपयोग किए गए संपीड़न का प्रकार, यदि कोई हो। रंग तालिका, केवल 8 बिट प्रति पिक्सेल (bpp) या उससे कम की रंग गहराई वाली छवियों में मौजूद होती है, जिसमें छवि में उपयोग किए गए रंगों का एक पैलेट होता है। बिटमैप डेटा वास्तविक पिक्सेल मानों का प्रतिनिधित्व करता है जो छवि बनाते हैं, जहाँ प्रत्येक पिक्सेल को या तो सीधे उसके रंग मान द्वारा परिभाषित किया जा सकता है या तालिका में किसी रंग को संदर्भित किया जा सकता है।
BMP फ़ाइल हेडर को तीन मुख्य खंडों में विभाजित किया गया है: बिटमैप फ़ाइल हेडर, बिटमैप सूचना हेडर (या DIB हेडर), और, कुछ मामलों में, पिक्सेल प्रारूप को परिभाषित करने के लिए एक वैकल्पिक बिट मास्क अनुभाग। बिटमैप फ़ाइल हेडर 2-बाइट पहचानकर्ता ('BM') से शुरू होता है, जिसके बाद फ़ाइल का आकार, आरक्षित फ़ील्ड (आमतौर पर शून्य पर सेट) और पिक्सेल डेटा की शुरुआत के लिए ऑफ़सेट होता है। यह सुनिश्चित करता है कि फ़ाइल को पढ़ने वाली प्रणाली जानती है कि हेडर के आकार की परवाह किए बिना, वास्तविक छवि डेटा को तुरंत कैसे एक्सेस किया जाए।
बिटमैप फ़ाइल हेडर के बाद बिटमैप सूचना हेडर होता है, जो छवि के बारे में विस्तृत जानकारी प्रदान करता है। इस खंड में हेडर का आकार, पिक्सेल में छवि की चौड़ाई और ऊंचाई, प्लेन की संख्या (BMP फ़ाइलों में हमेशा 1 पर सेट), बिट प्रति पिक्सेल (जो छवि की रंग गहराई को इंगित करता है), उपयोग की जाने वाली संपीड़न विधि, छवि के कच्चे डेटा का आकार और पिक्सेल प्रति मीटर में क्षैतिज और ऊर्ध्वाधर रिज़ॉल्यूशन शामिल है। डेटा की यह अधिकता सुनिश्चित करती है कि छवि को BMP फ़ाइलों को पढ़ने में सक्षम किसी भी डिवाइस या सॉफ़्टवेयर पर सटीक रूप से पुन: प्रस्तुत किया जा सकता है।
BMP फ़ाइलों में संपीड़न कई रूप ले सकता है, हालांकि प्रारूप आमतौर पर असम्पीडित छवियों से जुड़ा होता है। 16- और 32-बिट छवियों के लिए, संपीड़न विधियाँ जैसे BI_RGB (असम्पीडित), BI_BITFIELDS (जो रंग प्रारूप को परिभाषित करने के लिए रंग मास्क का उपयोग करता है), और BI_ALPHABITFIELDS (जो एक अल्फा पारदर्शिता चैनल के लिए समर्थन जोड़ता है) उपलब्ध हैं। ये विधियाँ गुणवत्ता के महत्वपूर्ण नुकसान के बिना उच्च-रंग-गहराई वाली छवियों के कुशल भंडारण की अनुमति देती हैं, हालांकि वे अधिक विशिष्ट असम्पीडित प्रारूप की तुलना में कम उपयोग की जाती हैं।
8 bpp या उससे कम की छवियो ं से निपटने पर BMP फ़ाइलों में रंग तालिका एक महत्वपूर्ण भूमिका निभाती है। यह इन छवियों को अनुक्रमित रंगों का उपयोग करके एक छोटे फ़ाइल आकार को बनाए रखते हुए रंगों की एक विस्तृत श्रृंखला प्रदर्शित करने की अनुमति देता है। रंग तालिका में प्रत्येक प्रविष्टि एक एकल रंग को परिभाषित करती है, और छवि के लिए बिटमैप डेटा केवल इन प्रविष्टियों को संदर्भित करता है बजाय प्रत्येक पिक्सेल के लिए संपूर्ण रंग मानों को संग्रहीत करने के। यह विधि उन छवियों के लिए अत्यधिक कुशल है जिन्हें रंगों के पूर्ण स्पेक्ट्रम की आवश्यकता नहीं होती है, जैसे कि आइकन या सरल ग्राफिक्स।
हालाँकि, जबकि BMP फ़ाइलों को उनकी सादगी और उनके द्वारा संरक्षित छवियों की गुणवत्ता के लिए सराहा जाता है, वे उल्लेखनीय कमियों के साथ भी आते हैं। इसके कई प्रकारों के लिए प्रभावी संपीड़न की कमी का मतलब है कि BMP फ़ाइलें आकार में जल्दी से बो झिल हो सकती हैं, खासकर उच्च-रिज़ॉल्यूशन या रंग-गहराई वाली छवियों से निपटने पर। यह उन्हें वेब उपयोग या किसी भी एप्लिकेशन के लिए अव्यवहारिक बना सकता है जहां संग्रहण या बैंडविड्थ एक चिंता का विषय है। इसके अलावा, BMP प्रारूप मूल रूप से पारदर्शिता (कम सामान्यतः उपयोग किए जाने वाले BI_ALPHABITFIELDS संपीड़न के अपवाद के साथ) या परतों का समर्थन नहीं करता है, जो अधिक जटिल ग्राफिक डिज़ाइन परियोजनाओं में इसकी उपयोगिता को सीमित करता है।
BMP प्रारूप की मानक विशेषताओं के अतिरिक्त, कई प्रकार और एक्सटेंशन हैं जिन्हें इसकी क्षमताओं को बढ़ाने के लिए वर्षों से विकसित किया गया है। एक उल्लेखनीय विस्तार 4-बिट प्रति पिक्सेल (4bpp) और 8bpp संपीड़न है, जो अनुक्रमित-रंग छवियों के फ़ाइल आकार को कम करने के लिए रंग तालिका के अल्पविकसित संपीड़न की अनुमति देता है। एक और महत्वपूर्ण विस्तार फ़ाइल हेडर के एप्लिकेशन विशिष्ट ब्ल ॉक (ASB) का उपयोग करके BMP फ़ाइलों के भीतर मेटाडेटा संग्रहीत करने की क्षमता है। यह सुविधा लेखकत्व, कॉपीराइट और छवि निर्माण डेटा जैसी मनमानी अतिरिक्त जानकारी को शामिल करने की अनुमति देती है, जो डिजिटल प्रबंधन और अभिलेखीय उद्देश्यों के लिए BMP फ़ाइलों के उपयोग में अधिक लचीलापन प्रदान करती है।
BMP फ़ाइलों के साथ काम करने वाले सॉफ़्टवेयर डेवलपर्स के लिए तकनीकी विचारों में फ़ाइल प्रारूप की संरचना की बारीकियों को समझना और विभिन्न बिट गहराई और संपीड़न प्रकारों को उचित रूप से संभालना शामिल है। उदाहरण के लिए, BMP फ़ाइलों को पढ़ने और लिखने के लिए छवि के आयाम, रंग की गहराई और संपीड़न विधि को निर्धारित करने के लिए हेडर को सही ढंग से पार्स करने की आवश्यकता होती है। अनुक्रमित-रंग छवियों से निपटने के दौरान डेवलपर्स को रंग तालिका को प्रभावी ढंग से प्रबंधित करना चाहिए ताकि यह सुनिश्चित हो सके कि रंगों का सटीक रूप से प्रतिनिधित्व किया गया है। इसके अलावा, सिस्टम की एंडियननेस पर विचार किया जाना चाहिए, क्योंकि BMP प्रारूप लिटिल-एंडियन बाइट ऑर्डरिंग निर्दिष्ट करता है, जिसके लिए बड़े-एंडियन सिस्टम पर रूपांतरण की आवश्यकता हो सकती है।
विशिष्ट अनुप्रयोगों के लिए BMP फ़ाइलों को अनुक