OCR, या ऑप्टिकल कैरेक्टर रिकग्निशन, एक प्रौद्योगिकी है जिसका उपयोग विभिन्न प्रकार के दस्तावेज़ों, जैसे कि स्कैन किए गए कागज़ी दस्तावेज़, PDF फ़ाइलें या डिजिटल कैमरे द्वारा कैप्चर की गई छवियों, को संपादन योग्य और खोजनेयोग्य डेटा में परिवर्तित करने के लिए किया जाता है।
OCR के पहले चरण में, पाठ दस्तावेज़ की एक छवि स्कैन की जाती है। यह एक फ़ोटो या स्कैन किया गया दस्तावेज़ हो सकता है। इस चरण का उद्देश्य यह है कि दस्तावेज़ की एक डिजिटल प्रतिलिपि बनाई जाए, मैन्युअल ट्रांसक्रिप्शन की आवश्यकता के बजाय। इसके अलावा, यह डिजिटाइजेशन प्रक्रिया सामग्री की लंबावधि को बढ़ाने में भी मदद कर सकती है क्योंकि यह नाज़ुक संसाधनों के हैंडलिंग को कम कर सकती है।
एक बार जब दस्तावेज़ को डिजिटलीकृत कर दिया जाता है, तो OCR सॉफ़्टवेयर छवि को पहचान के लिए व्यक्तिगत वर्णों में अलग करता है। इसे सेगमेंटेशन प्रक्रिया कहा जाता है। सेगमेंटेशन दस्तावेज़ को लाइनों, शब्दों और फिर अंतिम रूप में व्यक्तिगत वर्णों में तोड़ता है। यह विभाजन एक जटिल प्रक्रिया होती है क्योंकि इसमें असंख्य कारक शामिल होते हैं - विभिन्न फ़ॉन्ट, विभिन्न आकार के पाठ, और टेक्स्ट के विभिन्न संरेखण, केवल कुछ नाम लिए।
सेगमेंटेशन के बाद, OCR एल्गोरिदम फिर पैटर्न पहचान का उपयोग करके प्रत्येक व्यक्तिगत वर्ण की पहचान करता है। प्रत्येक वर्ण के लिए, एल्गोरिदम इसे वर्ण आकार के डाटाबेस से तुलना करेगा। सबसे करीबी मिलान फिर वर्ण की पहचान के रूप में चयनित होता है। फीचर पहचान में, OCR का एक और उन्नत रूप, एल्गोरिदम न केवल आकार की जांच करता है बल्कि पैटर्न में रेखाओं और वक्रों को भी ध्यान में लेता है।
OCR के अनेक व्यावहारिक अनुप्रयोग हैं - मुद्रित दस्तावेज़ों को डिजिटलीकरण से लेकर, टेक्स्ट-तो-स्पीच सेवाओं को सक्षम करने, डेटा प्रवेश प्रक्रियाओं को स्वचालित करने, से लेकर दृष्टिहीन उपयोगकर्ताओं को पाठ के साथ बेहतर इंटरैक्ट करने में सहायता करने तक। हालांकि, यह ध्यान देने योग्य है कि OCR प्रक्रिया अचूक नहीं होती है और विशेष रूप से निम्न-रिज़ॉल्यूशन दस्तावेजों, जटिल फ़ॉन्ट, या बेढंगा मुद्रित पाठ के साथ उपचार करते समय त्रुटियाँ कर सकती है। इसलिए, OCR सिस्टमों की सटीकता मूल दस्तावेज़ की गुणवत्ता और OCR सॉफ़्टवेयर का विशिष्ट विवरण पर अधिकार है।
OCR एक महत्वपूर्ण प्रौद्योगिकी है आधुनिक डेटा निकासी और डिजिटलीकरण प्रचारों में। यह मैन्युअल डेटा प्रवेश की आवश्यकता को कम करके और भौतिक दस्तावेजों को डिजिटल प्रारूप में परिवर्तित करने का एक विश्वसनीय, कुशल तरीका प्रदान करके संसाधनों का काफी समय और बचत करती है।
ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) एक प्रौद्योगिकी है जिसका उपयोग विभिन्न प्रकार के दस्तावेज़ों, जैसे कि स्कैन किए गए कागज के दस्तावेज, PDF फ़ाइलें या डिजिटल कैमरा द्वारा कैप्चर किए गए छवियों, को संपादन योग्य और खोजनीय डाटा में परिवर्तित करने के लिए उपयोग होता है।
OCR एक इनपुट छवि या दस्तावेज को स्कैन करके, इमेज को व्यक्तिगत वर्णों में बांटकर, और पैटर्न पहचान या विशेषता पहचान का उपयोग करके प्रत्येक वर्ण की तुलना करके काम करता है।
OCR का उपयोग विभिन्न क्षेत्रों और अनुप्रयोगों में उपयोग किया जाता है, जैसे कि मुद्रित दस्तावेजों को डिजिटाइज करना, टेक्स्ट-टू-स्पीच सेवाओं को सक्षम करना, डाटा एंट्री प्रक्रियाओं को स्वचालित करना, और दृष्टिहीन उपयोगकर्ताओं को पाठ से बेहतर बातचीत करने में सहायता करना।
हालांकि OCR प्रौद्योगिकी में महान प्रगति की गई है, लेकिन यह अफसोसवार नहीं है। सत्यापन मूल दस्तावेज की गुणवत्ता और OCR सॉफ़्टवेयर की विशिष्टताओं पर निर्भर कर सकता है।
हालाँकि OCR मुद्रित पाठ के लिए मुख्य रूप से डिज़ाइन किया गया है, कुछ उन्नत OCR सिस्टम हस्तलिखित पहचानने में भी सक्षम होते हैं। हालाँकि, आमतौर पर हस्तलिखित पहचाननेवालों की पहचान करने में कम सटीकता होती है क्योंकि व्यक्तिगत लेखन शैलियों में व्यापक भिन्नता होती है।
हाँ, कई OCR सॉफ़्टवेयर सिस्टम एकाधिक भाषाओं को पहचान सकते हैं। हालाँकि, यह महत्वपूर्ण है कि आपके उपयोग में आने वाले सॉफ़्टवेयर द्वारा विशिष्ट भाषा का समर्थन किया जा रहा हो।
OCR ऑप्टिकल कैरेक्टर रिकग्निशन के लिए होता है और यह मुद्रित पाठ को पहचानने के लिए उपयोग होता है, जबकि ICR, या इंटेलिजेंट कैरेक्टर रिकग्निशन, अधिक उन्नत होते हैं और हस्तलिखित पाठ को पहचानने के लिए उपयोग होते हैं।
OCR स्पष्ट, आसानी से पढ़ने वाले फ़ॉन्ट और मानक पाठ आकारों के साथ सबसे अच्छा काम करता है। हालांकि यह विभिन्न फ़ॉन्ट और आकारों के साथ काम कर सकता है, लेकिन असामान्य फ़ॉन्ट्स या बहुत छोटे पाठ आकारों के साथ काम करते समय सटीकता कम होने की प्रवृत्ति होती है।
OCR कम resolution के दस्तावेज़, जटिल fonts, खराब प्रिंट वाले पाठ, हस्तलिखित, और वे दस्तावेज़ जो पाठ के साथ दखल देने वाले पृष्ठभूमियों के साथ संघर्ष कर सकते हैं। साथ ही, जबकि यह कई भाषाओं के साथ काम कर सकता है, यह हर भाषा को पूरी तरह से नहीं कवर कर सकता है।
हाँ, OCR रंगीन पाठ और पृष्ठभूमियों को स्कैन कर सकता है, हालाँकि यह आमतौर पर उच्च-विपरीत रंग संयोजनों, जैसे कि एक सफेद पृष्ठभूमि पर काले पाठ, के साथ अधिक प्रभावी होता है। पाठ और पृष्ठभूमि रंगों में पर्याप्त विपरीतता की कमी होने पर सटीकता कम हो सकती है।
JPS इमेज फॉर्मेट, JPEG स्टीरियो के लिए संक्षिप्त, एक फाइल फॉर्मेट है जिसका उपयोग डिजिटल कैमरों द्वारा ली गई या 3D रेंडरिंग सॉफ़्टवेयर द्वारा बनाई गई स्टीरियोस्कोपिक तस्वीरों को स्टोर करने के लिए किया जाता है। यह अनिवार्य रूप से एक ही फाइल के भीतर दो JPEG इमेज की एक साइड-बाय-साइड व्यवस्था है, जो उपयुक्त सॉफ़्टवेयर या हार्डवेयर के माध्यम से देखे जाने पर, एक 3D प्रभाव प्रदान करती है। यह फॉर्मेट इमेज में गहराई का भ्रम पैदा करने के लिए विशेष रूप से उपयोगी है, जो संगत डिस्प्ले सिस्टम या 3D चश्मे वाले उपयोगकर्ताओं के लिए देखने के अनुभव को बढ़ाता है।
JPS फॉर्मेट दो इमेज को स्टोर करने के लिए अच्छी तरह से स्थापित JPEG (जॉइंट फोटोग्राफिक एक्सपर्ट्स ग्रुप) कंप्रेशन तकनीक का लाभ उठाता है। JPEG एक लॉसी कंप्रेशन विधि है, जिसका अर्थ है कि यह कम महत्वपूर्ण जानकारी को चुनिंदा रूप से त्याग कर फ़ाइल आकार को कम करता है, अक्सर मानवीय आँख के लिए छवि गुणवत्ता में ध्यान देने योग्य कमी के बिना। यह JPS फ़ाइलों को एक के बजाय दो इमेज होने के बावजूद अपेक्षाकृत छोटा और प्रबंधनीय बनाता है।
एक JPS फ़ाइल अनिवार्य रूप से एक विशिष्ट संरचना वाली JPEG फ़ाइल है। इसमें एक ही फ्रेम के भीतर साइड-बाय-साइड दो JPEG-कंप्रेस्ड इमेज होती हैं। इन इमेज को लेफ्ट-आई और राइट-आई इमेज कहा जाता है, और वे एक ही दृश्य के थोड़े अलग दृष्टिकोण का प्रतिनिधित्व करते हैं, जो हमारी प्रत्येक आँख द्वारा देखी गई चीज़ों के बीच मामूली अंतर की नकल करते हैं। यह अंतर वह है जो इमेज को सही ढंग से देखे जाने पर गहराई की धारणा की अनुमति देता है।
एक JPS इमेज के लिए मानक रिज़ॉल्यूशन आमतौर पर लेफ्ट और राइट दोनों इमेज को समायोजित करने के लिए एक मानक JPEG इमेज की चौड़ाई से दोगुना होता है। उदाहरण के लिए, यदि एक मानक JPEG इमेज का रिज़ॉल्यूशन 1920x1080 पिक्सेल है, तो एक JPS इमेज का रिज़ॉल्यूशन 3840x1080 पिक्सेल होगा, जिसमें प्रत्येक साइड-बाय-साइड इमेज कुल चौड़ाई का आधा हिस्सा घेरेगी। हालाँकि, रिज़ॉल्यूशन इमेज के स्रोत और इच्छित उपयोग के आधार पर भिन्न हो सकता है।
3D में JPS इमेज देखने के लिए, एक दर्शक को एक संगत डिस्प्ले डिवाइस या सॉफ़्टवेयर का उपयोग करना चाहिए जो साइड-बाय-साइड इमेज की व्याख्या कर सकता है और उन्हें प्रत्येक आँख को अलग से प्रस्तुत कर सकता है। यह विभिन्न तरीकों से प्राप्त किया जा सकता है, जैसे एनाग्लीफ 3D, जहाँ इमेज को रंग द्वारा फ़िल्टर किया जाता है और रंगीन चश्मे के स ाथ देखा जाता है; पोलराइज़्ड 3D, जहाँ इमेज को पोलराइज़्ड फ़िल्टर के माध्यम से प्रोजेक्ट किया जाता है और पोलराइज़्ड चश्मे के साथ देखा जाता है; या एक्टिव शटर 3D, जहाँ इमेज को वैकल्पिक रूप से प्रदर्शित किया जाता है और शटर चश्मे के साथ सिंक्रनाइज़ किया जाता है जो प्रत्येक आँख को सही इमेज दिखाने के लिए तेजी से खुलते और बंद होते हैं।
एक JPS इमेज की फ़ाइल संरचना एक मानक JPEG फ़ाइल के समान है। इसमें एक हेडर होता है, जिसमें SOI (स्टार्ट ऑफ़ इमेज) मार्कर शामिल होता है, इसके बाद कई सेगमेंट होते हैं जिनमें मेटाडेटा के विभिन्न भाग और स्वयं इमेज डेटा होता है। सेगमेंट में APP (एप्लीकेशन) मार्कर शामिल होते हैं, जिसमें Exif मेटाडेटा जैसी जानकारी हो सकती है, और DQT (डिफ़ाइन क्वांटिज़ेशन टेबल) सेगमेंट, जो इमेज डेटा को कंप्रेस करने के लिए उपयोग की जाने वाली क्वांटिज़ेशन टेबल को परिभाषित करता है।
JPS फ़ाइल में प्रमुख स ेगमेंट में से एक JFIF (JPEG फ़ाइल इंटरचेंज फ़ॉर्मेट) सेगमेंट है, जो निर्दिष्ट करता है कि फ़ाइल JFIF मानक के अनुरूप है। यह सेगमेंट सॉफ़्टवेयर और हार्डवेयर की एक विस्तृत श्रृंखला के साथ संगतता सुनिश्चित करने के लिए महत्वपूर्ण है। इसमें थंबनेल इमेज का आस्पेक्ट रेशियो और रिज़ॉल्यूशन जैसी जानकारी भी शामिल है, जिसका उपयोग त्वरित पूर्वावलोकन के लिए किया जा सकता है।
JPS फ़ाइल में वास्तविक इमेज डेटा SOS (स्टार्ट ऑफ़ स्कैन) सेगमेंट में संग्रहीत किया जाता है, जो हेडर और मेटाडेटा सेगमेंट का अनुसरण करता है। इस सेगमेंट में लेफ्ट और राइट दोनों इमेज के लिए कंप्रेस्ड इमेज डेटा होता है। डेटा को JPEG कंप्रेशन एल्गोरिथम का उपयोग करके एन्कोड किया जाता है, जिसमें रंग स्थान रूपांतरण, सबसैंपलिंग, असतत कोसाइन ट्रांसफ़ॉर्म (DCT), क्वांटिज़ेशन और एंट्रॉपी कोडिंग सहित कई चरण शामिल होते हैं।
रंग स्थान रूपांतरण RGB रंग स्थान से इमेज डेटा को परिवर्तित करने की प्रक्रिया है, जो आमतौर पर डिजिटल कैमरों और कंप्यूटर डिस्प्ले में उपयोग किया जाता है, YCbCr रंग स्थान में, जिसका उपयोग JPEG कंप्रेशन में किया जाता है। यह रूपांतरण इमेज को एक ल्यूमिनेंस घटक (Y) में अलग करता है, जो चमक के स्तर का प्रतिनिधित्व करता है, और दो क्रोमिनेंस घटक (Cb और Cr), जो रंग की जानकारी का प्रतिनिधित्व करते हैं। यह कंप्रेशन के लिए फायदेमंद है क्योंकि मानवीय आँख रंग की तुलना में चमक में बदलाव के प्रति अधिक संवेदनशील होती है, जिससे क्रोमिनेंस घटकों के अधिक आक्रामक कंप्रेशन की अनुमति मिलती है बिना कथित इमेज गुणवत्ता को महत्वपूर्ण रूप से प्रभावित किए।
सबसैंपलिंग एक ऐसी प्रक्रिया है जो ल्यूमिनेंस घटक के सापेक्ष क्रोमिनेंस घटकों के रिज़ॉल्यूशन को कम करके रंग विवरण के प्रति मानवीय आँख की कम संवेदनशीलता का लाभ उठाती है। सामान्य सबसैंपलिंग अनुपात में 4:4:4 (कोई सबसैंपलिंग नहीं), 4:2:2 (क्रोमिनेंस के क्षैतिज रिज़ॉल्यूशन को आधा करना), और 4:2:0 (क्षैतिज और ऊर्ध्वाधर दोनों रिज़ॉल्यूशन को आधा करना) शामिल हैं। सबसैंपलिंग अनुपात का चुनाव इमेज गुणवत्ता और फ़ाइल आकार के बीच संतुलन को प्रभावित कर सकता है।
असतत कोसाइन ट्रांसफ़ॉर्म (DCT) को इमेज के छोटे ब्लॉक (आमतौर पर 8x8 पिक्सेल) पर लागू किया जाता है ताकि स्थानिक डोमेन डेटा को फ़्रीक्वेंसी डोमेन में परिवर्तित किया जा सके। यह चरण JPEG कंप्रेशन के लिए महत्वपूर्ण है क्योंकि यह इमेज विवरण को अलग-अलग महत्व के घटकों में अलग करने की अनुमति देता है, जिसमें उच्च फ़्रीक्वेंसी घटक अक्सर मानवीय आँख के लिए कम बोधगम्य होते हैं। इन घटकों को तब क्वांटिज़ किया जा सकता है, या सटीकता में कम किया जा सकता है, ताकि कंप्रेशन प्राप्त किया जा सके।
क्वांटिज़ेशन मानों की एक श्रेणी को एकल क्वांटम मान में मैप करन े की प्रक्रिया है, जो प्रभावी रूप से DCT गुण
यह कन्वर्टर पूरी तरह से आपके ब्राउज़र में चलता है। जब आप एक फ़ाइल का चयन करते हैं, तो यह स्मृति में पढ़ा जाता है और चयनित प्रारूप में रूपांतरित किया जाता है। आप फिर रूपांतरित फ़ाइल डाउनलोड कर सकते हैं।
रूपांतरण तत्काल प्रारंभ होते हैं, और अधिकांश फ़ाइलें एक सेकंड के भीतर रूपांतरित की जाती हैं। बड़ी फ़ाइलें अधिक समय ले सकती हैं।
आपकी फ़ाइलें कभी हमारे सर्वर पर अपलोड नहीं की जाती हैं। वे आपके ब्राउज़र में रूपांतरित होती हैं, और फिर रूपांतरित फ़ाइल डाउनलोड की जाती है। हमें आपकी फ़ाइलें कभी नहीं दिखाई देती हैं।
हम सभी छवि प्रारूपों के बीच रूपांतरण का समर्थन करते हैं, जिसमें JPEG, PNG, GIF, WebP, SVG, BMP, TIFF, और अधिक शामिल हैं।
यह कन्वर्टर पूरी तरह से मुफ्त है, और हमेशा मुफ्त रहेगा। क्योंकि यह आपके ब्राउज़र में चलता है, हमें सर्वर के लिए भुगतान करने की आवश्यकता नहीं होती, इसलिए हमें आपसे शुल्क नहीं लगाना पड़ता।
हाँ! आप एक साथ जितनी चाहें उत्तम फ़ाइलें रूपांतरित कर सकते हैं। बस जब आप उन्हें जोड़ते हैं तो कई फ़ाइलें चुनें।