OCR, অথবা অপটিক্যাল ক্যারেক্টার রেকগনিশন হলো এক ধরনের প্রযুক্তি যা বিভিন্ন ধরনের ডকুমেন্টগুলিকে, যেমন স্ক্যান করা কাগজের ডকুমেন্ট, PDF ফাইল বা ডিজিটাল ক্যামেরায় তোলা ছবি, সম্পাদনযোগ্য এবং অনুসন্ধানযোগ্য তথ্যে রূপান্তর করতে ব্যবহার করা হয়। OCR এর প্রথম পর্যায়ে, একটি লেখা ডকুমেন্টের ছবি স্ক্যান করা হয়। এটি ছবি বা স্ক্যান করা দলিল হতে পারে। এই পর্যায়ের উদ্দেশ্য হলো দলিলের ডিজিটাল কপি তৈরি করা, এর পরিবর্তে ম্যানুয়াল লিপিবদ্ধকরণ চাই। এছাড়া, এই ডিজিটালায়ন প্রক্রিয়া মাশুল সম্পদের দীর্ঘায়িত্ব বাড়াতে হেল্প করতে পারে কারণ এটি ভাঙ্গুর সম্পদ হেন্ডল করার প্রয়োজনীয়তা হ্রাস করতে পারে। ডকুমেন্টটি ডিজিটালায়ন করা হলে, ওসিআর সফ্টওয়্যার ব্যবহার করে ছবিটি একক অক্ষরে প্রতিষ্ঠাপন করে। একে সেগমেন্টেশন প্রক্রিয়া বলে। সেগমেন্টেশন ডকুমেন্টটি লাইন, শব্দ এবং এত পর্যন্ত একক অক্ষর ভেঙে দেয়। এই বিভাজন একটি জটিল প্রক্রিয়া কারণ এতে অনেকগুলি প্রকেল সম্পৃক্ত হয় - ভিন্ন ফন্ট, ভিন্ন আকারের টেক্সট এবং টেক্সটের ভিন্ন কেলা, কেবল কিছু উল্লেখ করা উপযুক্ত। সেগমেন্টেশনের পরে, OCR এর এলগোরিদম প্যাটার্ন চিনতে প্রতি অক্ষর চিহ্নিত করে। প্রত্যেক অক্ষরের ক্ষেত্রে, এলগোরিদম তা অক্ষরের আকারের ডাটাবেসের সাথে তুলনা করে। সবচেয়ে কাছাকাছি মিল তবে অক্ষরের পরিচয় হিসাবে নির্বাচিত হয়। বৈশিষ্ট্য চিন্তার মধ্যে, ওসিআর এর আরও উন্নত রূপ, এলগোরিদম শেপ পরীক্ষা করে না শুধুমাত্র তাড়াহার এবং বাকয়া প্যাটার্নে লাইন এবং বক্রস্মিতি বিবেচনা করে। OCR এর এমন অনেকগুলি ব্যবহারিক অ্যাপ্লিকেশন রয়েছে -- মুদ্রিত ডকুমেন্ট ডিজিটাইজ করা থেকে, টেক্সট-টু-স্পিচ সেবা সক্রিয় করা, ডাটা এন্ট্রি প্রক্রিয়া স্বয়ংক্রিয় করা, এমনকি দৃষ্টিপ্রতিবন্ধী ব্যবহারকারীদের পাঠ্যের সাথে ভালো করে যোগাযোগ করতে অসিস্ট করা। তবে, মনে রাখা দরকার যে OCR প্রক্রিয়াটি ব্যর্থ হতে পারে এবং বিশেষ করে কম রেজ্যুলেশনের ডকুমেন্ট, জটিল ফন্ট বা খারাপ মুদ্রিত টেক্সটের সাথে মারামারি করতে পারে। তাই, OCR সিস্টেমের যথার্থতা গুরুত্বপূর্ণভাবে পরিবর্তিত হয় মূল ডকুমেন্টের মান এবং ব্যবহৃত OCR সফ্টওয়্যারের বিশেষত্ব উপর নির্ভর করে। OCR হলো একটি গুরুত্বপূর্ণ প্রযুক্তি আধুনিক তথ্য উদ্ধার এবং ডিজিটালায়ন অভ্যাসে। এটি ম্যানুয়াল ডাটা এন্ট্রির প্রয়োজনীয়তা হ্রাস করে এবং শারীরিক ডকুমেন্টগুলি একটি ডিজিটাল ফর্ম্যাটে রূপান্তর করে একটি বিশ্বস্ত, কার্যকর প্রক্রিয়া প্রদান করে।
অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) একটি প্রযুক্তি যা বিভিন্ন ধরনের দস্তাবেজ, যেমন স্ক্যান করা কাগজের দস্তাবেজ, PDF ফাইল বা ডিজিটাল ক্যামেরায় ছবি তৈরি করা, সম্পাদনযোগ্য এবং অনুসন্ধানযোগ্য তথ্যে রূপান্তর করতে ব্যবহৃত হয়।
OCR কাজ করে একটি ইনপুট ছবি বা দস্তাবেজ স্ক্যান করে, ছবিটি ব্যক্তিগত অক্ষরগুলিতে বিভক্ত করে এবং প্যাটার্ন নির্বাচন বা বৈশিষ্ট্য নির্বাচন ব্যবহার করে প্রতিটি অক্ষর অক্ষররূপের ডাটাবেসের সাথে তুলনা করে।
OCR বিভিন্ন খাতে এবং অ্যাপ্লিকেশনে ব্যবহার হয়, তারমধ্যে মুদ্রিত দস্তাবেজ ডিজিটাইজ করা, টেক্সট-টু-স্পিচ সেবা সক্রিয় করা, ডাটা এন্ট্রি প্রক্রিয়া স্বয়ংক্রিয় করা, এবং দৃষ্টিপ্রতিবন্ধী ব্যবহারকারীদের টেক্সটের সাথে ভালোভাবে মিলিয়ে যাওয়ার অসিস্ট করা।
যদিও OCR প্রযুক্তিতে বড় উন্নতি হয়েছে, তবে এটি অব্যর্থ। মূল দস্তাবেজের গুণমান এবং OCR সফটওয়্যারের নির্দিষ্টতা উপর নির্ভর করে সঠিকতা বিভিন্ন হতে পারে।
যদিও OCR মূলত মুদ্রিত টেক্সটের জন্য নকল করা হয়, তবে কিছু উন্নত OCR সিস্টেম স্পষ্ট, সামান্য হাতের লেখা চিনতে ও সক্ষম। তবে, সাধারণত হাতে লেখা চিত্রগুলির চেনাচেনি কম সঠিক হয় কারণ ব্যক্তিগত লেখার শৈলীতে প্রচুর পরিবর্তন হয়।
হ্যাঁ, অনেক মাত্রায় OCR সফটওয়্যার সিস্টেম একাধিক ভাষা চেনে তুলতে পারে। তবে, আপনি যে সফটওয়্যার ব্যবহার করছেন, নিশ্চিত করুন যে নির্দিষ্ট ভাষাটি এটি দ্বারা সমর্থিত।
OCR মূলত Optical Character Recognition এর জন্য দাঁড়ায় এবং এটি মুদ্রিত টেক্সট চিনতে ব্যবহার করা হয়, যখনই ICR, অর্থাৎ Intelligent Character Recognition, আরও উন্নত এবং এটি হাতে লেখা টেক্সট চিনতে ব্যবহার করা হয়।
OCR সাধারণত স্পষ্ট, সহজে পড়া যাবে এমন ফন্ট এবং মান টেক্সট আকারের সাথে সেরা কাজ করে। যখন এটি বিভিন্ন ফন্ট এবং আকারের নিয়ে কাজ করে, তখন সেটি অস্বাভাবিক ফন্ট বা খুব ছোট টেক্সট আকারের নিয়ে সামোতীয়তা হ্রাস পায়।
OCR বিখ্যাত দস্তাবেজ, জটিল ফন্ট, খারাপ মুদ্রিত টেক্সট, হাতে লেখা, এবং দস্তাবে জ যা টেক্সটের সাথে বাধা দেয় দিয়ে হাতাহাতি করতে পারে। এছাড়াও, এটি অনেকগুলি ভাষায় কাজ করতে পারে, তবে এটি প্রতিটি ভাষা পূর্ণাঙ্গভাবে ছাড়া যেতে পারে।
হ্যাঁ, OCR বর্ণ টেক্সট এবং পটভূমি স্ক্যান করতে পারে, যদিও এটি সাধারণত উচ্চ-কন্ট্রাস্ট বর্ণ সংযোজনে অতিরিক্ত কার্যকর, যেমন সাদা পটভূমি উপর কালো টেক্সট। টেক্সট এবং পটভূমি রং যথেষ্ট বিপরীত না হলে সঠিকতা হ্রাস পেতে পারে।
YUV হল একটি রঙ এনকোডিং সিস্টেম যা একটি রঙিন ইমেজ পাইপলাইনের অংশ হিসাবে ব্যবহৃত হয়। এটি মানুষের উপলব্ধিকে বিবেচনায় রেখে একটি রঙিন ইমেজ বা ভিডিও এনকোড করে, ক্রোমিন্যান্স উপাদানগুলির জন্য হ্রাসকৃত ব্যান্ডউইথের অনুমতি দেয়, যার ফলে সাধারণত "ডিরেক্ট" RGB-প্রতিনিধিত্ব ব্যবহার করার চেয়ে মানুষের উপলব্ধির দ্বারা ট্রান্সমিশন ত্রুটি বা কম্প্রেশন আর্টিফ্যাক্টগুলি আরও দক্ষতার সাথে মাস্ক করা যায়। YUV নামটি মূলত লুমা (Y') এবং দুটি ক্রোমিন্যান্স (UV) উপাদানগুলির জন্য ব্যবহৃত Y'UV নোটেশন থেকে উদ্ভূত হয়েছে। Y'UV মডেল একটি লুমা উপাদান (Y') এবং দুটি ক্রোমিন্যান্স উপাদানের ক্ষেত্রে একটি রঙিন স্থানকে সংজ্ঞায়িত করে, যাকে U (নীল প্রক্ষেপণ) এবং V (লাল প্রক্ষেপণ) বলা হয়, যখন YCbCr হল Y'UV রঙিন মডেলের একটি ডিজিটাল সংস্করণ।
YUV সংকেতগুলি একটি মূল RGB (লাল, সবুজ এবং নীল) উৎস থেকে তৈরি করা হয়। R, G এবং B এর ওজনযুক্ত মানগুলি একসাথে যুক্ত করা হয় একটি একক Y সংকেত তৈরি করতে, যা সেই পিক্সেলের সামগ্রিক উজ্জ্বলতা বা লুমা উপস্থাপন করে। U সংকেতটি তারপর মূল RGB এর নীল সংকেত থেকে Y বাদ দিয়ে তৈরি করা হয় এবং তারপর স্কেলিং করা হয়; এবং V লাল থেকে Y বাদ দিয়ে এবং তারপর একটি ভিন্ন ফ্যাক্টর দ্বারা স্কেলিং করে। এই ফ্যাক্টরগুলি নিশ্চিত করার জন্য নির্বাচন করা হয় যে প্রতিটি রঙিন স্থান স্থানাঙ্কের পরিসীমা প্রায় -0.5 থেকে +0.5।
RGB→YUV রূপান্তরটি নিম্নরূপে নির্দিষ্ট করা হয়েছে: Y = 0.299R + 0.587G + 0.114B, U = −0.147R − 0.289G + 0.436B, V = 0.615R − 0.515G − 0.100B। ডিজিটাল ফরম্যাটগুলি সাধারণত প্রতিটি চ্যানেলের জন্য 8 বিট ব্যবহার করে, প্রতিটির জন্য পরিসীমা 0 থেকে 255 করে এবং তাই রূপান্তরটি হয়ে যায়: Y = (0.257 × R) + (0.504 × G) + (0.098 × B) + 16, Cb = U = −(0.148 × R) − (0.291 × G) + (0.439 × B) + 128, Cr = V = (0.439 × R) − (0.368 × G) − (0.071 × B) + 128।
YUV রঙিন মডেলটি PAL, NTSC এবং SECAM কম্পোজিট রঙিন ভিডিও স্ট্যান্ডার্ডে ব্যবহৃত হয়। লুমা উপাদানটিকে প্রায়শই Y' হিসাবে চিহ্নিত করা হয়, তবে কখনও কখনও Y হিসাবে, প্রাইম প্রতীকগুলি প্রায়শই লেখার সময় বাদ দেওয়া হয়। YUV সিস্টেম কালো-সাদা (লুমা) সংকেতগুলির জন্য উদ্দিষ্ট একটি চ্যানেলের উপর রঙিন ইমেজগুলির ট্রান্সমিশনকে অনুমতি দেয়, প্রয়োজনীয় ব্যান্ডউইথ হ্রাস করে। কালো-সাদা রিসিভারগুলি এখনও একটি স্বাভাবিক কালো-সাদা ছবি প্রদর্শন করে, যখন রঙিন রিসিভারগুলি প্রক্রিয়াটি বিপরীত করে, সংকেতের UV অংশগুলি ডিকোড করে এবং একটি রঙিন ছবি প্রদর্শন করে।
YUV এর একটি প্রধান সুবিধা হল ব্যান্ডউইথ হ্রাস করার জন্য বা যখন লুমা থেকে ক্রোমা আলাদাভাবে প্রক্রিয়া করা হবে তখন কিছু তথ্য বাদ দেওয়া যেতে পারে। যদি শুধুমাত্র লুমা ট্রান্সমিট করার প্রয়োজন হয়, অর্থাৎ ফ্রেম জুড়ে U এবং V উপাদানগুলি শূন্য, তাহলে ডেটা আকার আগের অর্ধেক হয়ে যায়, উপলব্ধ ইমেজ গ ুণমানে কোনও ক্ষতি ছাড়াই। পূর্ণ রঙ থেকে YUV এ রূপান্তর করার সময় এবং আবার ফিরে আসার সময়, রাউন্ডিং ত্রুটির কারণে কিছু তথ্য হারিয়ে যায়।
YUV সাবস্যাম্পলিং হল লুমা তথ্যের চেয়ে ক্রোমা তথ্যের জন্য কম রেজোলিউশন প্রয়োগ করে ইমেজ এনকোড করার একটি পদ্ধতি, লুমিন্যান্সের চেয়ে রঙের পার্থক্যের জন্য মানুষের দৃষ্টিগত সিস্টেমের কম তীক্ষ্ণতার সুযোগ নিয়ে। 4:4:4 পূর্ণ-রেজোলিউশন YUV কোনও ক্রোমা সাবস্যাম্পলিং সঞ্চয় করে না, যখন সাধারণ স্কিমগুলি হল 4:2:2 (অর্ধেক রেজোলিউশন অনুভূমিকভাবে), 4:2:0 (অর্ধেক রেজোলিউশন অনুভূমিকভাবে এবং উল্লম্বভাবে) এবং 4:1:1 (এক চতুর্থাংশ রেজোলিউশন অনুভূমিকভাবে)। 4:4:4 সাবস্যাম্পলিং মূল স্যাম্পলে উপস্থিত সমস্ত তথ্য সংরক্ষণ করে। অনুপাতগুলি বর্ণনা করে যে পিক্সেলের একটি ব্লকের জন্য কতগুলি লুমা এবং ক্রোমা স্যাম্পল এনকোড করা হয়।
ভিডিও এবং ডিজিটাল ফটোগ্রাফি সিস্টেমে ব্যবহৃত YUV রঙিন স্থানের বেশ কয়েকটি শেড রয়েছে। প্রধান পার্থক্যগুলি হল মূল সমীকরণগুলিতে U এবং V প্লেনের জন্য স্কেল ফ্যাক্টর। যখন Y প্লেন লুমিন্যান্সকে উপস্থাপন করে এবং এইভাবে উচ্চতর ব্যান্ডউইথের প্রয়োজন হয়, তখন U এবং V প্লেনগুলি ব্যান্ডউইথ-হ্রাস করা, সাবস্যাম্পল করা, কম্প্রেস করা বা উন্নত সিস্টেম দক্ষতার জন্য অন্যভাবে আলাদাভাবে প্রক্রিয়া করা যেতে পারে। সুতরাং বেশ কয়েকটি YUV ফরম্যাট রয়েছে, সম্ভবত প্লেনগুলির জন্য 8-বিট বা 10-বিট এনকোডিংয়ের শেড ব্যবহার করে।
YUV র
এই রূপান্তরকারী সম্পূর্ণ ভাবে আপনার ব্রাউজারে চলে। যখন আপনি একটি ফাইল নির্বাচন করেন, তা স্মৃতিতে পড়ে এবং নির্বাচিত ফর্ম্যাটে রূপান্তরিত হয়। আপনি তারপর রূপান্তরিত ফাইলটি ডাউনলোড করতে পারেন।
রূপান্তরগুলি তাৎক্ষণিকভাবে শুরু হয়, এবং বেশিরভাগ ফাইল এক সেকেন্ডের মধ্যে রূপান্তরিত হয়। বড় ফাইলগুলি আরও বেশি সময় নিতে পারে।
আপনার ফাইলগুলি কখনই আমাদের সার্ভারে আপলোড করা হয় না। তারা আপনার ব্রাউজারে রূপান্তরিত হয়, এবং রূপান্তরিত ফাইলটি তারপর ডাউনলোড করা হয়। আমরা কখনই আপনার ফাইলগুলি দেখি না।
আমরা সমস্ত চিত্র ফর্ম্যাটের মধ্যে রূপান্তর করার সমর্থন করি, যা অন্তর্ভুক্ত JPEG, PNG, GIF, WebP, SVG, BMP, TIFF, এবং আরও অনেক কিছু।
এই রূপান্তরকারী সম্পূর্ণ বিনামূল্যে, এবং সর্বদা বিনামূল্যে থাকবে। কারণ এটি আপনার ব্রাউজারে চলে, আমাদের সার্ভারের জন্য পেমেন্ট করতে হয় না, তাই আমাদের আপনাকে চার্জ করার প্রয়োজন নেই।
হ্যাঁ! আপনি যত ফাইল চান তত একবারে রূপান্তর করতে পারেন। শুধু আপনি যখন তাদের যোগ করেন তখন একাধিক ফাইল নির্বাচন করুন।