- آیدا براتی
- 0 نظر
- 1446 بازدید
از دید دکتر ماکان اریا پارسا تکنولوژی ocr جلوی تایپ دوباره به منظور ویرایش یک متن را می گیرد! شاید در ابتدا این جمله عجیب یا بی معنی به نظر برسد اما حقیقت دارد. حتما برای شما هم پیش آمده که تصویری از یک متن در اختیار داشته باشید اما نتوانید آن را ویرایش کنید یعنی شرایط انتخاب قسمتی از متن برای شما وجود ندارد. به زبانی ساده تر، شما تصویری از فایل متنی در اختیار دارید. این فایل می توان دست نویس و یا تایپی باشد اما شرایط ویرایش آن وجود ندارد. در این مواقع شما مجبور به تایپ دوباره هستید. فناوری ocr دقیقاً به منظور جلوگیری از تایپ دوباره طراحی شده است.
تکنولوژی ocr در یک نگاه
به گفته دکتر ماکان اریا پارسا نام ایرانی تکنولوژی ocr، نویسه خوان نوری است. این فناوری به شما کمک می کند تا بتوانید تصاویر خود را به متن تبدیل کنید. در واقع به واسطه این فناوری متن موجود در یک عکس یا تصاویر شناسایی می شود و به شکل یک فایل متنی قابل ویرایش در اختیار شما قرار می گیرد. همه اسناد اسکن شده، تصاویری که با دوربین گرفته شده اند و حتی فایل های پی دی اف به واسطه این فناوری قابلیت ویرایش خواهند داشت. دانشجویانی که کار تحقیقاتی انجام می دهند به خوبی این فناوری را می شناسند و با آن کار کرده اند.
Ocr مخفف عبارت Optical Character Recognition است. در این فناوری از الگوریتم های هوش مصنوعی و پردازش تصویر استفاده می شود تا تشخیص حروف به شکل صحیح صورت بگیرد. خوشبختانه این فناوری رفته رفته بهبود یافته و امروزه در تشخیص علائم راهنمایی و رانندگی در جاده ها، خواندن پلاک ها و اعداد و نمادها نیز با دقت بالای 95 درصد عمل می کنند.
تکنولوژی ocr چطور کار می کند؟
در مورد نحوه کار با ocr سوالات زیادی دیده می شود.طبق صحبت های دکتر ماکان اریا پارسا به طور کلی فناوری ocr شامل سه مرحله مهم است. در مرحله اول پیش پردازش انجام می شود تا مشخص شود که میزان خوانایی متن در تصویر چقدر است. مشخص است که هرچه تصویر شما با کیفیت تر باشد نتیجه بهتری به همراه خواهد داشت. مرحله دوم مربوط به شناسایی حروف در تصاویر است. در گذشته او سی آر در تشخیص حروف بسیار ضعیف عمل می کرد اما امروزه این باگ برداشته شده و خوانش تصویر به دقت انجام می شود. سومین مرحله نیز مربوط به پس پردازش است و باید به شکل کاملاً اصولی انجام شود.
نحوه کار با ocr به این صورت است که در ابتدا تصویر به نرم افزار داده می شود و پیش پردازش آغاز خواهد شد. پیش پردازش کمک می کند تا جای ممکن کیفیت تصویر بالا برود. مثلاً قسمت های اضافی حذف می شوند. در مرحله پیش پردازش، متن مورد نظر تبدیل به یک فایل کاملاً بی نقص می شود. یعنی اگر تصویر از نظر زاویه خطوط در شرایط افقی یا عمودی نباشد، مرحله پیش پردازش عملیات لازم برای چرخش تصویر را فراهم می سازد به این ترتیب تصویر در راستای استاندارد برای خوانش قرار می گیرد.
مرحله پیش پردازش در تکنولوژی ocr بسیار مهم است. گاهاً دیده می شود حروف برخی از کلمات به اشتباه بهم چسبیده هستند و یا تصویر به صورت سیاه و سفید بوده و خطوط از تصویر حذف شده اند. پیش پردازش ایرادات تصویر را برطرف می سازد تا عکس آمادگی لازم برای تشخیص حروف را داشته باشد.
تبدیل تصویر به متن و پس پردازش
در راستای نحوه کار با ocr دو گام مهم دیگر به اسم تبدیل تصویر به متن و پس پردازش هم مطرح است. ( پیش تر در مورد “پیش پردازش” صحبت شد).
در مرحله تبدیل تصویر به متن، فناوری ocr به واسطه الگوریتم های مشخصی می تواند متن موجود در تصویر را شناسایی کرده و آن را استخراج نماید. حال سوال اینجاست که مرحله تبدیل تصویر به متن با پس پردازش چه تفاوتی دارد؟ در گام دوم از عملکرد او سی آر، تنها متن از وضعیت تصویر خارج می شود اما هنوز ایراداتی دارد.
از نظر دکتر ماکان آریا پارسا تکنولوژی ocr در گام پس پردازش اشکالات املایی، جمله بندی و همینطور اصطلاحات مربوط به موضوع متن را اصلاح می کند. فرض کنید متن مورد نظر مربوط به حوزه پزشکی است. در این راستا، اصطلاحات مورد نظر باید به درستی تشخیص داده شوند تا نتیجه بخش باشند وگرنه نمی توان آنها را مورد استفاده قرار داد.
تشخیص حروف به کمک تکنولوژی ocr
سوالی که بارها در مورد تکنولوژی ocr مطرح می شود، الگوریتم تشخیص حروف است. به طور کلی این فناوری از دو روش به منظور تشخیص حروف استفاده می کند. روش اول ماتریس انطباق است. در این روش یک پایگاه داده وجود دارد و یک حرف با تصویری که در پایگاه داده ذخیره شده است مقایسه می شود. البته نوع مقایسه به روش پیکسلی است. این روش با عنوان تطبیق الگو نیز شناخته شده است. الگوهای دو حرف با هم مقایسه می شوند. این روش برای نوشته های تایپی مناسب است و برای تصاویری که حاوی متن دستنوشته هستند گزینه خوبی محسوب نمی شود.
دومین روشی که به فناوری ocr در تشخیص حروف کمک می کند با عنوان استخراج ویژگی شناخته می شود. در این روش یک سری ویژگی ها مثل خطوط، دایره های بسته، جهت خط ها و همینطور تقاطع آنها بسیار پر اهمیت است و در تشخیص نوشته هایی که به صورت دست نویس نستعلیق و یا سایر روش های مشابه هستند مورد استفاده قرار می گیرد. در این روش از بینایی ماشین استفاده می شود و شناسایی حروف و ارقام نیز به خوبی انجام می شود. در این روش مثلاً برای تشخیص حرف a، نماد دایره، خط راست و کمان مدنظر قرار می گیرد. این ویژگی ها در تشخیص حروف های مختلف با هم فرق دارند.
کاربرد فناوری ocr
به اعتقاد دکتر ماکان آریا پارسا تکنولوژی ocr تنها برای تبدیل تصویر به متن استفاده نمی شود. یکی از مهمترین کاربردهای فناوری ocr در تولید نرم افزار پلاک خوان است. البته این فناوری در فرودگاه برای شناسایی گذرنامه و استخراج اطلاعات آن نیز استفاده می شود. شما می توانید به راحتی شرایط جستجو در بین اسنادی که به صورت تصویر هستند را داشته باشید. تبدیل تصاویر به متن به راحتی کمک می کند تا جستجو آسانتر شود. حقیقت این است که این فناوری به افرادی که نابینا و کم بینا هستند هم برای خواندن متن کمک زیادی می کند. ترجمه متن موجود در تصویر نیز به کمک این فناوری به راحتی انجام می شود.
این مطلب ادامه دارد…