টপিকঃ বাংলা OCR কি আছে?

নেটে কি কোন বাংলা OCR পাওয়া যায়? মানে কাজের মত? নেট থেকে দুইটা নামালাম, দুইটাই 10% এর মতো টেক্সট করতে পারে. 80% এর মত হলেও কথা ছিলো. মোবাইল দিয়ে টাইপ করছি. তাই ভুল হতে পারে.

Re: বাংলা OCR কি আছে?

থাকলে অনেক খাটুনি হতে বেঁচে যেতাম ৷ আপনি পাইলে আমারেও দিয়েন ৷

Re: বাংলা OCR কি আছে?

ব্র্যাক বিশ্ববিদ্যালয় নাকি একটা ওসিআর বানিয়েছিল। ওটার আপডেট অবশ্য নাই।

আমার সকল টপিক

কোনো কিছু বলার নেই আজ আর...

Re: বাংলা OCR কি আছে?

গৌতম লিখেছেন:

ব্র্যাক বিশ্ববিদ্যালয় নাকি একটা ওসিআর বানিয়েছিল। ওটার আপডেট অবশ্য নাই।

ওটা ইউজ করছিলাম কিন্তু ইউজেবল ছিল না তারপর চরম স্লো, প্রডাকশন লেভেলের কিছু নাই নাই এখনো!

Re: বাংলা OCR কি আছে?

OCR বানানো কি খুব কষ্টের কোনো কাজ নাকি? জানিনা তাই অভিজ্ঞদের থেকে জানতে চাইছি।  thinking

এম. মেরাজ হোসেন
IQ: 113
http://www.iq-test.cc/badges/4774105_3724.png

সর্বশেষ সম্পাদনা করেছেন invarbrass (২৩-০৭-২০১৪ ১৪:১১)

Re: বাংলা OCR কি আছে?

OCR সফটওয়্যার তৈরী করাই আছে - tesseract OCR নামে চমৎকার একটি ওপেনসোর্স লাইব্রেরী আছে।

tesseract-এ বাংলা টেক্সট রিকগনাইজ করানোর জন্য সফটওয়্যারটাকে ট্রেনিং করাতে হয় - এ কাজটাই কেউ করছে না। সম্ভবতঃ ৮/১০ বছর আগে একজন ভারতীয় ডেভেলপার বাংলা tesseract নিয়ে কিছু কাজ করেছিলেন - তারপরে আর খুব বেশি উন্নয়ন সম্ভবতঃ হয় নি।  যতদূর মনে পড়ে ওই বাংলা OCR-টা শুধুমাত্র পুরণো আমলের বিলুপ্ত মুভেবল টাইপ টেকনোলজীর কিছু টাইপফেস চিনতে পারতো। কিন্তু আধুনিক (ডিজিটাল) বাংলা ফণ্ট রেকগনাইজ করতে পারে না। তারওপর ওটার আউটপুট ছিলো ASCII - ডকুমেণ্ট পড়ার জন্য বিজয় ফণ্টগুলো ইনস্টল থাকা লাগে।  sad

ওই ৭/৮ বছর আগের tesseract indic ডেটা ফাইলটাই কপিপেস্ট করে অনেকে দেশের ফাশঠ এ্যাণ্ঢ ফত্তম উগাবুগা বাংলা ওছিয়্যার ছোফঠউয়ের তৈয়ার করে ফেলে। প্রজন্ম ফোরামেই এরকম একটা এ্যানাউন্সমেণ্ট ছিলো সম্ভবতঃ  roll

OCR ট্রেনিং কঠিন না হলেও বেশ পরিশ্রমের কাজ। নীচের লিংকগুলোয় ঢুঁ মারতে পারেনঃ
http://vietocr.sourceforge.net/training.html
http://michaeljaylissner.com/blog/addin … ocr-engine

Calm... like a bomb.

Re: বাংলা OCR কি আছে?

http://i.imgur.com/E5VrHWc.png

এইটার আউটপুট=

র্মি যেথা তুযদ্ভুণ্সা৩.
-ব্ৰীড়্গা.থ mm
র্মি যেথা W, উঢচঁ যেথা শিব
w যেথা T, যেথা গৃৰ্থে প্ৰাচীব চঁ .
আপন NWT? ৩ গোঁ র্তৃব্বিসখঃ স -ৰ্শরীংধিঃ
বসুধাপেংব W. নাই খন্ড w? কবি
যেথা W? হৃদফোঁ উংসন্নুখ হতে
উচ্ছাসিযা উঠে, যেথা নিবার্মি/৩ cm?
দেশে দেশে দিগে দিগে ক়র্মধাবা W.
অজস্র WHEN  ,
যেথা তূচ্ছ WW মবন্কালুবাশি..
বিচাপেংৱবচা.. Wm ফেঁলে নাই W’? -
পৌক়যেপেংৱ.. ক্যধ্দী শতু ৩ থা, নিত্যু w যেথা
তূমি W’ ক়র্ম-ধিঃট্ভদ্ভআনভ্রেৰ্দ লেভ্রা
নিজ m নিঃদযর্র আঘাত কবি পিতঃ,
ভ্যুবভ্রেযের্র৩. সেই ‘W? ক্যবা WW | |

ইনভার ভাই, আপনাকে অনেক ধন্যবাদ। বুঝতে পারলাম কাজটা আমাকেই করতে হবে। বাট কিভাবে শুরু করবো বুঝতে পারছি না। আর কোন লিঙ্ক আছে?

সর্বশেষ সম্পাদনা করেছেন মেরাজ০৭ (২৩-০৭-২০১৪ ২০:৪৩)

Re: বাংলা OCR কি আছে?

আচ্ছা ট্রেইন করানো কঠিন কেন এই ২০১৪ সালে যেখানে ফেসবুক ফেস ডিটেকশন এলগরিদম চেহারা চিনে ফেলছে সেখানে সিম্পল টাইপফেসের গ্লীফ চিনতে একটা সফটওয়ায়ের else এর ঘাম if  এ গিয়ে পড়ছে?

http://i.imgur.com/i2YJBDj.png

এম. মেরাজ হোসেন
IQ: 113
http://www.iq-test.cc/badges/4774105_3724.png

সর্বশেষ সম্পাদনা করেছেন সদস্য_১ (২৩-০৭-২০১৪ ২১:৫৮)

Re: বাংলা OCR কি আছে?

মেরাজ০৭ লিখেছেন:

আচ্ছা ট্রেইন করানো কঠিন কেন এই ২০১৪ সালে যেখানে ফেসবুক ফেস ডিটেকশন এলগরিদম চেহারা চিনে ফেলছে সেখানে সিম্পল টাইপফেসের গ্লীফ চিনতে একটা সফটওয়ায়ের else এর ঘাম if  এ গিয়ে পড়ছে?

মুল সমস্যা হল বাংলা একটা যুক্ত বর্ন ভাষা। একটা শব্দের মধ্যে বর্নগুলো মাত্রা দিয়ে যুক্ত থাকে। এবং একেকটা বর্নের প্রস্থ একেক রকম। একই প্রস্থের ভেতরে দুটো বর্ন থাকে যেমন "কি" ছবিটর বাম দিক থেকে দেখলে "ক" বর্নের শুরু "ি" বর্নের শেষ হওয়ার আগেই। তার উপর যুক্তবর্ন তো আছেই! তাই প্রতিটা বর্নকে আলাদা করা কঠিন। আপনার মস্তিস্ক "জ্ঞান" থেকে "জ্ঞ" যত সহজে আলাদা করল কম্পিউটার সেটা করতে পারেনা।

কম্পিউটারভিশনে ফেস আইডেন্টিফাই করার জন্য যে এলগরিদম ব্যাবহার করা হয় ওরকম এলগরিদম দিয়ে কাজটা অনায়াসে করা যায়। কিন্তু ওসিআরএ ঐ এলগরিদম ব্যাবহার করা হয়না। কারন ওই এলগরিদম গুলো অনেক সময় সাপেক্ষ। সেটা করলে একটা পেজ রিড করতে ঘন্টার পর ঘন্টা লাগবে!

১০

Re: বাংলা OCR কি আছে?

বাংলাওসিআর(BanglaOCR) অ্যান্ড্রয়োড দারুন কাজ করে