টপিকঃ বাংলা OCR কি আছে?
নেটে কি কোন বাংলা OCR পাওয়া যায়? মানে কাজের মত? নেট থেকে দুইটা নামালাম, দুইটাই 10% এর মতো টেক্সট করতে পারে. 80% এর মত হলেও কথা ছিলো. মোবাইল দিয়ে টাইপ করছি. তাই ভুল হতে পারে.
আপনি প্রবেশ করেন নি। দয়া করে নিবন্ধন অথবা প্রবেশ করুন
প্রজন্ম ফোরাম » তথ্য ও যোগাযোগ প্রযুক্তি » ওপেন সোর্স ও বাংলা কম্পিউটিং » বাংলা OCR কি আছে?
নেটে কি কোন বাংলা OCR পাওয়া যায়? মানে কাজের মত? নেট থেকে দুইটা নামালাম, দুইটাই 10% এর মতো টেক্সট করতে পারে. 80% এর মত হলেও কথা ছিলো. মোবাইল দিয়ে টাইপ করছি. তাই ভুল হতে পারে.
থাকলে অনেক খাটুনি হতে বেঁচে যেতাম ৷ আপনি পাইলে আমারেও দিয়েন ৷
ব্র্যাক বিশ্ববিদ্যালয় নাকি একটা ওসিআর বানিয়েছিল। ওটার আপডেট অবশ্য নাই।
ব্র্যাক বিশ্ববিদ্যালয় নাকি একটা ওসিআর বানিয়েছিল। ওটার আপডেট অবশ্য নাই।
ওটা ইউজ করছিলাম কিন্তু ইউজেবল ছিল না তারপর চরম স্লো, প্রডাকশন লেভেলের কিছু নাই নাই এখনো!
OCR বানানো কি খুব কষ্টের কোনো কাজ নাকি? জানিনা তাই অভিজ্ঞদের থেকে জানতে চাইছি।
OCR সফটওয়্যার তৈরী করাই আছে - tesseract OCR নামে চমৎকার একটি ওপেনসোর্স লাইব্রেরী আছে।
tesseract-এ বাংলা টেক্সট রিকগনাইজ করানোর জন্য সফটওয়্যারটাকে ট্রেনিং করাতে হয় - এ কাজটাই কেউ করছে না। সম্ভবতঃ ৮/১০ বছর আগে একজন ভারতীয় ডেভেলপার বাংলা tesseract নিয়ে কিছু কাজ করেছিলেন - তারপরে আর খুব বেশি উন্নয়ন সম্ভবতঃ হয় নি। যতদূর মনে পড়ে ওই বাংলা OCR-টা শুধুমাত্র পুরণো আমলের বিলুপ্ত মুভেবল টাইপ টেকনোলজীর কিছু টাইপফেস চিনতে পারতো। কিন্তু আধুনিক (ডিজিটাল) বাংলা ফণ্ট রেকগনাইজ করতে পারে না। তারওপর ওটার আউটপুট ছিলো ASCII - ডকুমেণ্ট পড়ার জন্য বিজয় ফণ্টগুলো ইনস্টল থাকা লাগে।
ওই ৭/৮ বছর আগের tesseract indic ডেটা ফাইলটাই কপিপেস্ট করে অনেকে দেশের ফাশঠ এ্যাণ্ঢ ফত্তম উগাবুগা বাংলা ওছিয়্যার ছোফঠউয়ের তৈয়ার করে ফেলে। প্রজন্ম ফোরামেই এরকম একটা এ্যানাউন্সমেণ্ট ছিলো সম্ভবতঃ
OCR ট্রেনিং কঠিন না হলেও বেশ পরিশ্রমের কাজ। নীচের লিংকগুলোয় ঢুঁ মারতে পারেনঃ
http://vietocr.sourceforge.net/training.html
http://michaeljaylissner.com/blog/addin … ocr-engine
এইটার আউটপুট=
র্মি যেথা তুযদ্ভুণ্সা৩.
-ব্ৰীড়্গা.থ mm
র্মি যেথা W, উঢচঁ যেথা শিব
w যেথা T, যেথা গৃৰ্থে প্ৰাচীব চঁ .
আপন NWT? ৩ গোঁ র্তৃব্বিসখঃ স -ৰ্শরীংধিঃ
বসুধাপেংব W. নাই খন্ড w? কবি
যেথা W? হৃদফোঁ উংসন্নুখ হতে
উচ্ছাসিযা উঠে, যেথা নিবার্মি/৩ cm?
দেশে দেশে দিগে দিগে ক়র্মধাবা W.
অজস্র WHEN ,
যেথা তূচ্ছ WW মবন্কালুবাশি..
বিচাপেংৱবচা.. Wm ফেঁলে নাই W’? -
পৌক়যেপেংৱ.. ক্যধ্দী শতু ৩ থা, নিত্যু w যেথা
তূমি W’ ক়র্ম-ধিঃট্ভদ্ভআনভ্রেৰ্দ লেভ্রা
নিজ m নিঃদযর্র আঘাত কবি পিতঃ,
ভ্যুবভ্রেযের্র৩. সেই ‘W? ক্যবা WW | |
ইনভার ভাই, আপনাকে অনেক ধন্যবাদ। বুঝতে পারলাম কাজটা আমাকেই করতে হবে। বাট কিভাবে শুরু করবো বুঝতে পারছি না। আর কোন লিঙ্ক আছে?
আচ্ছা ট্রেইন করানো কঠিন কেন এই ২০১৪ সালে যেখানে ফেসবুক ফেস ডিটেকশন এলগরিদম চেহারা চিনে ফেলছে সেখানে সিম্পল টাইপফেসের গ্লীফ চিনতে একটা সফটওয়ায়ের else এর ঘাম if এ গিয়ে পড়ছে?
আচ্ছা ট্রেইন করানো কঠিন কেন এই ২০১৪ সালে যেখানে ফেসবুক ফেস ডিটেকশন এলগরিদম চেহারা চিনে ফেলছে সেখানে সিম্পল টাইপফেসের গ্লীফ চিনতে একটা সফটওয়ায়ের else এর ঘাম if এ গিয়ে পড়ছে?
মুল সমস্যা হল বাংলা একটা যুক্ত বর্ন ভাষা। একটা শব্দের মধ্যে বর্নগুলো মাত্রা দিয়ে যুক্ত থাকে। এবং একেকটা বর্নের প্রস্থ একেক রকম। একই প্রস্থের ভেতরে দুটো বর্ন থাকে যেমন "কি" ছবিটর বাম দিক থেকে দেখলে "ক" বর্নের শুরু "ি" বর্নের শেষ হওয়ার আগেই। তার উপর যুক্তবর্ন তো আছেই! তাই প্রতিটা বর্নকে আলাদা করা কঠিন। আপনার মস্তিস্ক "জ্ঞান" থেকে "জ্ঞ" যত সহজে আলাদা করল কম্পিউটার সেটা করতে পারেনা।
কম্পিউটারভিশনে ফেস আইডেন্টিফাই করার জন্য যে এলগরিদম ব্যাবহার করা হয় ওরকম এলগরিদম দিয়ে কাজটা অনায়াসে করা যায়। কিন্তু ওসিআরএ ঐ এলগরিদম ব্যাবহার করা হয়না। কারন ওই এলগরিদম গুলো অনেক সময় সাপেক্ষ। সেটা করলে একটা পেজ রিড করতে ঘন্টার পর ঘন্টা লাগবে!
প্রজন্ম ফোরাম » তথ্য ও যোগাযোগ প্রযুক্তি » ওপেন সোর্স ও বাংলা কম্পিউটিং » বাংলা OCR কি আছে?
০.০৬৩০১৩০৭৬৭৮২২২৭ সেকেন্ডে তৈরী হয়েছে, ৮১.৫২৭৬৪৩৭৯৩৩২৩ টি কোয়েরী চলেছে