Free Bengali OCR — বাংলা PDF to Text
Free Bengali OCR for PDF and images. Recognizes Bangla বাংলা script used in Bangladesh and West Bengal. Browser-based, no upload required.
About Bengali OCR
বাংলা OCR — Bengali OCR extracts text written in the Bengali script (বাংলা লিপি), used by over 270 million speakers across Bangladesh and India (West Bengal, Tripura, Assam). The script has 11 vowels, 39 consonants, and complex conjunct forms (যুক্তাক্ষর) that require specialised recognition — including জ্ঞ, ক্ষ, ন্ধ, and 100+ other ligatures.
আমরা Tesseract 5 এর বাংলা LSTM মডেল ব্যবহার করি — বাংলাদেশ সরকারি নথি, ভারতীয় পশ্চিমবঙ্গ আইনি কাগজপত্র, সংবাদপত্র (প্রথম আলো, আনন্দবাজার পত্রিকা), এবং NCERT পাঠ্যপুস্তকের উপর প্রশিক্ষিত। সবকিছু আপনার ব্রাউজারে প্রক্রিয়া হয় — কোনো ফাইল আপলোড হয় না। 100% ফ্রি, সাইন-আপ ছাড়া, জলছাপ নেই।
How to Use Free Bengali OCR — বাংলা PDF to Text
- Step 1: আপনার বাংলা PDF বা ছবি ড্রপ করুন (multi-page scans supported)
- Step 2: Bengali (বাংলা) is pre-selected as the OCR language
- Step 3: Add English as secondary for bilingual documents (very common)
- Step 4: "নিষ্কাশন" ক্লিক করুন — Bengali script recognised page-by-page
- Step 5: টেক্সট কপি করুন বা .docx / searchable PDF ডাউনলোড করুন
Key Features
- Full Bengali alphabet — 11 vowels (অ আ ই ঈ উ ঊ ঋ এ ঐ ও ঔ), 39 consonants (ক-হ)
- Conjunct ligatures (যুক্তাক্ষর) — জ্ঞ ক্ষ ন্ধ ষ্ট ঞ্চ and 100+ others
- Bengali numerals (০-৯) alongside Arabic numerals
- Supports both Bangladesh orthography and West Bengal variants
- Assamese script (very similar) works with Bengali model at ~90% accuracy
- Mixed Bengali-English — common in academic and government documents
- In-browser only — জাতীয় পরিচয়পত্র (NID), আধার কার্ড, চুক্তি never upload
How We Compare
Compared to desktop alternatives like Adobe Acrobat Pro (starting at $19.99/month), Smallpdf ($12/month for unlimited), or iLovePDF ($9/month Premium), PDF AI Tools delivers comparable quality at $0 for the core feature set. We skip the subscription friction by processing most operations directly in your browser with WebAssembly — no server infrastructure costs to pass on to users. Our AI features (summarization, chat, OCR) use a pay-as-you-go backend that keeps your total cost well under $5/month even for power users.
Frequently Asked Questions
হাতে লেখা বাংলা কি পড়তে পারে?
না. Tesseract Bengali model supports only printed text. Handwritten Bengali is not reliably recognised — specialised handwriting models are on our roadmap.
Can it OCR Assamese documents?
Yes, at ~88-92% accuracy. Assamese script is nearly identical to Bengali with only 2 unique letters (ৰ and ৱ). For dedicated Assamese OCR, we have a separate model in development.
যুক্তাক্ষর কি সঠিকভাবে চিনতে পারে?
হ্যাঁ। Most common conjuncts (জ্ঞ, ক্ষ, ন্ধ, ষ্ট) recognise at 92-95% accuracy. Rare conjuncts (40+ letter combinations) and archaic forms (pre-1950 texts) may drop to 80-85%.
How accurate on Bangladesh/West Bengal newspapers?
Clean printed Bengali newspapers (প্রথম আলো, কালের কণ্ঠ from Bangladesh; আনন্দবাজার, বর্তমান from West Bengal) reach 92-95% accuracy. Older papers printed pre-1990 with lithograph presses drop to 82-88%.
আমার ব্যক্তিগত নথি নিরাপদ?
সম্পূর্ণ নিরাপদ। সব OCR আপনার ব্রাউজারে চলে — জাতীয় পরিচয়পত্র, পাসপোর্ট, ব্যাংক স্টেটমেন্ট কখনো আমাদের সার্ভারে আপলোড হয় না। Privacy guaranteed by architecture.
Who Uses This Tool
- বাংলাদেশী আইনজীবী digitising Bengali legal contracts and court filings
- West Bengal students extracting text from বাংলা পাঠ্যপুস্তক (Bengali textbooks)
- Researchers processing classical Bengali literature (রবীন্দ্রনাথ, নজরুল) archives
- Government translators working with সরকারি গেজেট (official gazettes)
- Journalists converting Bangladesh / Kolkata newspaper archives to searchable text