Google OCR
গুগল ড্রাইভের একটা বিল্ট-ইন OCR আছে যার মাধ্যমে আমরা পিডিএফ বা ইমেজ থেকে টেক্সট উদ্ধার করতে পারি।
- প্রথমত, আপনাকে গুগল ড্রাইভের সেটিংসে গিয়ে Convert uploads সেকশনে Convert uploaded files to Google Docs editor format অপশনে টিক দিতে হবে।
- গুগলে বড় ফাইল আপলোড করলে শুধু প্রথম কয়েকপাতা কনভার্ট করে। এজন্য আমরা ফাইলটির প্রত্যেক পেজকে একটি করে ফাইল বানাতে পারি। এরজন্য আমরা লিনাক্সসিস্টেমে দুইধাপে কাজ করতে পারি:
- একটা ফোল্ডার তৈরী করুন, তাতে পিডিএফ ফাইলটি রাখুন।
cd
কমান্ড দিয়ে সেই ফোল্ডারে যান। - তারপর ফাইলটি থেকে প্রতিপেজের pdf বানাতে পারি এভাবে:
pdftk filename.pdf burst
- মূল ফাইলটি ডিলিট করুন।
- একটা ফোল্ডার তৈরী করুন, তাতে পিডিএফ ফাইলটি রাখুন।
- এবার ফোল্ডারটি আমরা গুগল ড্রাইভে আপলোড করবো।
- এবার পাতাগুলো গুগল ডক দিয়ে খুললে প্রত্যেক পেজের উপরে ছবি আর নীচে এক্সট্রাক্ট করা টেক্সট পাওয়া যাবে।
উল্লেখ্য, এই OCR একেবারে নির্ভুল না। তবে টাইপ করার সময় বাঁচবে। প্রুফরিডিংও খুব একটা ঝামেলার না।