Vikatan.com

www.vikatan.com would like to send you push notifications.

Notifications can be turned off anytime from browser settings.

புதிதாய் படிக்கலாம் பழைய புத்தகங்களை... ஓ.சி.ஆர் சொல்லும் ரகசியம்! (கம்ப்யூட்ராலஜி தொடர்- 5)


இமேஜ் எழுத்துக்கள்

நேற்று எனக்கு ஒருவர் போன் செய்தார். என் புத்தகங்கள், சிடிக்கள் மூலமாக நிறைய கற்றுக்கொண்டதாக கூறிய அவர், தற்போது  வெப்சைட்டுகளை வடிவமைக்கும் அளவுக்கு தொழில்நுட்பத்தில் முன்னேறி இருப்பதாகவும் சொல்லி மகிழ்ந்தார். பேச்சினிடையே தன்னிடம் ஏராளமான ஸ்கேன் செய்த டாக்குமெண்ட்டுகள் இருப்பதாகவும், அவற்றை மீண்டும் டைப் செய்யாமல் எழுத்துக்களாக மாற்ற முடியுமா என்று கேட்டார். அவரின் சந்தேகத்துக்கு நான் கொடுத்த விளக்கம்தான் OCR.

நாங்கள் பல வருடங்களாக இந்தத் தொழில்நுட்பத்தைப் பல விதங்களில் எங்கள் நிறுவனப் பணிகளுக்கு பயன்படுத்தி வருகிறோம். புத்தகங்களை வடிவமைக்க உதவும் டிடிபி தொழில்நுட்பத்துக்கு முந்தையகாலத்தில் பிரின்ட் செய்த புத்தகங்களுக்கு கம்ப்யூட்டரில் சோர்ஸ் ஃபைல் இருக்காது அல்லவா? அந்தப் புத்தகங்களை ஸ்கேன் செய்து இமேஜ் ஃபைல்களாக பதிவு செய்து, மீண்டும் அவற்றை டாக்குமென்ட் ஃபைல்களாக மாற்றி இ-கன்டன்ட் மற்றும் இ-புத்தகங்களை உருவாக்கி இருக்கிறோம்.

இந்தியில் உள்ள புத்தகங்களை OCR மூலம் டாக்குமென்ட் ஃபைலாக மாற்றம் செய்து, அவற்றைப் பயன்படுத்தி இந்தி மொழியிலேயே வெப்சைட்டை வடிவமைத்திருக்கிறோம்.

OCR என்றால் என்ன?

OCR என்பது Optical Character Recognition. OCR மூலம் ஸ்கேன் செய்த இமேஜ் ஃபைல்களை நாம் எடிட் செய்யும் டாக்குமெண்ட் ஃபைல்களாக மாற்ற முடியும். அதாவது நாம் நேரடியாக மாற்றம் செய்ய முடியாத இமேஜ்களில் உள்ள எழுத்துக்களை, OCR தொழில்நுட்பத்தைப் பயன்படுத்தி அவற்றை டாக்குமென்ட் ஃபைல்களாக மாற்றம் செய்துகொண்டால் அவை டைப் செய்த தகவல்களாக மாறிவிடும். அதில் தேவையான மாற்றங்களை செய்துகொள்ளலாம். புதிதாக டைப் செய்து இணைக்கலாம். தேவை இல்லாதவற்றை நீக்கிக்கொள்ளலாம்.

கூகுள் டிரைவ் கொடுக்கும் OCR வசதி


சுமார் 248 உலக மொழிகளில் பயன்படுத்தப்படும் கூகுளில் OCR தொழில்நுட்பம் பெரும்பாலான இந்திய மொழிகளுக்கும் சப்போர்ட் செய்கிறது என்பது குறிப்பிடத்தக்கது.  கூகுள் நிறுவனத்தின் OCR தொழில் நுட்பம் மூலம், .JPG, .PNG, .GIF போன்ற இமேஜ் ஃபைல்களை தனித்தனியாகவோ அல்லது PDF ஃபைல்களில் உள்ள இமேஜ் ஃபைல்களை, ஒட்டு மொத்தமாகவோ டெக்ஸ்ட் டாக்குமென்ட்டுகளாகவோ மாற்ற செய்ய முடியும். அவற்றை நம் பிற பயன்பாடுகளுக்கு உபயோகப்படுத்துவதற்கு  முன்னர், ஒருமுறை புரூஃப் பார்த்துக்கொள்வது சிறந்தது. ஏனெனில் ஓரிரு எழுத்துக்கள் சரியாக மாற்றம் அடையாமல் இருக்கலாம். 

OCR மூலம் கன்வெர்ட் செய்ய பயன்படுத்தப்படும் இமேஜ் ஃபைல்களுக்கு,  கூகுள் சில விதிமுறைகளைக் கொடுத்துள்ளது.

* இமேஜ் ஃபைல்கள், ஸ்கேன் செய்யப்பட்டவையாக இருக்கலாம்.


* டிஜிட்டல் கேமிரா அல்லது மொபைலில் புகைப்படம் எடுத்ததாகவும் இருக்கலாம்.


* ஹை-ரெசல்யூஷன் (High Resolution)  இமேஜ் ஃபைல்களாக இருக்க வேண்டும்.


* ஃபைலின் அளவு 2 MB ஆக இருக்க வேண்டும்.


* அதிகபட்சம் 10 பக்கங்கள் கொண்ட PDF ஃபைல்கள் 


* இமேஜ்கள் நீளவாக்கிலோ (Portrait)  அல்லது அகலவாக்கிலோ (Landscape),  ஒரே திசையில் (Orientation) இருக்க வேண்டும். 10 பக்கங்கள் கொண்ட PDF ஃபைல்களாக இருந்தால்  அத்தனை பக்கங்களும் ஒரே திசையில் இருந்தால்தான், அவை பிழையின்றி டெக்ஸ்ட் டாக்குமென்ட்டாக மாற்றம் செய்யப்படும்.

கூகுள் டிரைவின் OCR தொழில்நுட்பத்தைப் பயன்படுத்துவது எப்படி?

drive.google.com என்ற வெப்சைட் மூலம் கூகுளில் சைன் இன் செய்துகொள்ள வேண்டும்.
 

இப்போது கூகுள் டிரைவின் வெப்சைட் வெளிப்படும். இதில் My drive என்ற விவரத்தின் மீது மவுசின் பாயின்ட்டரை வைத்து வலப்புற பட்டனால் கிளிக் செய்தால் சிறிய பாப்-அப் விண்டோ கிடைக்கும். அதில் Upload Files… என்ற விவரத்தை கிளிக் செய்துகொள்ள வேண்டும்.

இப்போது தேவையான ஃபைலை நம் கம்ப்யூட்டரில் இருந்து அப்லோட் செய்துகொள்ள வேண்டும். உதாரணத்துக்கு, இங்கு Preface13.JPG என்ற ஃபைலை அப்லோட் செய்துள்ளோம். இந்த இமேஜில் உள்ள தகவல்கள் இந்தி மொழியில் உள்ளன.
 

இந்த ஃபைல் மீது மவுசின் பாயின்ட்டரை வைத்து வலப்புற பட்டனால் கிளிக் செய்தால் கிடைக்கும் விண்டோவில் Open with > Google Docs என்ற மெனுவிவரத்தை தேர்ந்தெடுத்துக்கொள்ள வேண்டும்.

உடனடியாக அந்த ஃபைல் கூகுள் டாக்குமென்ட் சாஃப்ட்வேரில் திறக்கப்படும். அதில் மேல்பக்கம் நாம் தேர்ந்தெடுத்த இமேஜ் ஃபைல் வெளிப்பட்டிருக்கும். அதன் கீழ் டாக்குமென்ட்டாக மாற்றம் அடைந்த ஃபைல் வெளிப்பட்டிருக்கும். இமேஜ் ஃபைலை கிளிக் செய்து டெலிட் செய்துகொள்ளலாம்.

உதாரணத்துக்கு, இமேஜ் ஃபைலில் உள்ள தமிழ் மொழித் தகவல்களை டாக்குமெண்ட் ஃபைலாக மாற்றியுள்ளதை பார்வையிடவும்.

இப்படி மாற்றம் செய்த டாக்குமெண்ட் ஃபைல்களை, கூகுள் டிரைவில் இருந்தபடியே தேவையான நபர்களுக்கு இமெயிலில் அனுப்பலாம். சமூக வலைத்தளங்களில் ஷேர் செய்துகொள்ளலாம் அல்லது கூகுள் டிரைவில் இருந்து நம் கம்ப்யூட்டருக்கு டவுன்லோட் செய்துகொள்ளலாம்.

குறிப்பு

* இந்த உதாரணத்தில் இந்தி மற்றும் தமிழ் மொழியில் ஸ்கேன் செய்யப்பட்ட இமேஜ் ஃபைல்களை டாக்குமென்ட் ஃபைல்களாக மாற்றம் செய்து விளக்கி உள்ளேன். இதைப்போல, இமேஜ் ஃபைல்களில் உள்ள தகவல்கள்  எந்த மொழியில் இருந்தாலும் அவற்றை டாக்குமென்ட் ஃபைல்களாக மாற்றம் செய்து பயன்படுத்த முடியும். தற்சமயம் 248 உலக மொழிகளுக்கு கூகுள் OCR சப்போர்ட் செய்கிறது.

* PDF ஃபைலில் உள்ள முழு புத்தகத்தையும் டாக்குமெண்ட் ஃபைலாக மாற்றம் செய்யும் ஆராய்ச்சிகள் நடைபெற்று வருகின்றன.

ஓரிருவர் ஆராய்ச்சி வெர்ஷனில் அவற்றை வெளியிட்டும் இருக்கிறார்கள்.

* லோ-ரெசல்யூஷனில் ஸ்கேன் செய்யப்பட்ட அல்லது புகைப்படமெடுக்கப்பட்ட இமேஜ்களையும், மிகப் பழைய காகிதங்களில் உள்ள தகவல்களை ஸ்கேன் செய்யப்பட்ட இமேஜ்களையும் தவறின்றி டாக்குமெண்ட் ஃபைல்களாக மாற்றம் செய்யும் முயற்சிகளும் எடுக்கப்பட்டு வருகின்றன.

Disclaimer


இந்தக் கட்டுரையில் பயன்படுத்தியுள்ள சாஃப்ட்வேரின் தயாரிப்பாளர்களுடைய விதிமுறைகளுக்கு உட்பட்டு இந்த கட்டுரை தயார் செய்யப்பட்டுள்ளது. வெப்சைட்டிலும், சாஃப்ட்வேரிலும், கட்டணத்திலும் அவர்கள் எப்போது வேண்டுமானாலும் மாற்றங்கள் செய்யலாம் என்பதை நினைவில் கொள்ளவும். 

- காம்கேர் கே. புவனேஸ்வரி

 

இந்த தொடரின் முந்தைய அத்தியாயங்களை படிக்க இங்கு கிளிக் செய்யவும்...

எடிட்டர் சாய்ஸ்

MUST READ