Published:Updated:

UNLOCK அறிவியல் 2.O - 3

UNLOCK அறிவியல் 2.O
பிரீமியம் ஸ்டோரி
News
UNLOCK அறிவியல் 2.O

அண்டன் பிரகாஷ்

மூளையில் ஆரம்பித்த இந்தத் தொடரில் சென்ற வாரம் கண்களைப் பற்றிப் பார்த்தோம். சற்றே பின்னால் போய் காதுகளின் செவித்திறன் பற்றிய அறிவியல், புதுமையாக்க மற்றும் தொழில்நுட்ப முனைவுகளை இந்த வாரத்தில் அலசலாம்.

ஒரு முன் குறிப்பு : இந்த வாரக் கட்டுரை முழுவதையும் கூகுள் வாய்ஸ் டு டெக்ஸ்ட் தொழில் நுட்பத்தை மட்டுமே பயன்படுத்தி அலைபேசியில் எழுதலாம் என முடிவு செய்திருக் கிறேன். இந்தப் பாராவை எழுதும்போது எடுத்த காணொலியை கீழே இருக்கும் லிங்கில் இணைத்திருக்கிறேன். இப்படி `எழுத’ முயல்வதற்கு முக்கிய காரணம் - கொரோனா லாக்டௌன் காலத்தில் நடைப் பயிற்சி மட்டுமே உடற்பயிற்சி என ஆகிவிட்ட நிலையில், புத்தகங்களை எழுத்து வடிவில் படிப்பதைவிட ஆடியோ வடிவில், நடந்து கொண்டே கேட்கும் பழக்கம் அதிகமாகியிருக்கிறது. கேட்க மட்டும்தான் முடியுமா, எழுத முடியாதா என்று வந்த விபரீத ஆசையில் தொடர்கிறேன்.

பை தி வே, vikatan.com தளத்தில் பதிவாகும் கட்டுரைகளை உங்களுக்கு ஆடியோவாகக் கேட்க வசதி இருக்கிறது. அது பரிசோதனை வடிவில் இப்போதைக்கு இருந்தாலும், ஆடியோ வடிவில் தகவல் நுகர்வு சென்றுகொண்டி ருப்பதற்கு அது மற்றொரு நல்ல உதாரணம்.

ஒலி மற்றும் மொழித் தொழில்நுட்பத்தை எடுத்துக் கொண்டால், அதை இரண்டு விதமாகப் பிரித்துப் பார்க்கலாம். ஒன்று, ஒலியைப் பதிவாக்கிப் பரப்புவது. மற்றது, ஒலியை உள்வாங்கிப் புரிந்துகொண்டு அதன்படி செயல்படுவது.

UNLOCK அறிவியல் 2.O - 3

தாமஸ் எடிசன் 19-ம் நூற்றாண்டில் கண்டறிந்த போனோகிராப் கருவியில் பதிந்த ‘Mary had a little lamb’ என்ற நர்சரிப் பாடலைப் பதிவு செய்து மீண்டும் இசைத்த நிகழ்வில் தொடங்கியது இந்தத் தொழில்நுட்பம். 20-ம் நூற்றாண்டின் தொடக்கத்தில் தலையை லேசாக சாய்த்தபடி கிராமபோனில் இருந்து வரும் சத்தத்தைக் கூர்ந்து கேட்கும் நாய்ப் படம் பிரசித்தமானது. தன் எஜமானரின் குரல் எப்படி அந்த சிலிண்டரிலிருந்து வருகிறது என்பதை ஆச்சர்யமாகப் பார்க்கும் அந்த நாயின் படத்துடன் இருக்கும் `His Master’s Voice’ என்பது விளம்பர வரலாற்றில் பதிந்துவிட்ட பதம். வட்ட வடிவிலான ரெக்கார்டில் இருந்து, டேப், கேசட், சிடி என ஃபாஸ்ட் பார்வர்டாகி இணையத்திற்குள் புகுந்த ஒலி, அங்கிருந்து பெரும்பாலும் நேரடியாகவோ, தரவிறக்கம் செய்யப்பட்டோ நுகரப்படுகிறது. இணையத்தின் இணைப்பு வேகம் அதிகரிக்க, பாட்காஸ்ட் (Podcast) போன்ற ஊடக வடிவங்கள் பிரபலமாகிவருவது இயல்பானதுதான்.

மனிதர்களின் பேச்சுகளை எந்திரத்தால் அடையாளம் கொண்டு, புரிதலுடன் பதிலளிப்பது என்பது செயற்கை அறிவுப் பிரிவின் `இயற்கை மொழிப் புரிதல்’ (NLP - Natural Language Processing) என்பதன் உப பகுதியான `பேச்சு அடையாளம்’ (Speech Recognition) எனச் சொல்லலாம்.

பரிசோதனை அளவில் இருந்த ஆராய்ச்சிகளை வணிகப்படுத்தும் முயற்சியில் முதலில் வெற்றி பெற்றது ஆப்பிள். சிரி ( Siri ) என்ற பெயர் கொண்ட அலை மென்பொருளை வாங்கி ஐபோனின் ஒரு உள்ளடக்கிய அம்சமாக மாற்றியது. ``ஹே சிரி” என்றதும், ஆப்பிளின் பேச்சு அடையாளத் தொழில்நுட்பம் விழித்துக்கொண்டு, நீங்கள் சொல்வதைக் கேட்டு பதில்களைக் கொடுக்கிறது, அல்லது, கேட்டுக்கொள்ளப்படும் செயல்களைச் செய்ய எத்தனிக்கிறது. அதைத் தொடர்ந்து மைக்ரோசாப்ட் கோர்ட்டானா (Cortana) என்றும், அமேசான் அலெக்ஸா என்றதும் விழித்துக்கொள்ளும் எக்கோ (Echo) சாதனங்களையும், கூகுள் சிம்பிளாக `கூகுள் உதவியாளர்’ (Google Assistant) என்ற பெயரிலும் தங்கள் பேச்சு அடையாளத் தொழில்நுட்பங்களை வெளியிட்டன. தொடர்ந்து இவற்றில் மாறுதல்களைக் கொண்டு வந்தபடியே இருக்கின்றனர்.

நமது பேச்சை எப்படி ஒரு எந்திரத்தால் அடையாளம் கண்டுகொள்ள முடியும்? இதில் அடுத்த கட்ட முன்னேற்றங்கள் என்னவாக எல்லாம் இருக்கப்போகின்றன?

முதலில் அறிவியல், தொழில்நுட்ப அடிப்படைகள். உடல்மொழிக்குப் பின்னர் மனிதகுலம் பழகிப்போனது ஒலி வடிவிலான பேச்சு. பேச்சின் அடிப்படையான கூறுகளான வார்த்தைகள் அடிப்படையில் வெறும் ஒலி வடிவங்களே. அந்த ஒலி வடிவங்களைத் தகுந்த இடைவெளியுடன் கோத்து அமைக்கும்போது அது கேட்பவர்களுக்குப் புரியத் தொடங்குகிறது. மொழியின் தன்மையையும் தொன்மையையும், அது பேசப்படும் நிலப்பரப்பின் அளவையும் பொறுத்து பேச்சின் ஒலி மாறுபடும். அது மட்டுமல்லாமல், பேச்சு ஒலிவடிவில் இருக்கும்போது அதற்குப் பின்னால் சன்னமாக இருக்கும் - சுழலும் மின்விசிறி சத்தம், வெளியே கேட்கும் பேருந்திலிருந்து வரும் ஹாரன் போன்ற இரைச்சல்களை (noise) வடிகட்டிவிட்டு, தகவலை (Signal) மட்டுமே எடுக்க வேண்டியது அவசியம். மனித மூளைக்கு இதையெல்லாம் சரியாகப் புரிந்து கொண்டு கிரகித்து, செயலாக்கும் சக்தி இருக்கிறது.

UNLOCK அறிவியல் 2.O - 3

அடிப்படையில் ஒலி என்பதை அலை வடிவில் (Wave form) பதிய வைக்கமுடியும். ஆடியோ ப்ளேயர்களில் பாடல்கள் கேட்கும்போது அலைவடிவம் துடித்து மேலும் கீழும் செல்வதைப் பார்த்திருப்பீர்கள்தானே? அந்தக் கணத்தில் அந்த ப்ளேயர் வெளியிடும் சத்தத்தின் அளவுதான் அப்படி அலை வடிவில் தெரிகிறது.

நீங்கள் “மிளகு ரசம் காரம்” என்று ஏதோ ஒரு வாக்கியத்தைச் சொல்லும்போது, அதன் அலை வடிவத்தை அப்படியே எண் வடிவில் மாற்றுவது முதல் ஸ்டெப். வளைந்தும், நெளிந்தும் இருக்கின்ற அலைவடிவை எண்ணாக மாற்றப் பயன்படும் உத்தி எளிதானது. அலைவடிவின் நடுக்கோட்டில் இருந்து வளைவுகள் செல்லும் புள்ளிகளின் தூரத்தை அளந்துகொண்டு பதிந்து வைத்து எண் வரிசை ஒன்றை உண்டாக்கலாம், அல்லவா? இப்படிச் செய்வதன் மூலம் ஒரு மொழியில் இருக்கும் வார்த்தைகள் அனைத்தையும் எண் வடிவில் மாற்றி விடமுடியும். உதாரணத்திற்கு ‘மிளகு’ என்பதற்கு 122,14,19,-41,-36,2,48.... என வரிசையாகப் பல்லாயிர எண்கள்.

சிலரது குரல் மென்மையாகவும், சிலரது குரல் கடுமையாகவும் இருக்கும் என்பதால், இந்த எண்கள் மாறுபடுமே என்ற கேள்வி தோன்றினால், அது மிகவும் நியாயமான கேள்வியே. ஆம், எண்கள் மாறுபடும்; ஆனால், அந்த எண் வரிசையில் ஒவ்வொன்றிற்குமான இடைவெளி அப்படியேதான் இருக்கும். மிளகு என்பதை மெல்லிய குரலில் ஒரு குழந்தை சொன்னாலும், உச்சக்குரலில் பெரியவர் ஒருவர் கத்திச் சொன்னாலும், அலைவடிவம் கொடுக்கும் எண்களின் வரிசையில் இருந்து அந்த வார்த்தையைக் கண்டுபிடித்துவிடலாம். இப்படிக் கண்டுபிடிப்பதற்கு செயற்கை அறிவின் `தொடர் நரம்புப் பிணையம்’ ( Recurrent Neural Network) என்ற வழிமுறை கையாளப்படுகிறது. இது கிட்டத்தட்ட மூளை எப்படிச் செயல்படுகிறதோ அதை அப்படியே காப்பியடிக்கும் முயற்சிதான். மேற்கண்ட வாக்கியத்தின் முதல் இரண்டு எழுத்துகளான ‘மிள’ என்பதைக் கேட்டதுமே நமது மூளை அடுத்த எழுத்து ‘மிளகு’ என்றோ, ‘மிளகாய்’ என்றோதான்இருக்கும் என்பதை பிரபலமாகப் பயன்படுத்தப்படும் வார்த்தைப் பேழையிலிருந்து எடுத்து நிரப்பிவிடுகிறது. தொடர் நரம்புப் பிணையமும் அதுபோலவே அலை வடிவத்திலிருந்து மாற்றப்பட்ட எண் வரிசையிலிருந்து எழுத்தைக் கண்டுபிடித்து அதற்கு அடுத்ததாக எது இருக்கலாம் என்பதை சேமித்து வைக்கப்பட்டிருக்கும் எழுத்துகளின் எண் வரிசைகளிலிருந்து எடுத்து வார்த்தைகளாக்கிக்கொள்கிறது.

யூடியூபில் [CC] என்பதை அழுத்தினால், Closed Captioning என்ற நிகர்நேர பேச்சின் ஒலி வடிவங்கள் எழுத்துகளாகித் திரையில் தெரிவதைப் பார்த்திருப்பீர்கள்.

கார் ஓட்டும்போது “Call Ramki in Dallas” என்று சொன்னதும் உங்கள் கார் புளூடூத்துடன் இணைக்கப்பட்ட அலைபேசி, நீங்கள் டாலஸ் நகரில் இருக்கும் ராம்கியை அழைக்கச் சொல்கிறீர்கள் எனப் புரிந்துகொண்டு அந்த எண்ணை அழைக்கிறது.

தொடர் நரம்புப் பிணையம் மூலம் கட்டப்பட்டிருக்கும் பேச்சு அடையாளச் செயற்கை அறிவினாலேயே மேற்கண்ட மூன்று உதாரணங்களும் சாத்தியமாகின.

UNLOCK அறிவியல் 2.O - 3

இப்படி மொக்கையாக, சொல்வதை மட்டுமே புரிந்துகொள்ளத்தான் இந்தத் தொழில்நுட்பத்திற்கு முடியும் என நினைக்க வேண்டாம். நடந்து முடிந்த அமெரிக்க அதிபர் தேர்தலில் ட்ரம்ப், பைடன் இருவரும் செய்த விவாதங்களில் அவர்களது பேச்சுகளின் தொனியிலிருந்து அவர்கள் உண்மை சொல்கிறார்களா, மகிழ்ச்சியுடன் இருக்கிறார்களா போன்ற உணர்வு சம்பந்தப்பட்ட வற்றைக் கண்டறியும் பரிசோதனை முயற்சிகள் மேற்கொள்ளப்பட்டன. இங்கிலாந்தில் இருக்கும் ஜான், தனது ஆண்ட்ராய்டு போனைக் கையில் எடுத்து “ஹே கூகுள்” என்றதுமே, அந்தக் குரலின் தன்மையைப் புரிந்துகொண்டு “என்னாச்சு, சோகமாக இருப்பது போலிருக்கு; கோவிட் இரண்டாம் லாக்டௌன் செய்தி படித்ததுதான் காரணமாக இருக்கும். உனக்குப் பிடித்த பாடல் ஒன்று போடவா?” எனக் கேட்கக்கூடும்.

சரி, ஒலியின் அலை வடிவத்தில் மனிதர்கள் தத்தம் மொழிகளில் உருவாக்கும் வார்த்தைகள் உள்ளடங்கிய பேச்சு வடிவத்தை மட்டுமல்ல, தனக்குக் கேட்டுக்கொண்டிருக்கும் ஒலி வடிவங்கள் எதுவாகினும் அதை கிரகித்து, புரிந்துகொண்டு முடிவுகள் எடுக்கும் திறனை ஆழ்கற்றல் மூலம் கொண்டுவரலாம்.

``அதனால் என்ன பயன் அண்டன்?’’ என்று கேட்கிறீர்களா?

பெரும் பயன் இருக்கிறது. ஒரு உதாரணம் சொல்கிறேன். அமெரிக்காவின் ஒரு பெரும் சாபம் - அடிக்கடி நடக்கும் துப்பாக்கிச் சூடு சம்பவங்கள். அனுமதிக்கப்படாத இடங்களில் துப்பாக்கியிலிருந்து குண்டு ஒன்று புறப்பட்ட கணமே, அது எங்கே நடந்திருக்கிறது; எந்த வகைத் துப்பாக்கி என்பதை அறிய முடிந்தால் எவ்வளவு நன்றாக இருக்கும்? ஆழ்கற்றலைப் பயன்படுத்தும் அந்தத் தொழில்நுட்பம் பல நகரங்களுக்கு வந்துவிட்டது. ஓக்லாந்து நகரின் காவல்துறையின் அவசர அழைப்பு அறையில் ஒரு நாள் முழுதும் செலவழித்து அவர்கள் பயன்படுத்தும் தொழில்நுட்பங்களைப் பார்வையிட வாய்ப்பு கிடைத்தது.

இந்தப் பரிசோதனைத் தொழில்நுட்பம் எப்படி இயங்குகிறது என்பதை விவரித்துக் காட்டினார்கள்.

கட்டடக் கூரைகளிலும், தெரு விளக்குக் கம்பங்களிலும் இருக்கும் ஆடியோ சென்சார்கள் தொடர்ந்து நகரத்தின் ஒலிகளை உள்வாங்கியபடியே இருக்கிறது. துப்பாக்கிச்சூடு நடந்தால், அது துப்பாக்கிச் சூடு என்பதை உறுதி செய்துகொண்டு, தனக்கு அருகில் இருக்கும் சென்சார்கள் நிறுவப்பட்டிருக்கும் இடத்தை Triangulation எனப்படும் கணித வழிமுறையைப் பயன்படுத்தி, துல்லியமாக எந்த இடம் என்பதை அறிந்து காவல் அதிகாரி ஒருவர் அங்கே செல்வதற்காக அழைப்பையும் தயாரித்துவிடுகிறது. இதையெல்லாம் நடத்தி வைக்க எடுத்துக் கொள்ளும் நேரம் - அரை நொடி.

இந்த வாரக் கட்டுரைக்கான வலைப்பக்கம் : https://bit.ly/UnlockSeries03

- Logging in...