தாமஸ் எடிசன் 19-ம் நூற்றாண்டில் கண்டறிந்த போனோகிராப் கருவியில் பதிந்த ‘Mary had a little lamb’ என்ற நர்சரிப் பாடலைப் பதிவு செய்து மீண்டும் இசைத்த நிகழ்வில் தொடங்கியது இந்தத் தொழில்நுட்பம். 20-ம் நூற்றாண்டின் தொடக்கத்தில் தலையை லேசாக சாய்த்தபடி கிராமபோனில் இருந்து வரும் சத்தத்தைக் கூர்ந்து கேட்கும் நாய்ப் படம் பிரசித்தமானது. தன் எஜமானரின் குரல் எப்படி அந்த சிலிண்டரிலிருந்து வருகிறது என்பதை ஆச்சர்யமாகப் பார்க்கும் அந்த நாயின் படத்துடன் இருக்கும் `His Master’s Voice’ என்பது விளம்பர வரலாற்றில் பதிந்துவிட்ட பதம். வட்ட வடிவிலான ரெக்கார்டில் இருந்து, டேப், கேசட், சிடி என ஃபாஸ்ட் பார்வர்டாகி இணையத்திற்குள் புகுந்த ஒலி, அங்கிருந்து பெரும்பாலும் நேரடியாகவோ, தரவிறக்கம் செய்யப்பட்டோ நுகரப்படுகிறது. இணையத்தின் இணைப்பு வேகம் அதிகரிக்க, பாட்காஸ்ட் (Podcast) போன்ற ஊடக வடிவங்கள் பிரபலமாகிவருவது இயல்பானதுதான்.

மனிதர்களின் பேச்சுகளை எந்திரத்தால் அடையாளம் கொண்டு, புரிதலுடன் பதிலளிப்பது என்பது செயற்கை அறிவுப் பிரிவின் `இயற்கை மொழிப் புரிதல்’ (NLP - Natural Language Processing) என்பதன் உப பகுதியான `பேச்சு அடையாளம்’ (Speech Recognition) எனச் சொல்லலாம்.

பரிசோதனை அளவில் இருந்த ஆராய்ச்சிகளை வணிகப்படுத்தும் முயற்சியில் முதலில் வெற்றி பெற்றது ஆப்பிள். சிரி ( Siri ) என்ற பெயர் கொண்ட அலை மென்பொருளை வாங்கி ஐபோனின் ஒரு உள்ளடக்கிய அம்சமாக மாற்றியது. ``ஹே சிரி” என்றதும், ஆப்பிளின் பேச்சு அடையாளத் தொழில்நுட்பம் விழித்துக்கொண்டு, நீங்கள் சொல்வதைக் கேட்டு பதில்களைக் கொடுக்கிறது, அல்லது, கேட்டுக்கொள்ளப்படும் செயல்களைச் செய்ய எத்தனிக்கிறது. அதைத் தொடர்ந்து மைக்ரோசாப்ட் கோர்ட்டானா (Cortana) என்றும், அமேசான் அலெக்ஸா என்றதும் விழித்துக்கொள்ளும் எக்கோ (Echo) சாதனங்களையும், கூகுள் சிம்பிளாக `கூகுள் உதவியாளர்’ (Google Assistant) என்ற பெயரிலும் தங்கள் பேச்சு அடையாளத் தொழில்நுட்பங்களை வெளியிட்டன. தொடர்ந்து இவற்றில் மாறுதல்களைக் கொண்டு வந்தபடியே இருக்கின்றனர்.

நமது பேச்சை எப்படி ஒரு எந்திரத்தால் அடையாளம் கண்டுகொள்ள முடியும்? இதில் அடுத்த கட்ட முன்னேற்றங்கள் என்னவாக எல்லாம் இருக்கப்போகின்றன?

முதலில் அறிவியல், தொழில்நுட்ப அடிப்படைகள். உடல்மொழிக்குப் பின்னர் மனிதகுலம் பழகிப்போனது ஒலி வடிவிலான பேச்சு. பேச்சின் அடிப்படையான கூறுகளான வார்த்தைகள் அடிப்படையில் வெறும் ஒலி வடிவங்களே. அந்த ஒலி வடிவங்களைத் தகுந்த இடைவெளியுடன் கோத்து அமைக்கும்போது அது கேட்பவர்களுக்குப் புரியத் தொடங்குகிறது. மொழியின் தன்மையையும் தொன்மையையும், அது பேசப்படும் நிலப்பரப்பின் அளவையும் பொறுத்து பேச்சின் ஒலி மாறுபடும். அது மட்டுமல்லாமல், பேச்சு ஒலிவடிவில் இருக்கும்போது அதற்குப் பின்னால் சன்னமாக இருக்கும் - சுழலும் மின்விசிறி சத்தம், வெளியே கேட்கும் பேருந்திலிருந்து வரும் ஹாரன் போன்ற இரைச்சல்களை (noise) வடிகட்டிவிட்டு, தகவலை (Signal) மட்டுமே எடுக்க வேண்டியது அவசியம். மனித மூளைக்கு இதையெல்லாம் சரியாகப் புரிந்து கொண்டு கிரகித்து, செயலாக்கும் சக்தி இருக்கிறது.