Slide 1 - INFITT

Download Report

Transcript Slide 1 - INFITT

கணினிவழித் தமிழ்ம ொழியொய்வில்
ம ொருள் யக்கம்
Ambiguities in Computer Assisted Tamil Language Processing
இல. சுந்தரம்
M.A(Tamil)., M.Sc(I.T)., MCA., M.Phil(Tamil)., MBA., (Ph.D)
துணைப்பேராசிரியர்
ஒருங்கிணைப்ோளர்,
கணினித்தமிழ்க் கல்வி
தமிழ்ப்பேராயம்
SRM ேல்கணைக்கழகம்,
செல்பேசி : +91-98423 74750
[email protected]
1
உள்ளடக்கம்

முன்னுரர

இயற்ரகம ொழியொய்வு; கணினிம ொழியியல்; ம ொழித்மதொழில்நுட் ம்:

ம ொருள் யக்கம் - விளக்கம்

ம ொருள் யக்கம் ஏற் டுவதற்கொன நிரலப் ொடுகள்
1. தனிச்ம ொற்கள்
2. மதொடரர ப்பு நிரல
3. ம ொற்கரளப் பிரித்தும் ச ர்த்தும் எழுதுகிற முரற

உரு னியலும் ம ொருள் யக்கமும்

ம ொழியியல் வரகப் ொட்டில் ம ொருள் யக்கம்

ம ொருள் யக்கத்ரதத் தவிர்ப் தற்குரிய ம ொதுவொன சில வழிமுரறகள்

நிரறவொக
2
முன்னுரர

கணினியில் தமிழ்ச ாழியின் ேயன்ோடு சேருகியுள்ளது. தமிழ்ச ாழியின் வளர்ச்சிக்குக் கணினியின்
ேங்களிப்பு தவிர்க்கமுடியாத ஒன்றாகிவிட்டது.

ச ாழி ஆய்வுக் கருவியாகக் கணினிணயப் ேயன்ேடுத்திவருகிற நிணையில் தமிழ்ச ாழித் தரவுகணள
அதற்கு ஓர் ஒழுங்கண வுடன் கற்றுத்தரபவண்டியுள்ளது.

அதாவது கணித அடிப்ேணடயில் ச ாழியில் உள்ள ச ாழியியல் கூறுகணளக் கணினிக்கு ஏற்ற
வணகயில் ாற்றித்தரபவண்டியுள்ளது.

இத்தணகய வழிமுணறகணளக் சகாடுப்ேபத கணினி ச ாழியியல்.

ச ாழி செயல்ேடுவதில் உள்ள ஒழுங்குமுணறயின் சதாகுப்புதான் இைக்கைம்.

இத்தணகய ஒழுங்குமுணற நவீன, சதாழில்நுட்ே வளர்ச்சிகளினாலும் ச ாழி உைக ய ாக்கச்
சூழலினாலும் சிணதந்தும்

ாறுேட்டும் வருகிறது.
ச ாழிணய இத்தணகய சிணதவுகளிலிருந்து மீட்சடடுக்க ச ாழியியல் கூறுகணள முணறயாகக் கற்று,
ேயன்ேடுத்தபவண்டிய கட்டாயம் ஏற்ேட்டுள்ளது.
3
ச ொக்கம்

சோருள் யக்கம் தமிழ்ச ாழிப் ேயன்ோட்டில் உருவாக்குகின்ற நிணைப்ோடுகள்.

கணினிவழி ஆய்வு செய்யும்போது ஏற்ேடுகிற ச ாழியண ப்புச் சிக்கல்கள். அவற்ணறத்
தவிர்ப்ேதற்கான வழிமுணறகள்.

ச ாழியியல் கூறும் வணகப்ோட்டு சநறிமுணறகணளயும் எடுத்துக்கூறுவதாக இக் கட்டுணர
அண கிறது.
4
இயற்ரகம ொழியொய்வு;கணினிம ொழியியல்;ம ொழித்மதொழில்நுட் ம்:
தமிழ்ச ாழியின் இயல்புகணளத் சதளிவாக அறிந்துசகாள்ள ஒலியனியல், உருேனியல், சதாடரியல்
ற்றும் சோருண்ண யியல் போன்ற ச ாழியியல் அறிவு இன்றியண யாதன.

னித மூணளணயப் போன்று கணினிணயயும் இயற்ணகச ாழி அறிணவப் சேறணவத்து, ச ாழித்
சதாடர்கணளப் புரிந்துசகாள்ளவும், உருவாக்கவும், செய்யணவக்கும் முயற்சிபய இயற்ணக
ச ாழியாய்வு(Natural Language Processing).

இத்தணகய
இயற்ணகச ாழியாய்ணவ
ப ற்சகாள்ள
உருவாக்கப்ேடுகிற
வழிமுணறகளும்
முணறப்ேடுத்தலுப கணினி ச ாழியியல் (Computational Linguistics).

கணினிச ாழியியலின் துணைபயாடு ச ாழிக்குத் பதணவயான மின்னணு ச ாழிக் கருவிகணள
உருவாக்க உதவும் நுட்ேப ச ாழித்சதாழில்நுட்ேம்(Language Technology).

இணவ மூன்றும்தான் தமிழ் ச ன்சோருள்கணள உருவாக்குவதற்கு ப ற்சகாள்ளப்ேடுகிற
ேடிமுணற வளர்ச்சிப் ேணிகள்.
5

கணினித்தமிழ் வளர்ச்சி என்ேது தமிழ்த் சதாடர்கணளப் புரிந்துசகாள்ளவும்(Understanding), அவற்ணற
உருவாக்கவும்(Generate) பதணவயான தமிழ்ச ாழி அறிணவக் கணினிக்கு அளிப்ேதற்காக நாம்
ப ற்சகாள்ளபவண்டிய ேணிகணளக் குறிக்கிறது.

தமிழ்த் தரவுகணளக் கணினி புரிந்துசகாள்ளும் வணகயில் சகாடுப்ேதற்கு ச ாழியியல் விதிகளும்
பகாட்ோடுகளும் துணைபுரிகின்றன.

கணினிச ாழியியல்
பகாட்ோடுகணளக்சகாண்டு
ச ாழியின்
அண ப்ணே,
கணினிக்பகற்ற வணகயில் நிரலிகளாக(Programs), மின்னணு இைக்கை ாக
இைக்கைத்ணதக்
ாற்றிக் சகாடுத்து,
தமிழ்ச ாழியின் பதணவணய நிணறவுசெய்ய பவண்டும்.

இவ்வாறு
தமிழ்ச ாழியின்
தமிழ்ச ாழியின்
சொற்கணளப்
தற்காை
அண ப்ணே
எழுத்து
பிரிக்கும்போதும்(Parsing)
வழக்கில்
ஒழுங்கண வுடன்,
ேல்பவறு
விதிகளாக
முணறகள்
வரிணெப்ேடுத்தும்போதும்(Sorting)
ாற்றும்போது
ேயன்ேடுத்தப்ேடுவதால்
ேல்பவறு
ச ாழிப்
ேயன்ோட்டுச் சிக்கல்கள் எழுகின்றன.

இத்தணகய ச ாழிப் ேயன்ோட்டுச் சிக்கல்களில் ஒன்றுதான் சோருள் யக்கம்(Word Sense Ambiguity).
6
ம ொருள் யக்கம் - விளக்கம்
‘Word Sense Ambiguity’ என்னும் ஆங்கிைச் சொல் தமிழில் சதளிவின்ண , குழப்ேம்,
கருத்து யக்கம், சோருள் யக்கம், இருசோருள்ேடுநிணை, சதளிவற்ற நிணை எனப் ேல்பவறு
நிணைகளில் சோருள்சகாள்ளப்ேடுகின்றது. எனினும், கணினிச ாழியியலில் சோருள் யக்கம் என்பற
ணகயாளப்ேடுகின்றது.
சோருள்
யக்கங்கணளக் கணளவணதக் கணினிச ாழியியலில் ‘Word Sense Disambiguation(WSD)’
என்று கூறுவர்.

ஒரு சதாடர் தன் அண ப்பில் சவளித்பதாற்றத்திலும் உள்பதாற்றத்திலும் சவவ்பவறு
சோருள்தருகிறது. இத்தணகய சோருண்ண
ாறுோடு ஏற்ேடுவதற்குரிய சிை சொற்களும்
சிை சூழ்நிணைகளும் இங்கு பநாக்கப்ேடுகின்றன.

தமிழ்
ரபிைக்கைத்தில் ஒருசொல் குறித்த ேை சோருள், ேை சோருள் குறித்த ஒருசொல்
என்ற வணகப்ோடும் காைப்ேடுகிறது. அகராதி நிணையில் ஒரு சொல்லுக்குப் ேை சோருள்கள்
இருக்கைாம். ஆனால், இவற்றிலிருந்து சோருள் யக்கம் என்ேது ாறுேட்டது.
7
கணினி ம ொழியியல் - ம ொருள் யக்கம்
 ந்திப் பிரைதிருத்தி(Sandhi Checker)
 உரு னியல் குப் ொய்வி(Morphological Parser)
 மதொடரியல் குப் ொய்வி(Syntactic Parser)
 அரடவி(Indexing)(சொல்ைணடவு, சதாடரணடவு, சோருளணடவு)
 தொனியங்கி ச ச்சு அறிவொன்(Automatic Speech Recognizer-ASR)
 இயந்திர ம ொழிம யர்ப்பு(Machine Translation)
ஆகிய ச ாழியாய்வு ச ன்சோருள் கருவிகணள உருவாக்குவதில் இத்தணகய சோருள்
இணடயூறாக அண கின்றன.
இவற்ணறச்
ெரிசெய்ய, சோருள்
யக்கம்
யக்கச் சொல்ைகராதிணய
உருவாக்கபவண்டியது அவசியம்.
8
ம ொருள் யக்கம் ஏற் டுவதற்கொன நிரலப் ொடுகள்

தமிழ்ச ாழித் தரவுகள் உைகளாவிய சோதுச ாழியின் தன்ண கணளக் சகாண்டிருப்ேபதாடு த க்சகனச்
சிை தனித்தன்ண கணளக் சகாண்டிருக்கின்றன.

வழக்கிழந்த கூறுகளும் புத்தாக்கங்களும் தமிழில் காைங்காை ாக நிகழ்ந்துசகாண்டுள்ளன. ொதி, சதாழில்,
வட்டாரம் போன்றணவ ொர்ந்த வழக்குகளும், துணறொர்ந்த வழக்குகளும் பேச்சு, எழுத்து என்னும்
நிணைப்ோடுகளும்
தமிழ்ச ாழித்
தரவிணனக்
கணினியின்
ஏற்புத்திறனுக்கு
ஏற்றாற்போல்
ஒருண ப்ேடுத்துவதற்கும் சோதுவிதிகணள உருவாக்குவதற்கும் இணடயூறுகளாக அண கின்றன.

சொற்களின் இைக்கை வணகப்ோட்ணட நாம் நுண்ண யான இைக்கை அறிவு(Grammatical Knowledge)
ற்றும்
உைகியல் அறிவின்(Pragmatic Knowledge) துணைபயாடு அறிகிபறாம். ஆனால் அவற்ணறக் கணினிக்குக்
கற்றுத்தருவதில் ேல்பவறு ச ாழியண ப்புச் சிக்கல்கள் எழுகின்றன.

இவற்ணறச் ெரிசெய்வதற்கு உருேனியல், சதாடரியல் ேகுப்ோய்வுகள் துணைபுரிகின்றன.

ஒரு சதாடரில் ஒன்றுக்கு ப ற்ேட்ட அண ப்புகள் காைப்ேடைாம். அதாவது குறிப்பிட்ட சதாடரில்
இடம்சேறும் சொற்கள் தங்களுக்குள் சவவ்பவறு வணகயில் இணையைாம். அப்போது சோருள் யக்கம்
ஏற்ேடுகிறது.
9
ம ொருள் யக்கம் - Word Sense Ambiguity
1
தனிச்சொற்கள்
2
வாக்கிய அண ப்பு
3
சொற்கணளப் பிரித்தும் பெர்த்தும் எழுதுகிற முணற
10

ஆங்கிைத்தில்
ஒலிசேயர்த்து(Transliterate)
எழுதும்போது
முணறப்ேடுத்தப்ேட்ட
ஒலிக்குறிப்பு
எழுத்துக்கணளப் ேயன்ேடுத்தபவண்டும். ஆனால் குறில், சநடில், ை,ழ,ள, ற,ர போன்ற எழுத்துக்கள்
பவறுோடுகளின்றிப்
ேயன்ேடுத்தப்ேடுவதால்
சோருள்
குழப்ேமும்
அவற்ணற
உச்ெரிக்கும்போது
சதளிவில்ைாத சூழ்நிணையும் காைப்ேடுகிறது.
எடுத்துக்காட்டாக, ோடம் என்று எழுதுவணதப் ‘Padam’ என்று எழுதினால் ேடம் என்று ேடிப்ேதற்கும்
வாய்ப்பிருக்கிறது. எனபவ
க்களின் சேயர், ஊர்ப்சேயர், முகவரி, சோருள்களின் சேயர் போன்றவற்ணறத்
தவறாக உச்ெரிக்கிற நிணை ஏற்ேடுகிறது. எனபவ, இவற்ணற ஓர் ஒழுங்குமுணறக்குக் சகாண்டுவரபவண்டும்.

சோருள் பவறுோட்டிற்கு பவற்றுண
உருபுகளும், ெந்தி
ாற்றங்களும், ை,ழ,ள, ற,ர பவறுோடுகளும்
முக்கியப் ேங்காற்றுகின்றன. ப லும் ொரிணயகள், இரட்டித்தல் போன்றணவயும் துணைசெய்கின்றன.

ோடல்கணளப் ேடிக்கும்போது எளிண யாகப் புரிந்துசகாள்ளபவண்டுச ன்னும் பநாக்கில் சொற்கணளப் பிரிப்ேதாலும்
உணரநணட எழுதும்போது சோருள் யங்குவது சதரியா ல் சொற்கணளப் பிரிப்ேதாலும் சோருள் யங்குகிறது. சோருள்
யக்கம்ஏற்ேடாதவாறுபிரிக்கபவண்டும்என்ேணதக்கவனத்தில்சகாள்ளபவண்டியதுஅவசியம்.

சோருள் உைரும் திறன் குணறந்த இக் காைத்தில் ோடல்களில் எல்ைாச் சொற்கணளயும் பிரித்பத எழுதுதல்
பவண்டும், எளிண ப்ேடுத்தபவண்டும், ொதாரைப் பேச்சுவழக்கில் இருக்கபவண்டும் என்ேது போன்ற
தன்ண கள்
கணடபிடிக்கப்ேடுகின்றன.
ப லும்,
எழுத்துநணடயில்
ற்றவர்களிடமிருந்து
தங்கணள
பவறுேடுத்தபவண்டும் என்ேதற்காகவும் இத்தணகய நிணை இருக்கின்றது.
11
1. தனிச்ம ொற்கள்
தமிழில் தனித்த சிை சொற்கணளத் சதாடர்களில் ேயன்ேடுத்தும்போது அணவ பதாற்றத்தில்
ஒன்றுபோைவும் சோருளில் இருபவறு நிணைகளிலும் காைப்ேடுகின்றது.
நான் சவரல வாங்கிபனன்.
பவணைணயக்(Work) குறிக்கிறதா?
‘பவல்’ என்னும் ஆயுதத்ணதக் குறிக்கிறதா?
சதாடர் நிணையில் அதற்கு அடுத்து அல்ைது அதற்கு முன் அண ந்த சொல்ணை ணவத்பத, இந்தச்
சொல் இணதத்தான் குறிக்கிறது என்று அறியமுடிகிறது.
அவணர
- அவர் + ஐ
அவணரச் செடி
வருட
- வருடம்
காணை
- கால் + ஐ
சொத்ணத
- சொத்து
காணத
- காது + ஐ
காணத - அணடக்கைக்காணத
கூட்ணட
- கூடு + ஐ
கூட்ணட - ொப்ோட்டு வணக
ோத்திரம்
- கதாப்ோத்திரம்
ஆறு
- ஆறு(River)
எண்ை
- எண்ைம்(Thinking)
எண்ை(Counting)
ஓட்ணட
- ஓடு + ஐ = ஓட்ணட
ஓட்ணட(Vote) ஓட்ணட(hole)
தணைணய வருட
காணைப்சோழுது
சொத்ணதக் காய்கறி
ெண யல்ோத்திரம்
எண்(Number)
12
ப ற்குறித்த சிை சொற்களுடன் இரண்டாம் பவற்றுண உருபு வந்துள்ளதா அல்ைது
தனிச்சொல்தானா என்ற குழப்ேப இந்தப் சோருள் யக்கத்திற்குரிய காரை ாகும்.
இத்தணகய குழப்ேமின்றி பவறுேடுத்துவதற்குச் சிை இடங்களில் ‘இன்’ ொரிணய
ேயன்ேடுத்தப்ேடுகிறது.
காது + ஐ = காணத => காது + இன் + ஐ = காதிணன.
காடு + ஐ = காணட => காடு + ட்(இன்) + ஐ = காட்ணட, காட்டிணன.
13
2. மதொடரர ப்பு நிரல
ஒரு சதாடர் அண ப்பில் எல்ைாச் சொற்களும் ெரியான சோருணளபய தந்துநின்றாலும் அணவ
சோருள்சகாள்ளும் முணறயில் யக்கம் ஏற்ேடுகின்றன.
'முட்டொள் கு ரனின் ரனவி'
என்னும் வாக்கியத்தில் முட்டாள் என்ேது கு ரனுக்குப் சேயரணடயாக வருகிறதா? அல்ைது
அவன் ணனவிக்குப் சேயரணடயாக வருகிறதா?
 இத்தணகய நிணையில் பவற்றுண
உருபு
ணறந்து வருவதாலும் முட்டாள் என்ேதற்கு
அடுத்து, காற்புள்ளி இட்டு எழுதாததாலும் இத்தணகய குழப்ேம் ஏற்ேடுகிறது.
 இதணன அண ப்புப் சோருள் யக்கம்(Structural Ambiguity) என்று ச ாழியியல் அறிஞர்கள்
கூறுவர்.
 சதாடரின் புறநிணையிலும் அகநிணையிலும்
ாறுேடா ல் குழப்ேமின்றி இருந்தாலும்
அணவ எடுத்துக்சகாள்ளும் முணறயிலும் சூழல் தரும் சோருளிலும் பவறுேடுகின்றன.
14
3. ம ொற்கரளப் பிரித்தும் ச ர்த்தும் எழுதுகிற முரற

தமிழில்
பவர்ச்சொல்லுடன்
ேல்பவறுேட்ட
ஒட்டுகள்
இணைகின்றன.
அவ்வாறு
இணையும்போது
அவற்றுக்குள்பளபய ஓர் இணயபு விதி உருவாகின்றது. இவ்வாறு சொற்களுடன் ஒட்டுகணள இணைக்கும்போது
சொற்கணளப் பிரித்தும் பெர்த்தும் எழுதுகின்ற வழக்கம் காைப்ேடுகின்றது.

தமிழில் ச ாழியியல் விதிப்ேடி தனித்து நின்று சோருள்தராத துணைவிணனகள்(Auxiliary Verb), ஒட்டுகள்(Affixes)
மிதணவ ஒட்டு(Clitic)
போன்றவற்ணறப் பிரித்து எழுதக்கூடாது என்ேணத மீறுவது
சோருள்
யக்கத்திற்கு
முக்கியக் காரை ாகும்.

சோதுவாக ஒரு சொல்ணைப் பிரித்பதா பெர்த்பதா எழுதும்போது கூறவந்த கருத்தின் அடிப்ேணடபய
ாறுகின்ற
நிணை ஏற்ேடுகிறது.
அவனுடசன
- with him
அவன் உடசன - he at once
அவர்கள் டித்துவிட்டுச் சென்றனர்.
அவர்கள் டித்து விட்டுச் சென்றனர்.
எனபவ மிகக் கவனத்பதாடு இட றிந்து சோருள் யக்கம் ஏற்ேடாதவாறு பெர்த்பதா பிரித்பதா எழுதபவண்டும்.

ேல்கணைக்கழகம், சதாழில்நுட்ேம் போன்ற சிை கணைச்சொற்கணளயும் பிரித்து எழுதுதல் கூடாது.

இதுபோை ச ாழிப் ேயன்ோட்டு விதிகணள முணறயாகப் ேயன்ேடுத்தினால் கணினிவழி ச ாழியாய்வுக்கும்
சோருள் யக்கமின்றி வாசிப்ேதற்கும் ேயன்தரும்.
15

துரைவிரனகள்
விடு
டு
- வந்துவிடு, போய்விடு, ேடித்துவிடு, தூங்கிவிடு.
- ோடுேடு, பவதணனப்ேடு, ஆணெப்ேடு.
இரு
- ோர்த்துக்சகாண்டிரு, ேடித்துக்சகாண்டிரு.
இடு
- பெர்த்திடு, காட்டிடு, ோர்த்திடு.
மகொண்டு
- சதரிந்துசகாண்டு, ோர்த்துக்சகாண்டிரு.
மகொள்ள
- ோர்த்துக்சகாள்ள, பேசிக்சகாள்ள, அறிந்துசகாள்ள.
விட்டு,விட்டது-ோர்த்துவிட்டு,பேசிவிட்டு,ோர்த்துவிட்டது,போய்விட்டது.
ட்டு, ட்டது
-அறியப்ேட்டு,விளக்கப்ேட்டு,கூறப்ேட்டது,பெர்க்கப்ேட்டது.
சவண்டும்
- ோர்க்கபவண்டும், செல்ைபவண்டும், எழுதபவண்டும்.
உள்ளது
- சதரியவந்துள்ளது, ோடப்ேட்டுள்ளது.
 சகாள், உண், ஆம், போடு, வரு, தரு, உள் இதுபோன்ற ஐம்ேதுக்கும் ப ற்ேட்ட துணைவிணனகள் எழுத்து
வழக்கிலும் பேச்சு வழக்கிலும் காைப்ேடுகின்றன.
 ஒருசதாடரில்ஒன்றுக்குப ற்ேட்டதுணைவிணனகளும்இணைந்துவரும்.
16

மிதரவ ஒட்டு
தான்

- அணதத்தான், அவன்தான், அப்போதுதான், அதனால்தான்.
பின்மனொட்டு
கீழ், ச ல்

- துணறயின்கீழ், தணைப ல்.
வழி
- கணினிவழி, அதன்வழி.
விட
- அவணனவிட, பேசியணதவிட.
விரன விகுதி
ச ொது - சொன்னபோது, ோர்த்தபோது.
டி

- அதன்ேடி, சொன்னேடி.
ம ொதுநிரல
கண்
- அதன்கண்.
கொலம் - இணடக்காைம், ெங்ககாைம்.
வர
- சென்றுவர, நடந்துவர.
17
ம ொழியியல் வரகப் ொட்டில் ம ொருள் யக்கம்
1.
ஒலியனியல்(Phonology)
2.
உரு னியல்(Morphology)
3.
மதொடரியல்(Syntax)
4.
ம ொற்ம ொருண்ர யியல்(Semantics)
5.
கருத்தொடல்(Discourse)
1. ஒலியனியல்(ெந்தி)
‘பவணை செய்தான்’,
‘பவணைச் செய்தான்’
1. ‘பவணை’ - ேணி
2. ‘பவணை’ - கருவி
2. உரு னியல்
‘நான் கத்தி விற்பறன்’
கத்தி சேயரா? விணனயா?
18
3. மதொடரியல்
‘நான் இரா பனாடு சீணதணயப் ோர்த்பதன்’
1.
நானும் இரா னும் சீணதணயப் ோர்த்பதாம்
2.
நான்இரா னும்சீணதயும்பெர்ந்திருக்கும்போதுோர்த்பதன்.
4. ம ொற்ம ொருண்ர
‘ேச்ணெக் காய்கறி’,
‘ேச்ணெப் சோய்’,
‘ேச்ணெ உடம்பு’
ேச்ணெ என்ற சொல் மூன்று பவறுேட்ட சோருள்கணளக் குறித்து நிற்கிறது.
மூன்றில் எந்தப் சோருணள எடுத்துக்சகாள்வது என்ேது அதன் அடுத்த சொல்ணைப் சோறுத்தது.
5. கருத்தொடல்
இந் நிணையில், ஏற்ேடுகிற சோருள்
யக்கத்ணதக் கணினிக்குக் கற்றுத்தரமுடியாது. அவற்ணற உைகியல்
அறிவின்(Pragmatic Knowledge) வாயிைாகபவ உைர முடியும்.
ப ற்குறித்த சோருள்
யக்கங்கணளத் தீர்த்துணவக்கக்கூடிய அறிணவ - வழிமுணறகணள எவ்வாறு
கணினிக்கு அளிப்ேது குறித்து, ேல்பவறு நிணைகளில் ஆராயப்சேறுகின்றன.
19
உரு னியலும் ம ொருள் யக்கமும்

ஒரு சொல் ஓர் உருேன் சகாண்டதாகபவா அல்ைது அதற்கு ப ற்ேட்ட உருேன்களாகபவா
இருக்கைாம். ேல்பவறு உருேன்களால் உருவான சொற்கணளக் கணினிவழிப் ேகுப்ோய்வு செய்வது
‘உருேனியல் ேகுப்ோய்வு’.

இதற்காக உருேனியல் ேகுப்ோய்விகள்(Morphological Parsers) உருவாக்கப்ேட்டுவருகின்றன. இவ்வாறு
உருவாக்கும்போது சோருள் யக்கச் சொற்களின் சிக்கல்கள் பநாக்கத்தக்கதாக உள்ளன.

இயந்திர
ச ாழிசேயர்ப்பில்(Machine
Translation)
கணினிச ாழியியல்
விதியான
இருநிணை
உருேனியல்(Two Level Morphology) என்ற ச ாழித்தன்ண குறித்து ஆராய்வர்.

ஒரு சதாடரில் அடிநிணை(Deep Structure), புறநிணை(Surface Structure) ஆகிய இரண்டும் காைப்ேடும்.
இவற்றுள் புறநிணையில் எந்தவித
ாறுோடும் ஏற்ேடுவதில்ணை. ஆனால், சோருள்
யக்கச்
சொற்கள் வரும்போது அகநிணையில் குழப்ேம் ஏற்ேடுகிறது.

தமிழில் காைப்ேடும் சதாடர்களில் பவர்ச்சொற்கள் தனித்தும் விகுதிகபளற்றும் காைப்ேடுகின்றன.
20



தனித்த சொற்கணளக் கண்டறிவதற்கு அகராதிகணளப் ேயன்ேடுத்தைாம்.
ற்றவற்ணற உள்ளீடு செய்து ஆய்வுசெய்பத ேகுத்தறிய முடியும்.
பவர்ச்சொற்கணளயும்
ஒட்டுகணளயும் ேகுத்து, சோருள்
யக்கமின்றி
வணகப்ேடுத்துவதற்கு
உருேனியல் ேகுப்ோய்வு அவசிய ாகிறது.
21
ம ொருள் யக்கத்ரதத் தவிர்ப் தற்குரிய
ம ொதுவொன சில வழிமுரறகள்

கணினிவழித் தமிழ்த் சதாடர்கணள ஆய்வு செய்யும்போது ஏற்ேடுகிற சோருள்
சோருணளத் சதளிவாகப் புரிந்துசகாள்வதற்கு உருசோலியனியல்
யக்கத்ணத நீக்கிப்
ாற்றங்கள் துணைபுரிகின்றன.

சோருள் யக்கத்ணத இைக்கை வணகப்ோட்டின் வாயிைாகபவ சதளிவுேடுத்த முடியும்.

சேயர்,
விணன
அடிப்ேணடயில்
உருவாகும்
சொற்களாக
உருேனியல்,
சதாடரியல்
ேகுப்ோய்வுகணளக் சகாண்டு அடிச்சொல், விகுதிகள் ஆகியவற்ணறப் ேகுத்துத்தான் இவற்ணறச்
ெரிசெய்ய முடியும்.
‘அவன் சநய்தான் விற்றான்’
1.
அவன்
சநய்ணயத்தான்(சநய்+தான்)
விற்றான்
என்று
பவற்றுண
ணறந்துநின்று
சோருள்தருகிறதா?
2. அவன் துணிணய சநய்தான் (சநய்+த்+த்+ஆன்) பிறகு விற்றான் என்ற சோருள்ேடுகிறதா?

இத்தணகய நிணையில் சதாடரியல் ஆய்வின் அடிப்ேணடயிபைபய சதளிவுசேற முடியும்.
22
 அடிச்சொல்ைால்
ஏற்ேடுகிற
சோருள் யக்கத்ணத
விகுதிகணளக்சகாண்டு
சதளிவுசேறைாம்.
விகுதிகளால் ஏற்ேடுகிற சோருள் யக்கத்திற்கு அடிச்சொல்ணைக்சகாண்டு சதளிவுசேறைாம்.
‘ டித்தொன்’
ேடி
சேயர்
- ேடிதான்
விணன
- ேடித்தான்
அடிச்சொல் வாயிைாகப் சேறமுடிகிறது.
‘ஆல்’ என்னும் விகுதி
‘அவனால் நான் வந்பதன்’
சேயருக்குப் பின் வந்ததால் பவற்றுண விகுதி
‘வந்தால் நான் வருபவன்’
விணனக்குப் பிறகு வந்ததால் நிேந்தணன விகுதி
 ‘இரு’ என்ற சொல் இருபவறு சோருள்தருகின்றன. அவற்ணற இடப்சோருள் அடிப்ேணடயிபைபய
பெர்த்பதா பிரித்பதா எழுதமுடியும்.
 விட்டிணெப்பிற்காகவும், வணகப்ேடுத்துவதற்காகவும், சோருள் சதளிவிற்காகவும் காற்புள்ளி ‘,’ இட்டு
எழுதுவது கட்டாய ாகிறது. இதுபோன்ற ேல்பவறு ச ாழிப் ேயன்ோட்டு சநறிகள் தமிழ்ச ாழி
இைக்கைங்களிலும் ச ாழியியல் விதிகளிலும் காைக்கிணடக்கின்றன.
23
ம ொருள் யகச் ம ொற் ட்டியல்
அணை
ஆசியா
ஆடு
இணை
இணைய
உணர
எண்ை
ஓட்ணட
கட்டு
கட்ணட
கல்
கழி
காணட
காதலி
காணத
காணை
கூணட
பகாட்ணட
பகாப்ணே
ொரம்
சுடு
செல்ை
பெர்
தட்ணட
துணி
Dam, Putout, Embrace
Asia, blessings – Interrogative
To dance, goat
To join, pair
To join, Internet
Cover, to express, Speech
To Think, thought
Hole, tile-Acc, vote-Acc
Bandage, to build
A piece of tree, bunch of materials
Stone, read
To Subtract, Pass, Stick
Forest-Acc, A kind of bird
Lady love, to love
Story, Ear-Acc
Morning, Leg-Acc
Nest-Acc, Basket
Fort, Line-Acc
File-Acc,Cup
Essence, Scaffolding
To shoot, to heat
Dear, to go
Join. collect, hand over, add
Plate-Acc, eatable
Dare, cloth
பதணர
சதாணக
நாையம்
நிணரய
நூல்
சநய்தான்
சநல்ணை
ேடி
ேட்ணட
ேயணி
ோத்திரம்
ோணை
ோல்
போலிபயா
ைம்
ணை
ணன
Temple car-Acc, tree frog
Compound, Amount
Coin, Honesty
More, to fill
Thread, Book
Wove cloth- He, it is ghee
Nellai town, Paddy-Acc
To Read, step, Allowance ,To measure
Silk-Acc, band
To travel, passenger
Character, vessel
Milk-Acc, it is a place
Gender, Milk
Polio, is it Duplicate
Smell, marriage
Mountain, be wonder
Plot, small chair
ச ாட்ணட
Bud-Acc, Shaver or hairless state of head.
வரவால்
Income-Ins ,due to his presence
Arrival, on the time of his arrival
Year, stroke gently
Fan, Fan to Actor
Seed-Acc, feat
Sperm-Acc, wonder
Bow-Acc, Coin
வருணகயில்
வருட
விசிறி
வித்ணத
விந்ணத
வில்ணை
24
நிரறவொக…

சோருள் யக்கத்திற்கான அணடப்ேணடக் காரைங்கள்

சோருள் யக்கம்
ஏற்ேடுவதற்குரிய
நிணைப்ோடுகணள
அண ப்பு
நிணையில்
மூன்றாகப்
ேகுத்தும்
ச ாழியியல்
வணகப்ோட்டிலும் தகுந்த எடுத்துக்காட்டுகளுடன் ஆராயப்சேற்றன.

சோருள் யக்கத்ணதத் தவிர்ப்ேதற்குரிய சோதுவான சிை வழிமுணறகள்,

கணினிவழித் தமிழாய்வு செய்யும்போது ஏற்ேடுகிற சிக்கல்களும்

ஒரு சதாடணர எழுதும்போது சேயர், விணன, துணைவிணன போன்ற அடிப்ேணட பவறுோடுகணள அறிந்து, ேயன்ேடுத்தினால்
ேல்பவறு ச ாழிப் ேயன்ோட்டுச் சிக்கல்கள் ெரிசெய்யப்ேடும்.

அணனவரும் ஒபரவித ான ச ாழிப் ேயன்ோட்டுக்சகாள்ணகணயப் ேயன்ேடுத்துவதன்வழி, கணினிவழி ச ாழியாய்வு
செய்வதற்கு எளிண யாக இருக்கும்.

இதுபோன்ற ேல்பவறு ச ாழியண ப்புக் கூறுகணள முணறப்ேடுத்தபவண்டிய கட்டாயம் ஏற்ேட்டுள்ளது என்ேணத இக்
கட்டுணர சுட்டிக்காட்டுகிறது.
25
துரைநூற் ட்டியல்…
1.
முணனவர்ெ.அகத்தியலிங்கம்,தமிழ்ம ொழிஅர ப்பியல்,ச ய்யப்ேன்தமிழாய்வகம்,சிதம்ேரம்.
2.
டாக்டர்சோற்பகா,(2006),இக்கொலத்தமிழ்இலக்கைம்,பூம்சோழில்சவளியீடு,சென்ணன.
3.
எம்.ஏ.நுஃ ான்,(2007),அடிப் ரடத்தமிழ்இலக்கைம்,அணடயாளம்,திருச்சி.
4.
பேரா.கைாநிதிஅ.ெண்முகதாஸ்,(2008),தமிழ்ம ொழிஇலக்கைஇயல்புகள்,நியூசெஞ்சுரிபுக்ஹவுஸ்.
5.
முணனவர்செ.ணவ.ெண்முகம்,(2004),மதொல்கொப்பியத்மதொடரியல்,உைகத்தமிழாராய்ச்சிநிறுவனம்.
6.
முணனவர்அ.தாப ாதரன்,துரைவிரனகள்,ஆய்வுக்கட்டுணர.
7.
தமிழ்இரையம்2010, ாநாட்டுக்கட்டுணரகள்.
8.
Dr. M. Suseela, (2001), A Historical Study of Old Tamil Syntax, Tamil University.
9.
Thomas Lehman, (1993), A Grammar of Modern Tamil, Pondichery Institute of Linguistics and Culture.
26
ன்றி…
27
மதளிவிற்கொக…
சில
?
28