ஒருங்குறியும் மிழும் த ொகுப்பொளர்: CAPital மின்னஞ்சல்: [email protected] இணைய ப ிவு முகவரி: http://1paarvai.wordpress.com/tag/tamil-unicode/ ஒருங்குறி 1) மிழ் எழுத்துக்கள் தவறும் எழுத்துருவொகவவ கைினியில் பொவிக்கப்பட்டு வந்துள்ளது. 2) கைினியின் தசயற்பொடு, கைினி தமொழிகளொல் [programming languages]

Download Report

Transcript ஒருங்குறியும் மிழும் த ொகுப்பொளர்: CAPital மின்னஞ்சல்: [email protected] இணைய ப ிவு முகவரி: http://1paarvai.wordpress.com/tag/tamil-unicode/ ஒருங்குறி 1) மிழ் எழுத்துக்கள் தவறும் எழுத்துருவொகவவ கைினியில் பொவிக்கப்பட்டு வந்துள்ளது. 2) கைினியின் தசயற்பொடு, கைினி தமொழிகளொல் [programming languages]

ஒருங்குறியும்
மிழும்
த ொகுப்பொளர்: CAPital
மின்னஞ்சல்: [email protected]
இணைய ப ிவு முகவரி: http://1paarvai.wordpress.com/tag/tamil-unicode/
ஒருங்குறி
1)
மிழ் எழுத்துக்கள் தவறும் எழுத்துருவொகவவ கைினியில் பொவிக்கப்பட்டு வந்துள்ளது.
2)
கைினியின் தசயற்பொடு, கைினி தமொழிகளொல் [programming languages] நிர்ையிக்கப்
படுகிறது. கைினி தமொழி ASCII எனப்படும் கைினி எழுத்து கு ரத் ொல் வணரயறுக்கப்பட்ட
எழுத்துக்களொல் வடிவணமக்கப்பட்டுகிறது.
3)
எந் ஒரு கைினி தமொழியும் அ ில் உபவயொகப்படுத் ப்படும் எழுத்துக்கணள பிரித்துப்
பகுத் ொய்ந்து ொன் இயங்குகிறது.
4)
நீங்கள் சொ ரைமொகப் பொர்க்கும் கைினித் ிணரயிலிருந்து, வசமிப்பு, பரிமொற்றம், தசயற் ிறன்,
ணகயொளுந் ன்ணம என்று கைினியின் சகல தசயற்பொடுகளுக்கும் ASCII கு ரம் மிக்க
பங்கு வகிக்கிறது.
5)
இந்
6)
ஒருங்குறி என்பது ஒரு உலக
ASCII என்னும்
கு ரத் ிற்கு மொற்றீடு
ொன் ஒருங்குறி.
கு ரம்; இந் ிய
கு ரம் அல்ல.
பிற தமொழி ஒருங்குறி
http://www.unicode.org/charts/
Armenian
Armenian Ligatures
Coptic
Coptic in Greek block
Cyrillic
Cyrillic Supplement
Georgian
Georgian Supplement
Greek
Greek Extended
Ancient Greek Numbers
Ancient Greek Musical
Basic Latin
Latin-1
Latin Extended A
Latin Extended B
Latin Extended C (5.0)
Latin Extended D (5.0)
Latin Extended Additional
Latin Ligatures
Fullwidth Latin Letters
Small Forms
பிற தமொழி ஒருங்குறி
1)
லத் ீன் எழுத்துக்கள் ஆங்கில தமொழியின் வரிணசயில் அணமந் ிருக்கின்றது. வ வநொகிரி
எழுத்துக்களும் ஃகிந் ி தமொழியின் வரிணசயில் ொன் அணமந் ிருக்கின்றது. த ன்
ஆசியொணவத் விர்ந் அணனத்து தமொழிகளும், எழுத்துக்கணள எவ ொ ஒரு ஒழுங்கு
வரிணசயில் ொன் ஏற்றியிருக்கின்றன.
2)
ஃபிரஞ்சு, ஸ்பொனிஷ் வபொன்ற தமொழிகளில் "accent“ [அக்ஸன்ற்] என்று தசொல்லும்
குறியீடுகளுடன் எழுத்துக்கள் இருக்கின்றன. அவ் எழுத்துக்கள் எழுத்து வவறு "accent"
வவறு ஆகவும் இருக்கிறது; னி எழுத் ொகவும் இருக்கிறது. à, á, â, ã, å̀́ இணவ இங்வக
கொண்பது வபொல் ஒரு எழுத் ொகவும், பிரித்து னித் னியொகவும் a, , ̀́, ˆ, ˜, ˚
ஏற்றப்பட்டிருக்கிறது. இவ்வொறு இரண்டு வி மொக அவர்கள் ஏற்றியிருக்கிறொர்கள்.
ற்வபொண ய
1)
மிழ் ஒருங்குறியில் ஏற்றப்பட்டிருக்கும்
க, ங, ச, ஜ, ஞ, ட, ை,
2)
மிழ் ஒருங்குறி
மிழ் எழுத்துக்களின் வரிணச இது:
, ந, ந, ப, ம, ய, ர, ற, ல, ள, ழ, வ, ச, ஷ, ஸ, ஹ
உயிர் எழுத்துக்களும், புள்ளி அகன்ற தமய் எழுத்துக்கள் [உ+ம்: க, ங, ச ...], குறில், தநடில்
குறியீடுகள், மிழ் எண்கள் மற்றும் விவசட குறியீடுகள் [ரூபொ, ஓம்] என்பன இருக்கின்றன.
3)
அனுஸ்வரொ, விசர்க்கம் என்று
4)
உலக
கு ரத் ில்
மிழ் எழுத்துக்களுக்கு உலக வமணடயில் தபயர்கள்
மிழ் எழுத்துக்கள் ஒழுங்கு மொறி ஏற்றப்பட்டுள்ளது.
ற்வபொண ய
மிழ் ஒருங்குறி
நன்ணம
1)
2)
XP- இல் மிணழ புகுத் , அ ில் " மிழ்" என்று அடிக்க "lcfBd" என்று அடிக்க வவண்டும்.
ஆனொல் மலயொளத் ில் அவ
மிணழ அடிக்க அவ "lcfBd" என்று அடித் ொல் வபொதும்.
lcfBd - തമിഴ് - மிழ் - இந் மூன்று தசொற்கணளயும் அடிக்க ஒவர விணசப்பலணக
தபொத் ொனுகள் [keyboard keys] பயன்படுத் ப்படுகிறது. தமொழிணய மட்டும் த ரிவுதசய் ொல்
வபொதும்.
ஒவ்தவொரு எழுத்தும் னி எழுத்துப் வபொல் இல்லொமல், ஒரு கூட்தடழுத் ொக இருப்ப ொல்,
அ ில் உள்ள உயிர், தமய் என்ற பகு ிகணள இலகுவொக கண்டறியலொம்.
ற்வபொண ய
மிழ் ஒருங்குறி
ீணம
1)
வவகம்: “வபொ” என்பது ஒரு குறியல்ல 3 (அ) 2 குறி [3: தகொம்பு, பனொ, அரவு/ 2: தகொம்பு+அரவு,
பனொ]
2)
இடம்: “வபொ” என்பண
வசமிக்க 3 (அ) 2 குறிணயயும் வசமிக்க வவண்டும்
veedikkai ennavenRaal ezhuthiya thamizh kadduraiyai thamingkilishil seemippathaRku thamizhai vida
kuRaivaana idangkaLee pidikkum! [வவடிக்ணக என்னதவன்றொல் எழு ிய மிழ் கட்டுணரணய
மிங்கிலிஷில் வசமிப்ப ற்கு மிணழ விட குணறவொன இடங்கவள பிடிக்கும்!]
3)
ணகயொளும் ன்ணம: “வபொ” என்பது 3 (அ) 2 குறியொக இருந் ொலும் அது ஒரு எழுத்து என்று
கைினிக்கு எப்வபொதும் உைர்த் ிவகொண்டிருக்க வவண்டும். [ஒரு தசொல்லில் உள்ள
எழுத்துக்கணள எண்ணும்வபொது, வரிணசப்படுத்தும் வபொது, ஒரு தசொல்ணலப் பிரிக்க வவண்டி
வரும்வபொது]
2)
கவல் பரிமொற்ற வநரம்: “வபொ” என்பண ஒரு கைினியில் இருந்து மற்றய கைினிக்கு
அனுப்ப ஒரு குறி பற்றொது, 3 (அ) 2 குறிகணளயும் அனுப்ப வவண்டும்.
ற்வபொண ய
ீணம (த
மிழ் ஒருங்குறி
ொடர்ச்சி...)
1)
இவற்ணற விட மிழ் எழுத்துக்கள் எல்லொவற்ணறயும் ஏற்றொ
ொல், மிழ் எந் ஒரு
தமன்தபொருளிலும் த ரிய அந் தமன்தபொருளொல் வமல ிக உ வி வ ணவ. எ ற்கு? “வபொ”
என்பது இப்படித் ொவன இருக்கு 3: தகொம்பு, பனொ, அரவு/ 2: தகொம்பு+அரவு, பனொ. இண
சரியொக ஒழுங்குபடுத் ி கைினித் ிணரயில் சொ ொரை மனி ன் விழங்கிக்தகொள்ளக்கூடிய
வி மொக த ரியணவக்க.
2)
கைினியில் ஒரு தமன்தபொருள் யொரிக்கும் வபொது மிகவும் முக்கியமொனது அந்
தமன்தபொருள் மிகவும் வவகமொக தசயற்பட வவண்டுதமன்பது. மிழில் கைினி தமொழிணய
[programming in Tamil script] எழு ினொல் தவறும் எழுத்ண க் ணகயொள்வ ற்வக ஒரு பகு ி
வவகம் வபொய்விடும். பற்றொ
ற்கு, அந் தமன்தபொருளின் வசமிக்கும் இடம் கூட
அ ிகமொகும். தமன்தபொருணள கைினிக்கு இறக்கும ி தசய்ய கொலம் கொத் ிருப்பவர்களுக்கு
இது இன்னும் தபரி ொக்கும். இண தயல்லொம் அறிந் ஒரு கைினி தமொழி [computer
programming] வல்லுனர் ஒருவபொதும் மிணழ கைினி தமொழியொக வ ர்ந்த டுக்க மொட்டொர்.
தவறும் பல்கணலக்கழகங்களில் வசொ ணனப் பயிற்சியொக மட்டுவம இருக்கும்.
சரியொன
மிழ் ஒருங்குறி
1)
மிழ் அரிச்சுவடியில் கொைப்படுவது வபொல்,
வவண்டும்.
மிழ் தநடுங்கைக்கு ஒருங்குறியில் ஏற்றப்பட
2)
கிரந் , மற்றும் மிழ் எண்கள், சிறப்பு குறியீடுகள் என்று அணனத்தும் ஒழுங்கு வரிணசயில்,
[ மிழ் அறிஞர்களின் பரிந்துணரயில்], ஏறுவரிணசயிவலொ (அ) இறங்கு வரிணசயிவயொ
ஏற்றப்பட வவண்டும்.
3)
ஒவ்தவொரு மிழ் எழுத் ிற்கும் உண்டொன இலக்கத்ண ணவத்து இது எந் தமய், எந்
உயிரிலிருந்து வ ொன்றிய த ன்று அறியும்வண்ைம் ஏற்றப்பட வவண்டும். [TUNE இல் அப்படி
தசய் ிருக்கிறொர்கள்]
4)
விசர்க்கம், அனுஸ்வரொ என்ற தபயர்கணள
5)
ஒரு எழுத்ண கைினியில் த ரிய ணவக்க பல முணறகள் இருந் ொலும் [உ+ம்: 'வபொ' ணவ
இரண்டு முணறயில் த ரிய ணவக்கலொம்], ஒரு முணறவய இறு ியொன வசமிப்பு முணறயொக
இருக்க வவண்டும். அ ொவது விணசப்பலணகயில் ட்டச்சும்வபொது பல முணறகளில் ஒரு
எழுத்ண வ ொன்றணவக்க முடியுதமன்றொலும், கைினியில் அது ஒரு முணறயிவலவய
இருக்க வவண்டும். அந்த ஒரு முறை ஒரு [தற்ப ோது உள்ளதுப ோல்] கூட்டெழுத்தோக
இல்லோமல், தனி எழுத்தோக ஒரு இலக்கம் டகோடுக்கப் ட்ெ எழுத்தோக இருக்க பேண்டும்.
இண ஒருங்குறி அணமப்பின் “Normalization" வி ியொக ஏற்றினொல் சொத் ியமொகும்.
6)
ஏற்கனவவ ஏற்றப்பட்ட எழுத்துக்கணள இனிவமல் மொற்ற இயலொது. அ னொல், ஏற்றப்படொ
எழுத்துக்கணள ஏற்றலொம், (அ) வவறு ஓர் இடத் ில் ஒழுங்கு வரிணசயொக ஏற்றலொம்.
மிழ் எழுத்துக்களுக்கு ணவக்கொமல்
விர்க்கலொம்
வகள்வி + ப ில்கள்
1)
“ மிழ் ஒழுங்கு மொறி ஏற்றியிருப்ப ொல்
தசய்யலொம்.”
ொன் இந் ிய தமொழிகளுக்குள்வள தமொழி மொற்றம்
ஒரு தமொழியிலிருந்து இன்னுவமொர் தமொழிக்கு மொற்றம் தசய்ய எழுத்துக்களும் அவ
மொ ிரி மொறி இருக்க வவண்டுதமன்பது இல்ணல. இந் தமொழி மொற்றுவத ன்பது ஒரு
தமன்தபொருளின் தசயல். அ னொல் தமன்தபொருணள அ ற்வகற்றொற்வபொல் யொரித் ொல் சரி.
உண்ணமயில் இது ொன் எண்ைமொக இருந் ொல், எந் தமொழியில் அ ிக எழுத்துக்கள்
இருக்கிறவ ொ, அந் தமொழிணய அடிப்பணடயொக ணவத்வ மற்றய தமொழிகளின் எழுத்துக்கள்
இடம் மொறி ணவக்கப்பட்டிருக்க வவண்டும்.
2)
“இவ்வளவு கொலமும் இப்படித்
ொவன இருந் து.”
ொவன எழுத்ண
பிரித்துப் பிரித்து கூட்தடழுத்துப் வபொல்
ஒருங்குறிக்கு முன்பிருந் தமொழிக்கொன எந் ஒரு கு ரத் ிலும் [TAM, TAB, TSCII], மிழ்
எழுத்துக்கள் முழுவண யும் ஏற்ற இடம் வபொ ொது என்ப ொல் ணகயொண்ட முணறவய
எழுத்ண பிரித்துப் பிரித்து வசமித் ல் என்பது. ஆனொல், இந் இடப் பிரச்சிணன
ஒருங்குறியில் இல்ணல. இங்வக மிழ் முன்வனற ஒரு சந் ர்ப்பம் கிணடத்தும் அண சில
புத் ிஜீவிகள் பணழயன கழி ணல விரும்பவில்ணல.
3)
“ஒருங்குறி ஒன்றியம் எந் தமொழிக்கும் அ ன் அடிப்பணட எழுத்துக்கள் மட்டுவம
ஏற்றப்படலொம் என்று வி ித்துள்ளது. அ னொல், மிழின் தநடுங்கைக்ணக ஏற்ற முடியொது.”
ஏற்கனவவ இந் வி ி பல தமொழிகளுக்கு மீ றப்பட்டு உள்ளது [ஆங்கிலம், ஐவரொப்பிய
தமொழிகள், பொலின ீஸ், சீன எழுத்துக்கள்].
மிழில் கூட உயிர், தமய் எழுத்துக்கள் ொவன
அடிப்பணட எழுத்துக்கள். அப்படியொயின் ஒருங்குறியில் தமய் எழுத்துக்கள் ஏன்
இல்லொமல், புள்ளி அகன்ற உயிர்தமய் எழுத்து மட்டும் இருக்கிறவ . இது எவ்வொறு
ஏற்றுக்தகொள்ளப்பட்டது?
வகள்வி + ப ில்கள்
1)
“ஒருங்குறியில் எழுத் ின் வரிணச முக்கியம் இல்ணல.”
அ ற்கொக எழுத்துக்கணள ஒழுங்கு வரிணசயொக ஏற்றக்கூடொது என்று அர்த் ம் இல்ணல.
ஒழுங்கு வரிணசயொக ஏற்றியிருந் ொல், வவகம் கூடிய வரிணசயொக்கும் முணறணய [binary sort]
உபவயொகிக்கலொம். இது இப்வபொ ய மிழ் ஒருங்குறியில் சொத் ியமில்ணல. ஒழுங்கு வரிணச
முக்கியமில்ணல என்றொல், த ன் ஆசியொ விர்ந் மற்றய தமொழிகள் ஏன் ம்
எழுத்துக்கணள ஒழுங்கு வரிணசயில் ஏற்றியிருக்கின்றன?
2)
“ மிழில் பு ி ொக கிரந் எழுத்துக்கள் ஏற்றுகிவறொம் [உ+ம்: 4 வது 'ச']. உபவயொகிக்க
விருப்பமொனவர்கள் உபவயொகிக்கலொம், இல்லொ வர்கள் அண த் விர்க்கலொம்”
இவ வபொல் மிழில் உள்ள தநடுங்கைக்ணகயும் ஏற்றியிருக்கலொவம. விருப்பமொனவர்கள்
உபவயொகிப்பொர்கள்; மற்றவர்கள் அண த் விர்ப்பொர்கள்.
3)
" ற்வபொண ய மிழ் ஒருங்குறி முணறயில்
எந் உயிர், தமய் என்று கண்டறியலொம்.“
ொன்
மிழ் எழுத்துக்கணளப் பகுத் ொயலொம்.
ஒவ்தவொரு மிழ் எழுத் ிற்கும் உண்டொன இலக்கத்ண ணவத்து இது எந் தமய், எந்
உயிரிலிருந்து வ ொன்றிய த ன்று அறியும்வண்ைம் ஏற்றினொலும் பகுத் ொயலொம். [TUNE இல்
அப்படி தசய் ிருக்கிறொர்கள்]
4) “ISCII ஐ பிணழ என்று அன்வற
ிருத் ி இருக்கலொவம”
ISCII ஐ மிழுக்கு உகந் து அல்ல என்று இனங்கண்டு
மிழ் எழுத்துரு கு ரங்கள் வடிவணமக்கப்பட்டன.
ொன் Tஸ்Cஈஈ, TஆB, TஆM என்ற பிற
வகள்வி + ப ில்கள்
1)
“விசர்க்கம், அனுஸ்வரொ என்னும் தபயர்கள் த ன் ஆசிய தமொழிகள் அத் ணனக்கும்
ஒருங்குறி அணமப்பு தகொடுத்துள்ள தபயர்.”
வறு. ஒருங்குறி ஒன்றியத் ின் பங்கு இ ில் இல்ணல. இந் ிய அரசு எண க் தகொடுத் வ ொ
அண அவர்கள் அப்படிவய ஏற்றியிருக்கிறொர்கள். ஒருங்குறி அணமப்பு எந் ஒரு தமொழிக்கும்
ொங்களொக தபயர் ணவத் து கிணடயொது.
2)
“ஒருங்குறியில் மிணழ மொற்றினொல், இவ்வளவு கொலமும் உள்ள
எல்லொம் உபவயொகமற்ற ொகி விடும்.”
மிழ் த ொகுப்புக்கள்
ற்வபொண ய மிழ் ஒருங்குறிக்கு, பணழய மிழ் த ொகுப்புக்கணள மொற்றவவ ஒரு தமன்
தசயலி வ ணவ ொவன. பல இணையத் ளங்களில் இணவ கிணடக்கின்றன. அகவவ, இந்
மொறுபட்ட ஒருங்குறித் மிழுக்கு பணழய மிழ் த ொகுப்புக்கணள மொற்ற ஒரு தசயலிணய
இணையத் ில் பகிர்ந்துதகொள்வது தபரிதும் சிக்கலொனது அல்ல.
3)
“பல்லொயிரக்கைக்கொவனொர் இப்வபொது இருக்கும் மிழ் ஒருங்குறிணயப் பொவிக்கிறொர்கள்.
இனிவமல் மொற்றினொல் உருவொக்கிய அத் ணன த ொகுப்புக்களும் உபவயொகமற்ற ொகிவிடும்.”
TSC, TAB, TAM வபொனற கு ரங்களிலிருந்து ஒருங்குறிக்கு மொறவில்ணலயொ?
பணழய ிலிருந்து பு ிய, தசயற் ிறன் மிக்க கு ரத் ிற்கு மொறிக்தகொண்டு ொன்
வந் ிருக்கிவறொம். இதுவும் அப்படிவய. இவர்கள் உருவொக்கிய ற்கொக எ ிர்கொல சந்
முடக்கலொமொ?
ிணய
வகள்வி + ப ில்கள்
1)
"ஒருங்குறி அணமப்பில் மிழ் நொடு, "உத் மம்" வபொன்ற அணமப்புகளும் அங்கம்
வகிக்கின்றன. அவர்கள் மிணழ சரியொக ஏற்றியிருக்கலொவம.“
ஒருங்குறி அணமப்பிற்கு மிழ் தமொழிணய ISCII அணமப்பு 1983 ம் ஆண்டு வளங்கியது.
அன்ணறய கொலகட்டத் ில், வமற்குறிப்பிடப்பட்ட அணமப்புக்கள் அங்கம் வகிக்கவில்ணல. ISCII
எந் ஒரு மிழ் அறிஞணரயும் இது த ொடர்பொக கலந் ொவலொசிக்கவில்ணல. ஒருமுணற
ஏற்றினொல், அண மொற்ற இயலொது என்பது ஒருங்குறி அணமப்பின் வி ியொகும்.
இ னொவலவய ஏற்றிய மிணழ இனிவமல் சரி தசய்ய இயலொது என்று ஒருங்குறி அணமப்பு
முடிவொக தசொல்லிவிட்டது. அ னொல், வவறு ஒரு இடத் ில் மீ முள்ள மிழ் எழுத்துக்கணள
ஏற்றும் முயற்சிணய TUNE தசய்கிறது.
2)
"ஒருங்குறி அணமப்பு
ஏற்ற முடியொது. “
மிழுக்கு தகொடுக்கப்பட்ட இடத் ில் எங்களொல்
ஒருங்குறி ஒன்றியத் ிடம்
ISCII வறு தசய்துவிட்டது.
3)
மிழ் தநடுங்கைக்ணக
மிழுக்கு இவ்வளவு இடம் வபொதும் என்று தசொன்னது ISCII.
மிழுக்கு வமலும் இடம் வ ணவ என்று வகட்க வவண்டும்.
”எல்லொ எழுத்துக்களும், ஒழுங்கு வரிணசயில் கைினியில் ஏற்றத் வ ணவயில்ணல.
அடிப்பணட குறியீடுகள் எந் ஒழுங்கிலொவது ஏற்றினொல் வபொதும்.”
சரிவய. ஆனொல், ஒழுங்கு வரிணசயொக எல்லொ எழுத்துக்கணளயும் ஏற்றினொல், மிழின் கைினிச்
தசயற் ிறன் அ ிகமொக இருக்கும். உ+ம்: ஆங்கிலத் ில், சிறிய எழுத்துக்கள் மட்டும்
ஏற்றியிருக்கலொவம? ஃபிரஞ்சு, வஜர்மன் வபொன்ற தமொழிகளில், அவர்களது “accent" கணள
னிக் குறியீடொக மட்டும் ஏற்றியிருக்கலொவம. ஏன் முழு எழுத்துக்களொகவும்
ஏற்றியிருக்கிறொர்கள்? ஏன் ஆங்கில எழுத்துக்கள் ஒரு வரிணசயில் ஏற்றப்பட்டுள்ளது?
கொரைம்: இவ்வொறு ஏற்றினொல் அ ில் அ ிக பயன் கிணடக்கும்.
மிழும் வவகமொக
முன்வனறும்.