ریشه یابی کلمات فارسی
Download
Report
Transcript ریشه یابی کلمات فارسی
MACHINE TRANSLATION
ترجمه ماشینی
ارائه دهنده:احمد استيري
زير نظر :دكتر کاهانی
دانشگاه فردوس ي مشهد
پایيز 89
مطالب
مقدمه
پردازش زبانهای طبیعی
ترجمه ماشینی
انگيزه ترجمه ماشينی
2
تاريخچه ترجمه ماشينی
مشکالت در ترجمه ماشينی
اجزای اصلی معماری ماشين های ترجمه
بیان کلی روش های ترجمه ماشینی و مقایسه آن ها
ارزیابی ترجمه ماشینی
کارهای انجام شده در زمینه زبان فارس ی
جمع بندی و نتیجه گيری
مقدمه
پردازش زبانهای طبیعی نقش ی بسیار عمدده و کییددی بده ص در در ترجمده ماشدینی
بازیددابی اطالعددات تددن و دوزباندده صالصدده رددازی ارددناد مددد ری م ددرا در ر س د م
ه د ددای آمرزش د ددگر صطا د دداک ن د ددری و معن د ددا ی م د ددرن در و ترلی د ددد م د ددرن فارسد د د ی
تشخیص صحب تبد ل متن به گف ار ت ییل ن ری ارد ررا اطالعدات از م درن
و بسیاری کاربردهای د گر ا فا می کند.
ترجم دده ی ماش ددینی( )Machine Translationزی ددر ش دداصه ای از زبانشناسد د ی
م ارددباتی میباشددد کدده عبددارت ارد از ترجمدده ی م نددی از ددن زبددان طبیعددی بدده زبددا ی
د گر تررط کامپیرتر.
3
پردازش زبانهای طبیعی
نیاز اراس ی به پردازش زبانهای طبیعی با ترجه به رشد حجم
مستندات ترلید شده و نیاز به نگهداری در ه بندی بازیابی و پردازش
ماشینی و رر ع آنها
مرا ع اراس ی
نیاز به در معا ی
حسن ر ب را نرررد برای ا ن که کال برد.
حسن ر ب را نرررد برای ا ن که رير برد.
دقیق نبردن در رر زبانها
باز روی زمين شس .
4
زبانشناس ی م ارباتی
فرا اف conceptو تجزیه زبان های برنامه نر س ی:
نرآم چامسکی ترا س تشابه زبانهای طبیعی و زبانهای برنامه نر س ی را به اثبات برراند.
ترجمه ماشینی:
شناص مفهرم صا
ن واژه در جمیه با تجزیه واژهها ن ر مفهرم و رپس معنا
پررش و پاسخ با زبانهای طبیعی:
مسئیه ارتباط ا سان و ماشين
صرف م ارباتی:
5
به مطالعات مربرط به راص ارهای درو ی کیمات صرف گف ه میشرد.
ترجمه ماشینی
ترجمه ماشینی ترجمهای ار که تررط کامپیرتر و بدون دصال فرد انجام
میشرد .
در رطح مقدماتی ترجمه ماشینی ن جا گزینی راده برای کیمات از زبان طبیعی
به زبان د گری ار .
با ار فاده از تکنینهای زبانشناس ی پیکره ای ترجمههای پیچیده ب شتری قابل
درتیابی هستند.
6
واكاف واژه اي واكاف راص راژي واكاف ن ري و واكاف معنايي متن برای
درتیابی به ترجمه ماشینی
انگيزه ترجمه ماشينی
جها ی رازی ()Globalization
تررعه ارتباطات از طريق اينترن
رشد جالب ترجه شبکههای اج ماعی همانند ف س بر ا پیامررانهای فرری
فراهم رازی ورییه ای مثل مربا ل برای ترجمه همزمان در حين مکامله دو شخص
با دو زبان م فاوت و به صرفه بردن از ديدگاه اق ادی
گسترش م رن عیمی فرهنگی اصبار و ...
7
تاريخچه ترجمه ماشينی
8
ترجمه ی ماشینی از جمیه ی اولين اهداف مدررد نردر در عیدرم را انده و بر در در
حرزه ی هرش ماشینی به حساک میآ دد و ردابقه ی آن بده بد ش از ندیم قدرن پد ش از
ا ن باز میگردد.
ت ددالش بد دراي ر دداصتن مت ددرجم ماش ددينو از ده دده سد د و م دديالدي ش ددرو ش ددده ب ددرد .مت ددرجم
ماشددينو را آن زمددان وردديیهاي ردداده نريددر ماشددين حسدداک ميدا سددتند دده بدده راحتددو
زبددا ي را بدده زبددان ديگددر ترجمدده مي نددد .ايددن رددادهانگاري انددد انددد جدداي صددرد را بدده
واقعبينو داد.
نرسد ين ترجمددهای کدده بطددرر کامددل تررددط کددامپیرتر انجددام شددد ترجمدده ی م نددی بددرد
از زبان انگی س ی به زبان روس ی 1933( .میالدی)
در حال حاضر ا جاد ن ماشدين ترجمده کدی از اصدلی تدرین ریارد هدای کشدررها و
ش ددرک ه ددای تج دداری م ددی باش ددد و عالق دده من دددان بس ددیاری ني ددز در ا ددن زمین دده در ح ددال
بررس ی و پژوهش می باشند.
مشکالت ترجمه ماشینی
نیاز به در معا ی
دقیق نبردن در رر زبانها
زا ا ی پد ده زبان
نر و پیچیدگی م رن مررد نرر
9
غیط های امال ی ن ری و نگارش ی در متن
اجزای اصلی معماری ماشين های ترجمه
برش واژگا ی
برش صرفی
برش ن ری
برش معنايی
10
روشهای ترجمه ماشینی
شيره مب نی بر معماری مس قيم يا ترا سفررمر
شيره مب نی بر ان قال
شيره ميان زبا ی
روش مب نی بر پيکره زبا ی
روشهای آماری ترجمه ماشينی
روشهای مب نی بر مثال ترجمه ماشينی
ريس م های زبان کنترل شده
ريس م تمام-صردکار ترجمه ماشينی ()FAHQT
ترجمه ماشینی پیرندی ()Hybrid
11
بررس ی روشهای ترجمه ماشینی
روشهای آماری ترجمه ماشينی:
در روشهای آماری هدف حداقل رازی صطای ت میم با ار فاده از تئرری ت میم آماری ا
قاعده بيز میباشد .در واقع به مسئیه ترجمه به صررت ن مسئیه ادگيری ماشين برصررد می
کند .
شیره کلی آنها در واقع بررس ی دقیق ترجمه های انجام شده تررط ا سان آمرصتن آن و
رپس ارا ه ترجمه بر اراس آمرزش های مرحیه قبل می باشد .
روشهای مب نی بر مثال ترجمه ماشينی ا روشهای مب نی بر حافره:
12
ار فاده از ترجمه های ا سا ی مرجرد ا پيکره های دوزبانه برای ترجمه متنهای جد د
بهره گيری از واژگان معنا ی ( )WordNetبسیار عریم و گسترده
بررس ی روشهای ترجمه ماشینی
ريس م های زبان کنترل شده:
ريس مهایكاربردی با مجمرعه واژگان و راص ارهای معين و از پيش تعيين شده
م رن نرش ه شده کمتر دارای ابهام برده و لذا ماشين ترجمه کمتر مشکل ابهام زدايی صراهد
داش .
متن اوليه بهتر و در نتیجه متن صروجی با کيفي بهتر
ريس م تمام-صردکار ترجمه ماشينی (:)FAHQT
13
تمام اترماتین کردن فرآ ند ترجمه با ترجه پيشرفتهای حاصیه در رالهای اصير در زمينه هرش
م نرعی ريس مهای فازی و شبكه های ع بی
پيش -ويرايش و پس-ويرايش متن
غیط ياک اماليی و ن ری
بررس ی روشهای ترجمه ماشینی
ترجمه ماشینی پیرندی ()Hybrid
14
روش پیرندی قدرتمندی دو روش آماری و قانرنمند را باهم ادغام می کند.
معیارهای آماری از اب دا تررط قرانين هدا
م شرند.
قرانين برای پ ش-پردازش دادهها برای هدا
شرند.
بهتر مرترر آماری ار فاده می
قرانين همچنين برای پس-پردازش صروجی مرترر آماری برای پیاده رازی عمییاتی
همچرن نرمال رازی و رفع ابهام از متن مرجرد ار فاده می شرند.
مقایسه روشهای ترجمه ماشینی
دشراری کار ترجمه صردکار بدر آوردن اطالعات کافی از نر صحیح آن برای
پش با ی روش ی صا می باشد.
هر کدام از ا ن روشها دارای نقاط قرت و ضعف اراس ی می باشند:
ب دده عن ددران مث ددال ددن پیک ددره ور ددیع چن ددد زب ددا ی از داده ه ددا ب درای روش ددهای آم دداری م ددررد نی دداز
میباشد که عمل ار ن ا با ترجده بده آنهدا صدررت مدی گيدرد .حدال آنکده بدرای روشدهای مب ندی
بر در رر زبان الزم ن س .
امددا از رددر ی د گددر روشددهای مب نددی بددر در د رر زبددان نیدداز بدده ددن زبددان شددناس حرفدده ای ب درای
طراحی دقیق در رر زبا ی کده ارد فاده صراهدد شدد دارندد و در ا دن روشدها پیچیددگی سدت ا
زیادی مرجرد ار .
15
ارزیابی ترجمه ی ماشینی
قد ددد میترین روش ار د د فاده از داورهد ددای ا سد ددا ی ب د درای ارزید ددابی کیفی د د
میباشد.
د ددن ترجمد دده
ابزاره د د د ددای ارزی د د د ددابی صردک د د د ددار ش د د د ددامل بی د د د ددر م د د د ددرل ش د د د ددرک آیب د د د ددیام()BLEU
ن س ( )NISTو م ئرر ( )METEORمی باشند.
جا گزین ارزشیابی دوزبانه ا : BLEUعددی بين صفر تا ن
تس ماشين ترجمه با م رن پیچیده طرال ی و ا حاوی لغات چند معنا
16
تس ماشين ترجمه با ترجمه برعکس م رن
کارهای فعلی ترجمه ماشینی در زبان فارس ی
17
پروژه دنا 1و دنا 2تررط دا شگاه صنعتی شریف
ترجم دده ماش ددینی ب ددا به ددره گي ددری از روش ددهای آم دداری ترر ددط ت ددیم ت قیق دداتی دکت ددر
عبدالحسد د ددن ص د د دراف زاده (رئد د دديس دا شد د ددكده كد د ددامپيرتر و فند د دداوري اطالعد د ددات
دا شگاه يرني ك نيرزيیند)
ار د فاده از پیک ددره ه ددای بس ددیار عر ددیم ت ددن زبان دده و دو زبان دده بد درای بهب ددرد رون ددد
ترجمه
ترجم د دده ماش د ددینی ب د دده روش آم د دداری ر د ددعی در ترلی د ددد ترجم د دده ه د ددا ی دارد ک د دده از
روشهای آماری مب نی بر پیکرههای م نی دوزبا ی ار فاده می کنند.
ادگيری ( )Learningکی از پا ه های اراس ی ا ن روش بشمار می رود.
نتیجده بهتدر در ترجمده انگی سد ی بده فارسد ی سدت بده Google Translateبده
صاطر وجرد Persian monolingual corpuseعریمتر و گسترده تر
آ نده ترجمه ماشینی
ترجمة نرش ه به صرت
برگردان نرش ه به نمایش گرافیکی زبان اشاره
ترجمه صرت به صرت
ترجمه صرت به متن
چه در داصل ن ر س م زبا ی و چه به زبان د گر
18
جمع بندی و نتیجه گيری
ترجمدده ماشددینی بدده معنددای ترجمدده صردکددار جمددالت از ددن زبددان طبیعددی بدده زبددان د گددر
ار د بدده گرندده ای کدده فددرد بددرمی زبددان مق ددد همددان مفهددرمی را دریاف د کنددد ک ده
گرینده مدنرر داش ه ار .
گ د ددام ه د ددای م د ددررد نی د دداز در ترجم د دده ماش د ددينو عب د ددارت ان د ددد از :واكاف د د واژه اي واكاف د د
رد دداص راژي واكاف د د ن د ددري واكاف د د معند ددايي تشد ددخيص نقد ددش كیمد ددات در جمید دده
تشخيص معناي صحيح كیمات
19
مهمترين برش يك مترجم ده دقد در آن باعدا بداال رفدتن دقد كدل عمدل ترجمده مدي
گدردد رفدع ابهددام معندايي از كیمدات جمددالت زبدان مبددا ونيددز رفدع ابهدام از ترجمدده آنهدا بدده
زبان مق د مي باشد.
جمع بندی و نتیجه گيری
ر س م های مترجم فعلی عمرما مب نی بر قراعد زبا ی مب نی بر نرش جات نمرنه
و ترجمه ماشینی مب نی بر روشهای آماری می باشند.
در ح ددال حاض ددر بهت ددر ن عمیک ددرد مرب ددرط ب دده ر س د م ه ددای ترجم دده ماش ددینی مب ن ددی ب ددر
روشهای آماری می باشد.
با ا ن وجرد کی از چالشها ی که همچندان ترجمده ماشدینی مب ندی بدر روشدهای آمداری
و همدده روشددهای مررددرم بددا آن در د بدده گریباننددد مرضددر عدددم ترجدده بدده معنددا و
مفاهیم درون متن می باشد.
20
پ شنهادات
تهی د دده واژگ د ددان معن د ددا ی ( )WordNetبس د ددیار عر د ددیم و گس د ددترش و بروزرر د ددا ی
م داوم آن
م دددود کددردن حددرزه ی مرضددرعی مددتن ددا تهیدده واژگددان معنددا ی بدده ازای مرضددرعات
م فاوت وابس ه با م رن مر یف
بهره گيری از راص ارهای پ ش پردازش و پس پردازش برای ار انداردرازی متن
در نرر گرفتن کییه غیط های امال ی نگارش ی و ...در ابزار پ ش پردازش متن
21
منابع
[1] Booth, K. H. V. (1967). Machine aided translation with a post-editor. In A. D. Booth
(Ed.), Machine Translation (pp. 53-76). Amsterdam: North-Holland Publishing
Company.
[2] Crystal D. ،The Cambridge Encyclopedia of Language ،2nd edition ،Cambridge
University Press ،1996. ISBN 0-521-55967-7
روزنامه کیهان، استاد زبانشناسی و مطالعات ترجمة دانشگاه عالمه طباطبایی.[ فرحزاد ف3]
[4] Manning ،C. D. ،and Schutze ،H. ،Foundations of Statistical Natural Language
Processing ،5th edition ،The MIT Press ،2002. ISBN 0-262-13360-1
[5] Boretz, Adam, "AppTek Launches Hybrid Machine Translation Software"
SpeechTechMag.com (posted 2 MAR 2009)
[6] Claude Piron, Le défi des langues (The Language Challenge), Paris, L'Harmattan,
1994.
دانشكده مهندسی، پایان نامه كارشناسی ارشد. بررسی مسایل درك متن فارسی و پیاده سازی نمونه هایی از آن. [ امامی م7]
. 1376،. دانشگاه صنعتی شریف،كامپیوتر
. 1389 ، آمفي تئاتر دانشكده مهندسي، سمینار علمی.[صراف زاده ع8]
[9] Milestones in machine translation - No.6: Bar-Hillel and the nonfeasibility of FAHQT
by John Hutchins
22
با رپاس از ترجه شما
http://Ahmad.Estiri.fumblog.um.ac.ir
23