ریشه یابی کلمات فارسی

Download Report

Transcript ریشه یابی کلمات فارسی

‫‪MACHINE TRANSLATION‬‬
‫ترجمه ماشینی‬
‫ارائه دهنده‪:‬احمد استيري‬
‫زير نظر ‪ :‬دكتر کاهانی‬
‫دانشگاه فردوس ي مشهد‬
‫پایيز ‪89‬‬
‫مطالب‬
‫‪ ‬مقدمه‬
‫‪ ‬پردازش زبانهای طبیعی‬
‫‪ ‬ترجمه ماشینی‬
‫‪ ‬انگيزه ترجمه ماشينی‬
‫‪2‬‬
‫‪ ‬تاريخچه ترجمه ماشينی‬
‫‪ ‬مشکالت در ترجمه ماشينی‬
‫‪ ‬اجزای اصلی معماری ماشين های ترجمه‬
‫‪ ‬بیان کلی روش های ترجمه ماشینی و مقایسه آن ها‬
‫‪ ‬ارزیابی ترجمه ماشینی‬
‫‪ ‬کارهای انجام شده در زمینه زبان فارس ی‬
‫‪ ‬جمع بندی و نتیجه گيری‬
‫مقدمه‬
‫‪ ‬پردازش زبانهای طبیعی نقش ی بسیار عمدده و کییددی بده ص در در ترجمده ماشدینی‬
‫بازیددابی اطالعددات تددن و دوزباندده صالصدده رددازی ارددناد مددد ری م ددرا در ر س د م‬
‫ه د ددای آمرزش د ددگر صطا د دداک ن د ددری و معن د ددا ی م د ددرن در و ترلی د ددد م د ددرن فارسد د د ی‬
‫تشخیص صحب تبد ل متن به گف ار ت ییل ن ری ارد ررا اطالعدات از م درن‬
‫و بسیاری کاربردهای د گر ا فا می کند‪.‬‬
‫‪ ‬ترجم دده ی ماش ددینی(‪ )Machine Translation‬زی ددر ش دداصه ای از زبانشناسد د ی‬
‫م ارددباتی میباشددد کدده عبددارت ارد از ترجمدده ی م نددی از ددن زبددان طبیعددی بدده زبددا ی‬
‫د گر تررط کامپیرتر‪.‬‬
‫‪3‬‬
‫پردازش زبانهای طبیعی‬
‫‪ ‬نیاز اراس ی به پردازش زبانهای طبیعی با ترجه به رشد حجم‬
‫مستندات ترلید شده و نیاز به نگهداری در ه بندی بازیابی و پردازش‬
‫ماشینی و رر ع آنها‬
‫‪ ‬مرا ع اراس ی‬
‫‪ ‬نیاز به در معا ی‬
‫‪ ‬حسن ر ب را نرررد برای ا ن که کال برد‪.‬‬
‫‪ ‬حسن ر ب را نرررد برای ا ن که رير برد‪.‬‬
‫‪ ‬دقیق نبردن در رر زبانها‬
‫‪ ‬باز روی زمين شس ‪.‬‬
‫‪4‬‬
‫زبانشناس ی م ارباتی‬
‫‪ ‬فرا اف ‪ concept‬و تجزیه زبان های برنامه نر س ی‪:‬‬
‫‪ ‬نرآم چامسکی ترا س تشابه زبانهای طبیعی و زبانهای برنامه نر س ی را به اثبات برراند‪.‬‬
‫‪ ‬ترجمه ماشینی‪:‬‬
‫‪ ‬شناص مفهرم صا‬
‫ن واژه در جمیه با تجزیه واژهها ن ر مفهرم و رپس معنا‬
‫‪ ‬پررش و پاسخ با زبانهای طبیعی‪:‬‬
‫‪ ‬مسئیه ارتباط ا سان و ماشين‬
‫‪ ‬صرف م ارباتی‪:‬‬
‫‪5‬‬
‫‪ ‬به مطالعات مربرط به راص ارهای درو ی کیمات صرف گف ه میشرد‪.‬‬
‫ترجمه ماشینی‬
‫‪ ‬ترجمه ماشینی ترجمهای ار که تررط کامپیرتر و بدون دصال فرد انجام‬
‫میشرد ‪.‬‬
‫‪ ‬در رطح مقدماتی ترجمه ماشینی ن جا گزینی راده برای کیمات از زبان طبیعی‬
‫به زبان د گری ار ‪.‬‬
‫‪ ‬با ار فاده از تکنینهای زبانشناس ی پیکره ای ترجمههای پیچیده ب شتری قابل‬
‫درتیابی هستند‪.‬‬
‫‪6‬‬
‫‪ ‬واكاف واژه اي واكاف راص راژي واكاف ن ري و واكاف معنايي متن برای‬
‫درتیابی به ترجمه ماشینی‬
‫انگيزه ترجمه ماشينی‬
‫‪ ‬جها ی رازی (‪)Globalization‬‬
‫‪ ‬تررعه ارتباطات از طريق اينترن‬
‫‪ ‬رشد جالب ترجه شبکههای اج ماعی همانند ف س بر ا پیامررانهای فرری‬
‫‪ ‬فراهم رازی ورییه ای مثل مربا ل برای ترجمه همزمان در حين مکامله دو شخص‬
‫با دو زبان م فاوت و به صرفه بردن از ديدگاه اق ادی‬
‫‪ ‬گسترش م رن عیمی فرهنگی اصبار و ‪...‬‬
‫‪7‬‬
‫تاريخچه ترجمه ماشينی‬
‫‪8‬‬
‫‪ ‬ترجمه ی ماشینی از جمیه ی اولين اهداف مدررد نردر در عیدرم را انده و بر در در‬
‫حرزه ی هرش ماشینی به حساک میآ دد و ردابقه ی آن بده بد ش از ندیم قدرن پد ش از‬
‫ا ن باز میگردد‪.‬‬
‫‪ ‬ت ددالش بد دراي ر دداصتن مت ددرجم ماش ددينو از ده دده سد د و م دديالدي ش ددرو ش ددده ب ددرد‪ .‬مت ددرجم‬
‫ماشددينو را آن زمددان وردديیهاي ردداده نريددر ماشددين حسدداک ميدا سددتند دده بدده راحتددو‬
‫زبددا ي را بدده زبددان ديگددر ترجمدده مي نددد‪ .‬ايددن رددادهانگاري انددد انددد جدداي صددرد را بدده‬
‫واقعبينو داد‪.‬‬
‫‪ ‬نرسد ين ترجمددهای کدده بطددرر کامددل تررددط کددامپیرتر انجددام شددد ترجمدده ی م نددی بددرد‬
‫از زبان انگی س ی به زبان روس ی‪ 1933( .‬میالدی)‬
‫‪ ‬در حال حاضر ا جاد ن ماشدين ترجمده کدی از اصدلی تدرین ریارد هدای کشدررها و‬
‫ش ددرک ه ددای تج دداری م ددی باش ددد و عالق دده من دددان بس ددیاری ني ددز در ا ددن زمین دده در ح ددال‬
‫بررس ی و پژوهش می باشند‪.‬‬
‫مشکالت ترجمه ماشینی‬
‫‪ ‬نیاز به در معا ی‬
‫‪ ‬دقیق نبردن در رر زبانها‬
‫‪ ‬زا ا ی پد ده زبان‬
‫‪ ‬نر و پیچیدگی م رن مررد نرر‬
‫‪9‬‬
‫‪ ‬غیط های امال ی ن ری و نگارش ی در متن‬
‫اجزای اصلی معماری ماشين های ترجمه‬
‫‪ ‬برش واژگا ی‬
‫‪ ‬برش صرفی‬
‫‪ ‬برش ن ری‬
‫‪ ‬برش معنايی‬
‫‪10‬‬
‫روشهای ترجمه ماشینی‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫شيره مب نی بر معماری مس قيم يا ترا سفررمر‬
‫شيره مب نی بر ان قال‬
‫شيره ميان زبا ی‬
‫‪ ‬روش مب نی بر پيکره زبا ی‬
‫‪ ‬روشهای آماری ترجمه ماشينی‬
‫‪ ‬روشهای مب نی بر مثال ترجمه ماشينی‬
‫‪ ‬ريس م های زبان کنترل شده‬
‫‪ ‬ريس م تمام‪-‬صردکار ترجمه ماشينی (‪)FAHQT‬‬
‫‪ ‬ترجمه ماشینی پیرندی (‪)Hybrid‬‬
‫‪11‬‬
‫بررس ی روشهای ترجمه ماشینی‬
‫‪ ‬روشهای آماری ترجمه ماشينی‪:‬‬
‫‪ ‬در روشهای آماری هدف حداقل رازی صطای ت میم با ار فاده از تئرری ت میم آماری ا‬
‫قاعده بيز میباشد‪ .‬در واقع به مسئیه ترجمه به صررت ن مسئیه ادگيری ماشين برصررد می‬
‫کند ‪.‬‬
‫‪ ‬شیره کلی آنها در واقع بررس ی دقیق ترجمه های انجام شده تررط ا سان آمرصتن آن و‬
‫رپس ارا ه ترجمه بر اراس آمرزش های مرحیه قبل می باشد ‪.‬‬
‫‪ ‬روشهای مب نی بر مثال ترجمه ماشينی ا روشهای مب نی بر حافره‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪12‬‬
‫ار فاده از ترجمه های ا سا ی مرجرد ا پيکره های دوزبانه برای ترجمه متنهای جد د‬
‫بهره گيری از واژگان معنا ی (‪ )WordNet‬بسیار عریم و گسترده‬
‫بررس ی روشهای ترجمه ماشینی‬
‫‪ ‬ريس م های زبان کنترل شده‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ريس مهایكاربردی با مجمرعه واژگان و راص ارهای معين و از پيش تعيين شده‬
‫م رن نرش ه شده کمتر دارای ابهام برده و لذا ماشين ترجمه کمتر مشکل ابهام زدايی صراهد‬
‫داش ‪.‬‬
‫متن اوليه بهتر و در نتیجه متن صروجی با کيفي بهتر‬
‫‪ ‬ريس م تمام‪-‬صردکار ترجمه ماشينی (‪:)FAHQT‬‬
‫‪‬‬
‫‪‬‬
‫‪13‬‬
‫‪‬‬
‫تمام اترماتین کردن فرآ ند ترجمه با ترجه پيشرفتهای حاصیه در رالهای اصير در زمينه هرش‬
‫م نرعی ريس مهای فازی و شبكه های ع بی‬
‫پيش‪ -‬ويرايش و پس‪-‬ويرايش متن‬
‫غیط ياک اماليی و ن ری‬
‫بررس ی روشهای ترجمه ماشینی‬
‫‪ ‬ترجمه ماشینی پیرندی (‪)Hybrid‬‬
‫‪14‬‬
‫‪‬‬
‫روش پیرندی قدرتمندی دو روش آماری و قانرنمند را باهم ادغام می کند‪.‬‬
‫‪‬‬
‫معیارهای آماری از اب دا تررط قرانين هدا‬
‫م شرند‪.‬‬
‫‪‬‬
‫قرانين برای پ ش‪-‬پردازش دادهها برای هدا‬
‫شرند‪.‬‬
‫بهتر مرترر آماری ار فاده می‬
‫‪‬‬
‫قرانين همچنين برای پس‪-‬پردازش صروجی مرترر آماری برای پیاده رازی عمییاتی‬
‫همچرن نرمال رازی و رفع ابهام از متن مرجرد ار فاده می شرند‪.‬‬
‫مقایسه روشهای ترجمه ماشینی‬
‫‪ ‬دشراری کار ترجمه صردکار بدر آوردن اطالعات کافی از نر صحیح آن برای‬
‫پش با ی روش ی صا می باشد‪.‬‬
‫‪ ‬هر کدام از ا ن روشها دارای نقاط قرت و ضعف اراس ی می باشند‪:‬‬
‫‪ ‬ب دده عن ددران مث ددال ددن پیک ددره ور ددیع چن ددد زب ددا ی از داده ه ددا ب درای روش ددهای آم دداری م ددررد نی دداز‬
‫میباشد که عمل ار ن ا با ترجده بده آنهدا صدررت مدی گيدرد‪ .‬حدال آنکده بدرای روشدهای مب ندی‬
‫بر در رر زبان الزم ن س ‪.‬‬
‫‪ ‬امددا از رددر ی د گددر روشددهای مب نددی بددر در د رر زبددان نیدداز بدده ددن زبددان شددناس حرفدده ای ب درای‬
‫طراحی دقیق در رر زبا ی کده ارد فاده صراهدد شدد دارندد و در ا دن روشدها پیچیددگی سدت ا‬
‫زیادی مرجرد ار ‪.‬‬
‫‪15‬‬
‫ارزیابی ترجمه ی ماشینی‬
‫‪ ‬قد ددد میترین روش ار د د فاده از داورهد ددای ا سد ددا ی ب د درای ارزید ددابی کیفی د د‬
‫میباشد‪.‬‬
‫د ددن ترجمد دده‬
‫‪ ‬ابزاره د د د ددای ارزی د د د ددابی صردک د د د ددار ش د د د ددامل بی د د د ددر م د د د ددرل ش د د د ددرک آیب د د د ددیام(‪)BLEU‬‬
‫ن س (‪ )NIST‬و م ئرر (‪ )METEOR‬می باشند‪.‬‬
‫‪ ‬جا گزین ارزشیابی دوزبانه ا ‪ : BLEU‬عددی بين صفر تا ن‬
‫‪ ‬تس ماشين ترجمه با م رن پیچیده طرال ی و ا حاوی لغات چند معنا‬
‫‪16‬‬
‫‪ ‬تس ماشين ترجمه با ترجمه برعکس م رن‬
‫کارهای فعلی ترجمه ماشینی در زبان فارس ی‬
‫‪17‬‬
‫‪ ‬پروژه دنا ‪ 1‬و دنا ‪ 2‬تررط دا شگاه صنعتی شریف‬
‫‪ ‬ترجم دده ماش ددینی ب ددا به ددره گي ددری از روش ددهای آم دداری ترر ددط ت ددیم ت قیق دداتی دکت ددر‬
‫عبدالحسد د ددن ص د د دراف زاده (رئد د دديس دا شد د ددكده كد د ددامپيرتر و فند د دداوري اطالعد د ددات‬
‫دا شگاه يرني ك نيرزيیند)‬
‫‪ ‬ار د فاده از پیک ددره ه ددای بس ددیار عر ددیم ت ددن زبان دده و دو زبان دده بد درای بهب ددرد رون ددد‬
‫ترجمه‬
‫‪ ‬ترجم د دده ماش د ددینی ب د دده روش آم د دداری ر د ددعی در ترلی د ددد ترجم د دده ه د ددا ی دارد ک د دده از‬
‫روشهای آماری مب نی بر پیکرههای م نی دوزبا ی ار فاده می کنند‪.‬‬
‫‪ ‬ادگيری (‪ )Learning‬کی از پا ه های اراس ی ا ن روش بشمار می رود‪.‬‬
‫‪ ‬نتیجده بهتدر در ترجمده انگی سد ی بده فارسد ی سدت بده ‪ Google Translate‬بده‬
‫صاطر وجرد ‪ Persian monolingual corpuse‬عریمتر و گسترده تر‬
‫آ نده ترجمه ماشینی‬
‫‪ ‬ترجمة نرش ه به صرت‬
‫‪ ‬برگردان نرش ه به نمایش گرافیکی زبان اشاره‬
‫‪ ‬ترجمه صرت به صرت‬
‫‪ ‬ترجمه صرت به متن‬
‫‪ ‬چه در داصل ن ر س م زبا ی و چه به زبان د گر‬
‫‪18‬‬
‫جمع بندی و نتیجه گيری‬
‫‪ ‬ترجمدده ماشددینی بدده معنددای ترجمدده صردکددار جمددالت از ددن زبددان طبیعددی بدده زبددان د گددر‬
‫ار د بدده گرندده ای کدده فددرد بددرمی زبددان مق ددد همددان مفهددرمی را دریاف د کنددد ک ده‬
‫گرینده مدنرر داش ه ار ‪.‬‬
‫‪ ‬گ د ددام ه د ددای م د ددررد نی د دداز در ترجم د دده ماش د ددينو عب د ددارت ان د ددد از‪ :‬واكاف د د واژه اي واكاف د د‬
‫رد دداص راژي واكاف د د ن د ددري واكاف د د معند ددايي تشد ددخيص نقد ددش كیمد ددات در جمید دده‬
‫تشخيص معناي صحيح كیمات‬
‫‪19‬‬
‫‪ ‬مهمترين برش يك مترجم ده دقد در آن باعدا بداال رفدتن دقد كدل عمدل ترجمده مدي‬
‫گدردد رفدع ابهددام معندايي از كیمدات جمددالت زبدان مبددا ونيددز رفدع ابهدام از ترجمدده آنهدا بدده‬
‫زبان مق د مي باشد‪.‬‬
‫جمع بندی و نتیجه گيری‬
‫‪ ‬ر س م های مترجم فعلی عمرما مب نی بر قراعد زبا ی مب نی بر نرش جات نمرنه‬
‫و ترجمه ماشینی مب نی بر روشهای آماری می باشند‪.‬‬
‫‪ ‬در ح ددال حاض ددر بهت ددر ن عمیک ددرد مرب ددرط ب دده ر س د م ه ددای ترجم دده ماش ددینی مب ن ددی ب ددر‬
‫روشهای آماری می باشد‪.‬‬
‫‪ ‬با ا ن وجرد کی از چالشها ی که همچندان ترجمده ماشدینی مب ندی بدر روشدهای آمداری‬
‫و همدده روشددهای مررددرم بددا آن در د بدده گریباننددد مرضددر عدددم ترجدده بدده معنددا و‬
‫مفاهیم درون متن می باشد‪.‬‬
‫‪20‬‬
‫پ شنهادات‬
‫‪ ‬تهی د دده واژگ د ددان معن د ددا ی (‪ )WordNet‬بس د ددیار عر د ددیم و گس د ددترش و بروزرر د ددا ی‬
‫م داوم آن‬
‫‪ ‬م دددود کددردن حددرزه ی مرضددرعی مددتن ددا تهیدده واژگددان معنددا ی بدده ازای مرضددرعات‬
‫م فاوت وابس ه با م رن مر یف‬
‫‪ ‬بهره گيری از راص ارهای پ ش پردازش و پس پردازش برای ار انداردرازی متن‬
‫‪ ‬در نرر گرفتن کییه غیط های امال ی نگارش ی و ‪ ...‬در ابزار پ ش پردازش متن‬
‫‪21‬‬
‫منابع‬
[1] Booth, K. H. V. (1967). Machine aided translation with a post-editor. In A. D. Booth
(Ed.), Machine Translation (pp. 53-76). Amsterdam: North-Holland Publishing
Company.
[2] Crystal D. ،The Cambridge Encyclopedia of Language ،2nd edition ،Cambridge
University Press ،1996. ISBN 0-521-55967-7
‫ روزنامه کیهان‬،‫ استاد زبانشناسی و مطالعات ترجمة دانشگاه عالمه طباطبایی‬.‫[ فرحزاد ف‬3]
[4] Manning ،C. D. ،and Schutze ،H. ،Foundations of Statistical Natural Language
Processing ،5th edition ،The MIT Press ،2002. ISBN 0-262-13360-1
[5] Boretz, Adam, "AppTek Launches Hybrid Machine Translation Software"
SpeechTechMag.com (posted 2 MAR 2009)
[6] Claude Piron, Le défi des langues (The Language Challenge), Paris, L'Harmattan,
1994.
‫ دانشكده مهندسی‬،‫ پایان نامه كارشناسی ارشد‬.‫ بررسی مسایل درك متن فارسی و پیاده سازی نمونه هایی از آن‬. ‫[ امامی م‬7]
. 1376،.‫ دانشگاه صنعتی شریف‬،‫كامپیوتر‬
. 1389 ،‫ آمفي تئاتر دانشكده مهندسي‬، ‫ سمینار علمی‬.‫[صراف زاده ع‬8]
[9] Milestones in machine translation - No.6: Bar-Hillel and the nonfeasibility of FAHQT
by John Hutchins
22
‫با رپاس از ترجه شما‬
http://Ahmad.Estiri.fumblog.um.ac.ir
23