ترجمه معنایی - آزمایشگاه فناوری وب

download report

Transcript ترجمه معنایی - آزمایشگاه فناوری وب

‫دانشکده مهندس ی‬
‫گروه کامپیوتر‬
‫آزمایشگاه فناوری وب معنایی‬
‫گزارش سمینار کارشناس ی ارشد‬
‫ترجمه ماشینی‬
‫مبتنی بر آنتولوژی‬
‫‪Click to edit Master title style‬‬
‫‪Ontology based translation machine‬‬
‫‪Click to edit Master subtitle style‬‬
‫‪1‬‬
‫به نام خدا‬
‫فهرست مطالب‬
‫• مقدمه‬
‫• آنتولوژی‬
‫• وب معنایی‬
‫• ترجمه ماشینی‬
‫• ترجمه معنایی‬
‫• نتیجه گیری‬
‫• مراجع‬
‫‪1‬‬
‫‪2‬‬
‫مقدمه‪ -‬جایگاه و ضرورت‬
‫• ترجمه ماشینی‬
‫• نانو تکنولوژی‬
‫• بیوتکنولوژی‬
‫• تکنولوژی اطالعات‬
‫• علوم شناختی‬
‫• روباتیک و هوش مصنوعی و‪...‬‬
‫‪‬بیش از ‪ 6809‬زبان متفاوت در دنیا وجود دارد‬
‫‪ 239‬زبان از این تعداد فقط در قاره اروپا استفاده می شود‪.‬‬
‫‪‬قاره آسیا ‪ 2196‬زبان متفاوت را داراست‪.‬‬
‫‪2‬‬
‫‪3‬‬
‫آنتولوژی‪ -‬تاریخچه‬
‫•‬
‫ریشه آغازین این واژه از فلسفه یونان گرفته شده که البته پس از مدتها در قرن ‪ 19‬فالسفه آملانی آن را در مورد‬
‫هستان شناس ی و مطالعه چیستی به کار برده اند ‪.‬‬
‫‪Human = Rational sensitive animate material Substance‬‬
‫‪3‬‬
‫‪4‬‬
‫•‬
‫ تعاریف رسمی‬- ‫آنتولوژی‬
•
Ontology is a term in philosophy and its meaning is ``theory of existence''.
•
Ontology is an explicit specification of conceptualization.
•
Ontology is a body of knowledge describing some domain, typically
common sense knowledge domain.
‫ مطرح کرده است و به طور کلی مورد پذیرش دانشمندان هوش‬Thomas Gruber ‫تعریف دوم را که آقای‬
‫مصنوعی می باشد که در مورد آنتولوژی برای استفاده در فنون مهندس ی کاربردی تر می باشد‬
5
•
4
‫آنتولوژی‬
• Person A: "what is the last document you read ?"
• Person B: "the article Gruber wrote on ontology in 1993."
The syllogism "a article is a book" "a book is a document" so "a article is a document
.‫آنتولوژی در واقع پیشنهاد دهنده یک ساختار مفید برای بهره برداری غیر مبهم از داده ها ست‬
6
5
‫وب معنایی – اجزاء‬
‫‪6‬‬
‫‪7‬‬
‫وب معنایی‬
‫•‬
‫وب معنایی در واقع فضایی از جنس محاسبات‬
‫هوشمند است که در آن کتابخانه ها ‪،‬دانش نامه‬
‫ها ‪ ،‬روزنامه ها و سایر منابع دانش ‪ ،‬می توانند از‬
‫محتوای معنایی یکدیگر‪ ،‬باخبر شده و یکدیگر را‬
‫درک نمایند‪.‬‬
‫‪7‬‬
‫‪8‬‬
‫ترجمه ماشینی– تاریخچه‬
‫‪ ‬دوره آغازین‬
‫ایده اصلی ترجمه ماشین به قرن ‪ 17‬بر می گردد و ابتدا با معرفی یک زبان ساختگی شروع شد‪ .‬در سال‬
‫‪ 1629‬توسط رنه دکارت(ریاضیدان و فیلسوف فرانسوی)‬
‫‪ ‬دوره رخوت‬
‫در دهه ‪ 1970-1960‬به این خاطر که طراحان و محققان این رشته ‪ ،‬متوجه رام نشدنی بودن این مسئله‬
‫شدند‪ ،‬دچار رخوت و سستی گردید‪.‬‬
‫‪ ‬دوره حیات مجدد‬
‫در اوایل دهه ‪ 80‬که سخت افزار سیستم ها با بهبود خوبی روبرو شدند و هزینه ها هم به نوعی‪ ،‬کاهش پیدا‬
‫کرد‪ ،‬دوباره عالقه به پیگیری موضوع هم بوجود آمد‪.‬‬
‫‪8‬‬
‫‪9‬‬
‫ترجمه ماشینی ‪ -‬دسته بندی‬
‫‪MT‬‬
‫‪MAT‬‬
‫‪ ‬مستقیم ‪ -‬غیر مستقیم‬
‫‪MAHT‬‬
‫‪9‬‬
‫‪10‬‬
‫‪HAMT‬‬
‫‪ ‬زبان میانی – واسط انتقال دهنده‬
‫‪ ‬دامنه محلی ‪ -‬دامنه سراسری‬
‫ترجمه ماشینی ‪ -‬انواع ترجمه ماشینی‬
‫•‬
‫سیستم های ترجمه مبتنی بر قاعده‬
‫•‬
‫سیستم های ترجمه مبتنی بر دانش‬
‫•‬
‫سیستم های ترجمه مبتنی بر مجموعه نوشتجات‬
‫• مبتنی بر نمونه(مثال)‬
‫• مبتنی بر روشهای آماری‬
‫• سیستم های ترکیبی‬
‫‪10‬‬
‫‪11‬‬
‫‪Rule based‬‬
‫‪Knowledge based‬‬
‫‪Corpus based‬‬
‫‪Example based‬‬
‫‪Statistical‬‬
‫‪Hybrid MT‬‬
‫ترجمه ماشینی ‪ -‬مبتنی بر روشهای آماری‬
‫‪ ‬ترجمه های آماری سعی دارند که با استفاده از کاربرد متد های آماری‪ ،‬بر روی دانشنامه های دو زبانی‬
‫ترجمه هایی را تولید نمایند ‪.‬‬
‫‪‬‬
‫اولین نرم افزار ترجمه ماشینی به روش آماری ‪ CANDID‬از شرکت ‪IBM‬بود ‪.‬‬
‫‪ Google ‬برای سالها از ‪ Systran‬استفاده می کرد‪ .‬از اکتبر سال ‪ 2007‬به روشهای آماری روی‬
‫آورد‪.‬‬
‫‪ ‬در واقع به مسئله ترجمه به صورت یک مسئله یادگیری ماشین برخورد می کند ‪.‬‬
‫‪‬‬
‫شیوه کلی آنها در یک کالم بررس ی دقیق ترجمه های انجام شده توسط انسان ‪ ،‬آموختن آن و سپس‬
‫ارایه ترجمه بر اساس آموزش های مرحله قبل می باشد ‪.‬‬
‫‪11‬‬
‫‪12‬‬
‫ترجمه ماشینی ‪ -‬ترجمه مبتنی بر نوشتجات نمونه‬
‫•‬
‫مبتنی بر استنتاج قیاس ی است‬
‫‪Case base reasoning‬‬
‫شامل یک پیکره به حد کافی بزرگ دو زبانی است که از تعداد زیادی نمونه و ترجمه نظیر آن تشکیل شده است‬
‫‪ (1‬یک الگوریتم انطباق برای یافتن شبیه ترین عبارات به عبارت ورودی‬
‫‪ (2‬یک الگوریتم انتقال برای تولید ترجمه هر یک از عبارا ت مرحله قبل‬
‫‪ (3‬یک الگوریتم ترکیب مجدد برای اتصال عبارات ترجمه شده شده به یکدیگر‬
‫‪12‬‬
‫‪13‬‬
‫ترجمه ماشینی ‪ -‬ترجمه آنالین‬
‫‪13‬‬
‫‪14‬‬
‫ترجمه ماشینی ‪ -‬ارزیابی سیستم های ترجمه‬
‫•‬
‫به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد ‪.‬‬
‫‪ BLEU‬‬
‫‪ NIST‬‬
‫‪ F-Score‬‬
‫‪ METEOR‬‬
‫‪14‬‬
‫‪15‬‬
‫ترجمه ماشینی‬
‫ ارزیابی به روش ‪Bleu‬‬‫در این معیار ارزیابی‪ ،‬میزان همبستگی باال میان متن تولید شده توسط ماشین‪ ،‬و متن ترجمه شده توسط‬
‫انسان به صورت کمی‪ ،‬مورد بررس ی قرار گرفته است‪.‬‬
‫‪m‬‬
‫‪P‬‬
‫‪M‬‬
‫‪ : m‬در این فرمول تعداد کلماتی از عبارت کاندید است که در عبارت مرجع نیز وجود دارد ‪.‬‬
‫‪ : M‬تعداد کل کلماتی است که در عبارت کاندید ظاهر شده است‪.‬‬
‫‪ -‬ارزیابی به روش ‪NIST‬‬
‫دارای الگوووریتمی مشووابه الگوووریتم ‪ BLEU‬مووی باشوود‪ ،‬بووا ایوون تفوواوت کووه در موودل ‪ BLEU‬ب ورای هوور کلمووه مرکووب ‪ n‬گرمووی‪ ،‬وزن‬
‫یکسانی فرض شده است در حالیکه در این روش کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند‪.‬‬
‫‪15‬‬
‫‪16‬‬
‫ترجمه ماشینی ‪ -‬ارزیابی به روش ‪F-Score‬‬
‫دو پارامتر‬
‫)‪ p(precision) , r(recall‬برای محاسبه دقت به صورت زیر محاسبه می شوند‪:‬‬
‫‪ p‬برابر است با تعداد نتایج صحیح‪ ،‬تقسیم بر تعداد کل نتایج برگشت داده شده‪.‬‬
‫‪ r‬برابر است با تعداد نتایج صحیح‪ ،‬تقسیم بر تعداد نتایجی که باید برگشت داده می شد‪.‬‬
‫در حالت کلی به ازای عدد نامنفی بتا داریم‪:‬‬
‫‪16‬‬
‫‪17‬‬
‫ترجمه معنایی‬
‫‪ . ‬این روش در واقع از مزایای پیوند دادن معنا به داده های موجود در لغتنامه بهره می گیرد تا بتواند‬
‫واژه معادل و هم معنا را در زبان دوم پیدا نماید‪.‬‬
‫‪ ‬یکی از ملزومات این روش این است که معنا را به شکلی خاص نه لزوما زبان مبدا و نه در قالب زبان‬
‫مقصد به گونه ای باز نمایی می کند‪.‬‬
‫‪ ‬از امکانات موجود در آنتولوژی ها برای رفع ابهام در ترجمه های تولید شده بهره می گیرد‪ .‬مثال رابطه‬
‫معادل بودن‪.‬‬
‫‪17‬‬
‫‪18‬‬
‫ترجمه معنایی‬
‫سیستم ‪Mikrokosmos‬‬
‫‪18‬‬
‫‪19‬‬
‫ترجمه معنایی‬
‫سیستم ‪Mikrokosmos‬‬
‫‪ ‬معماری سیستم برای تحلیل متون ورودی‬
‫خروجی مرحله تحلیل‪ ،‬یک بازنمایی معنایی‪ ،‬از متن‬
‫نوشته شده به زبان مبدا است که بوسیله یک ساختار‬
‫مستقل با نام ‪ TMR‬ارایه می گردد‪.‬‬
‫‪19‬‬
‫‪20‬‬
‫ترجمه معنایی‬
‫سیستم ‪Mikrokosmos‬‬
‫‪ ‬سه سطح اول نمودار سلسله مراتبی‬
‫آنتولوژی ‪:‬‬
‫‪Property ،Event ،Object‬‬
‫‪20‬‬
‫‪21‬‬
‫ترجمه معنایی – نقش آنتولوژی‬
‫‪El grupo Roche adquirio Docteur Andreu‬‬
‫گروه روشه ‪ Docteur Andreu‬را ”تملک کردند“ یا ”آموختند“ ‪.‬‬
‫‪ adquirio ‬دارای دو معنای ‪ ACQUIRE‬و ‪LEARN‬‬
‫‪ ‬محدودیت های انتخابی‪ ،‬در آنتولوژی بر روی مفاهیم ‪ ACQUIRE‬و ‪ LEARN‬مشخص کننده‬
‫این نکته هستند که اگر موضوع عبارت یک ش ی انتزاعی ‪ Abstract Object‬نیست معنی واژه‬
‫‪ adquirio‬عبارت ”تملک کردن“ است و نه“ آموختن“‪.‬‬
‫‪ ‬بعد از اینکه نام ‪ Docteur Andreu‬به عنوان نام یک شرکت(یک ش ی ء اجتماعی) شناسایی شد ‪.‬‬
‫معلوم می گردد که یک ‪ Abstract Object‬نبوده و لذا معنی تملک کردند انتخاب می‬
‫گردد‪.‬‬
‫‪21‬‬
‫‪22‬‬
‫ترجمه معنایی‬
‫سیستم ‪Mikrokosmos‬‬
‫‪ ‬نمایش فریم مفهوم ‪ ACQUIRE‬به‬
‫همراه نمایش بخش ی از رکورد فعل اسپانیایی‬
‫’‪ ‘adquirir‬در لغتنامه با نگاشت معنایی با‬
‫‪ACUIRE , LERAN‬‬
‫‪22‬‬
‫‪23‬‬
‫ترجمه معنایی‪-‬ویژگیهای سیستم ‪Micrososmos‬‬
‫‪ ‬بازنمای معنایی به صورت سمبولیک و مستقل از زبان مبدا می باشد‬
‫‪ ‬سمبولها را در یک ساختار سلسله مراتبی پیچیده سازماندهی می کند‪.‬‬
‫‪ ‬یک لغتنامه مشترک برای زبانهای مختلف جهت به اشتراک گذاری دانش‪ ،‬فراهم نماید‪.‬‬
‫‪ ‬امکان به اشتراک گذاری دانش برای تحلیلگر زبان مبدا و تولید کننده زبان مقصد را فراهم آورد‪.‬‬
‫‪ ‬محدودیت های انتخابی را ذخیره نماید‪.‬‬
‫‪ ‬ابهامات معنایی را از بین ببرد و بوسیله استنتاج هایی که از روی توپولوژی انجام می دهد میزان‬
‫شباهت معنایی را تفسیر نماید ‪.‬‬
‫‪23‬‬
‫‪24‬‬
‫ترجمه معنایی‪ -‬ترجمه معنایی مبتنی بر نوشتجات نمونه‬
‫‪-‬‬
‫ایده اصلی‪ :‬اضافه کردن اطالعات ‪ RDF‬به نمونه های موجود در روش ‪EBMT‬‬
‫‪-‬‬
‫مزایا ‪:‬‬
‫‪ ‬یافتن عبارات همتراز میان متن و ترجمه‬
‫‪ ‬افزودن معنا به نمونه ها ی ترجمه‬
‫‪ ‬رفع ابهام‬
‫مثال ‪ :‬دو جمله زیر در پایگاه نمونه ها موجود است‬
‫‪Große Besonderheiten ↔ important peculiarities‬‬
‫‪Große Städte ↔ big cities‬‬
‫‪große Schlößer‬‬
‫سوال ‪ :‬ترجمه عبارت زیر چیست‪:‬‬
‫‪24‬‬
‫‪25‬‬
‫ ترجمه معنایی مبتنی بر نوشتجات نمونه‬-‫ترجمه معنایی‬
große Schlößer
Important peculiarities
Big cities
Big castle
26
25
‫ترجمه معنایی‪ -‬چالشهای سیستم های ترجمه معنایی‬
‫‪26‬‬
‫•‬
‫باال بودن هزینه و زمان اجرای پروژه های ترجمه به طور کلی‬
‫•‬
‫حجم باالی اندازه پایگاه دانش زبان های طبیعی‬
‫•‬
‫ابهام در انتخاب یک قطعه به حد کافی مناسب از دانش‬
‫•‬
‫عدم وجود آنتولوژی مناسب برای بسیاری از زبانهای دنیا‬
‫•‬
‫چالشهای مربوط به مسئله انطباق آنتولوژی ها‬
‫•‬
‫‪...‬‬
‫‪27‬‬
‫نتیجه گیری‬
‫• فرآیند ترجمه‪ ،‬یکی از پیچیده ترین موضوعاتی است که در پنجاه سال اخیراست‪.‬‬
‫• سیستم های ترجمه کننده مطلوب سیستمی است که از یک سو به خصوصیات ساختاری زبان های‬
‫طبیعی و ازطرف دیگر به مسئله درک معانی‪ ،‬توجه داشته باشد‪.‬‬
‫• سیستم های مترجم فعلی عموما مبتنی بر قواعد زبانی ‪ ،‬مبتنی بر نوشتجات نمونه و ترجمه ماشینی‬
‫مبتنی بر روشهای آماری‪ ،‬می باشند‪.‬‬
‫هر کدام از این روشها دارای نقاط قوت و ضعف اساس ی می باشند‪:‬‬
‫• در روشهایی مبتنی بر قواعد پیچیدگی نسبتا زیادی موجود است‬
‫• قدرت روشهای مبتنی بر نوشتجات نمونه به اندازه زیادی وابسته به حجم پایگاه نوشتجات نمونه ای‬
‫است که عمل استنتاج با توجه به آنها صورت می گیرد‪.‬‬
‫• در حال حاضر‪ ،‬بهترین عملکرد مربوط به سیستم های مبتنی بر روشهای آماری می شود که در سالهای‬
‫اخیر هم مورد استفاده ماشینهای ترجمه آنالین از قبیل ‪ google‬قرار گرفته است‪.‬‬
‫‪27‬‬
‫‪28‬‬
‫نتیجه گیری‬
‫• با این وجود‪ ،‬یکی از چالشهایی که همچنان شالوده این معماری و همه روشهای مرسوم‪ ،‬با آن دست‬
‫به گریبانند‪ ،‬موضوع عدم توجه به معنا و مفاهیم درون متن می باشد‪.‬‬
‫•‬
‫‪28‬‬
‫مهمترین و شاخص ترین دست آورد مربوط به کاربرد آنتولوژی ها‪ ،‬موضوع استنتاج هایی آنتولوژیکی‬
‫است که می تواند موجب از میان رفتن ابهام در تشخیص معنا گردد‪ .‬اهمیت این موضوع آنجا روشنتر‬
‫می گردد که دیگر روشهای آماری و گرامری نتوانند ابهام هایی را رفع کنند که تنها راه تشخیص آن‬
‫توجه به مفاهیم و معانی باشد‪.‬‬
‫‪29‬‬
‫مراجع‬
•
•
•
•
•
•
•
[RYC 2007]
Rychtyckyj, N, “Machine Translation for Manufacturing”: AI
Magazine Vol 28 No 3, 2007.
[Slo1985]
Sloculn, J, “Survey of Machine Translation, Its History, Current
Status and Future Prospects”: Computational Linguistics, Volume 11, No 1, 1985
[BAR 2007]
Bar, K, Chueka, Y, Dershowitz, N, “An Arabic to English Examplebased Translation System”: ICTIS, 2007
[LOP 2008]
Lopez, A, “Statistical Machine Translation”: ACM Computing
Surveys, Vol. 40, No. 3, 2008.
[HUT 2007] Hutchins, J, “Machine Translation: aconcise history”: InComputer Aided
Translation: Theory and Practice, C. S. Wai, Ed. Chinese University of Hong Kong,
2007
[MAH 1996]
Mahesh, K, “Ontology Development for Machine Translation:
Ideology and Methodology”: Technical report, Computer Research Laboratory, New
Mexico State University, 1996.
[HAH 2005]
Hahn, W, “Knowledge Representation in Machine Translation”:
Technical report, Computer Science Department, University of Hamburg, 2005
30
29
‫مراجع‬
•
•
•
•
•
•
•
[VER 2004]
Vertan, C, “Language Resources for the Semantic Web – perspectives
for Machine Translation”: Proceedings of the Second International Workshop on
Language Resources for Translation Work, Research and Training, Coling.
Geneva.37:42, 2004
[GAN 2002] Gandon, F, “Ontology Engineering: A survey and a return on
experience”, ACACIA Team, Rapport de Recherche 2002
[ABT 2007] Rasoolian, A, ”Antology Matching”, BC Degree Thesis in Computer
Faculty of Sharif University, 2007
[OBT 2007] Obitko, M., “Translations between Ontologies in Multi-Agent Systems”,
Ph.D. dissertation, Faculty of Electrical Engineering, Czech Technical University in
Prague, 2007.
[BER 2001]
Berners-Lee, T, Hendler, J, Lassila, O, "The Semantic Web:
Scientific American," Scientific American, pp. 34-43, 2001.
[AND 2004] Anderson, S, “How many languages are there in the world?” Linguistic
Society of America. 1325 18th St, NW, Suite 211 Washington, D.C. 2004
[CAR 2003]
A-Way, and Carl, M. “Introduction to Example-based machine
Translation”, Kluwer Academic Press, 2003
31
30
‫مراجع‬
•
•
[PAP 2002]
Papineni, K, Roukos, S, Ward, T and Zhu, W. J. "BLEU: a method
for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of
the Association for Computational Linguistics pp. 311–318
[HUT 1992] Hutchins, W. John; and Harold L. Somers (1992). An Introduction to
Machine Translation. London: Academic Press. P 107
32
31
‫‪32‬‬
‫‪33‬‬
‫با سپاس از شما‬