ترجمه معنایی - آزمایشگاه فناوری وب
Download
Report
Transcript ترجمه معنایی - آزمایشگاه فناوری وب
دانشکده مهندس ی
گروه کامپیوتر
آزمایشگاه فناوری وب معنایی
گزارش سمینار کارشناس ی ارشد
ترجمه ماشینی
مبتنی بر آنتولوژی
Click to edit Master title style
Ontology based translation machine
Click to edit Master subtitle style
1
به نام خدا
فهرست مطالب
• مقدمه
• آنتولوژی
• وب معنایی
• ترجمه ماشینی
• ترجمه معنایی
• نتیجه گیری
• مراجع
1
2
مقدمه -جایگاه و ضرورت
• ترجمه ماشینی
• نانو تکنولوژی
• بیوتکنولوژی
• تکنولوژی اطالعات
• علوم شناختی
• روباتیک و هوش مصنوعی و...
بیش از 6809زبان متفاوت در دنیا وجود دارد
239زبان از این تعداد فقط در قاره اروپا استفاده می شود.
قاره آسیا 2196زبان متفاوت را داراست.
2
3
آنتولوژی -تاریخچه
•
ریشه آغازین این واژه از فلسفه یونان گرفته شده که البته پس از مدتها در قرن 19فالسفه آملانی آن را در مورد
هستان شناس ی و مطالعه چیستی به کار برده اند .
Human = Rational sensitive animate material Substance
3
4
•
تعاریف رسمی- آنتولوژی
•
Ontology is a term in philosophy and its meaning is ``theory of existence''.
•
Ontology is an explicit specification of conceptualization.
•
Ontology is a body of knowledge describing some domain, typically
common sense knowledge domain.
مطرح کرده است و به طور کلی مورد پذیرش دانشمندان هوشThomas Gruber تعریف دوم را که آقای
مصنوعی می باشد که در مورد آنتولوژی برای استفاده در فنون مهندس ی کاربردی تر می باشد
5
•
4
آنتولوژی
• Person A: "what is the last document you read ?"
• Person B: "the article Gruber wrote on ontology in 1993."
The syllogism "a article is a book" "a book is a document" so "a article is a document
.آنتولوژی در واقع پیشنهاد دهنده یک ساختار مفید برای بهره برداری غیر مبهم از داده ها ست
6
5
وب معنایی – اجزاء
6
7
وب معنایی
•
وب معنایی در واقع فضایی از جنس محاسبات
هوشمند است که در آن کتابخانه ها ،دانش نامه
ها ،روزنامه ها و سایر منابع دانش ،می توانند از
محتوای معنایی یکدیگر ،باخبر شده و یکدیگر را
درک نمایند.
7
8
ترجمه ماشینی– تاریخچه
دوره آغازین
ایده اصلی ترجمه ماشین به قرن 17بر می گردد و ابتدا با معرفی یک زبان ساختگی شروع شد .در سال
1629توسط رنه دکارت(ریاضیدان و فیلسوف فرانسوی)
دوره رخوت
در دهه 1970-1960به این خاطر که طراحان و محققان این رشته ،متوجه رام نشدنی بودن این مسئله
شدند ،دچار رخوت و سستی گردید.
دوره حیات مجدد
در اوایل دهه 80که سخت افزار سیستم ها با بهبود خوبی روبرو شدند و هزینه ها هم به نوعی ،کاهش پیدا
کرد ،دوباره عالقه به پیگیری موضوع هم بوجود آمد.
8
9
ترجمه ماشینی -دسته بندی
MT
MAT
مستقیم -غیر مستقیم
MAHT
9
10
HAMT
زبان میانی – واسط انتقال دهنده
دامنه محلی -دامنه سراسری
ترجمه ماشینی -انواع ترجمه ماشینی
•
سیستم های ترجمه مبتنی بر قاعده
•
سیستم های ترجمه مبتنی بر دانش
•
سیستم های ترجمه مبتنی بر مجموعه نوشتجات
• مبتنی بر نمونه(مثال)
• مبتنی بر روشهای آماری
• سیستم های ترکیبی
10
11
Rule based
Knowledge based
Corpus based
Example based
Statistical
Hybrid MT
ترجمه ماشینی -مبتنی بر روشهای آماری
ترجمه های آماری سعی دارند که با استفاده از کاربرد متد های آماری ،بر روی دانشنامه های دو زبانی
ترجمه هایی را تولید نمایند .
اولین نرم افزار ترجمه ماشینی به روش آماری CANDIDاز شرکت IBMبود .
Google برای سالها از Systranاستفاده می کرد .از اکتبر سال 2007به روشهای آماری روی
آورد.
در واقع به مسئله ترجمه به صورت یک مسئله یادگیری ماشین برخورد می کند .
شیوه کلی آنها در یک کالم بررس ی دقیق ترجمه های انجام شده توسط انسان ،آموختن آن و سپس
ارایه ترجمه بر اساس آموزش های مرحله قبل می باشد .
11
12
ترجمه ماشینی -ترجمه مبتنی بر نوشتجات نمونه
•
مبتنی بر استنتاج قیاس ی است
Case base reasoning
شامل یک پیکره به حد کافی بزرگ دو زبانی است که از تعداد زیادی نمونه و ترجمه نظیر آن تشکیل شده است
(1یک الگوریتم انطباق برای یافتن شبیه ترین عبارات به عبارت ورودی
(2یک الگوریتم انتقال برای تولید ترجمه هر یک از عبارا ت مرحله قبل
(3یک الگوریتم ترکیب مجدد برای اتصال عبارات ترجمه شده شده به یکدیگر
12
13
ترجمه ماشینی -ترجمه آنالین
13
14
ترجمه ماشینی -ارزیابی سیستم های ترجمه
•
به عنوان قدیمی ترین روش می توان از قضاوت انسانی استفاده کرد .
BLEU
NIST
F-Score
METEOR
14
15
ترجمه ماشینی
ارزیابی به روش Bleuدر این معیار ارزیابی ،میزان همبستگی باال میان متن تولید شده توسط ماشین ،و متن ترجمه شده توسط
انسان به صورت کمی ،مورد بررس ی قرار گرفته است.
m
P
M
: mدر این فرمول تعداد کلماتی از عبارت کاندید است که در عبارت مرجع نیز وجود دارد .
: Mتعداد کل کلماتی است که در عبارت کاندید ظاهر شده است.
-ارزیابی به روش NIST
دارای الگوووریتمی مشووابه الگوووریتم BLEUمووی باشوود ،بووا ایوون تفوواوت کووه در موودل BLEUب ورای هوور کلمووه مرکووب nگرمووی ،وزن
یکسانی فرض شده است در حالیکه در این روش کلمات مرکب چند گرمی بر اساس تعداد تکرارشان در متن وزن دهی می شوند.
15
16
ترجمه ماشینی -ارزیابی به روش F-Score
دو پارامتر
) p(precision) , r(recallبرای محاسبه دقت به صورت زیر محاسبه می شوند:
pبرابر است با تعداد نتایج صحیح ،تقسیم بر تعداد کل نتایج برگشت داده شده.
rبرابر است با تعداد نتایج صحیح ،تقسیم بر تعداد نتایجی که باید برگشت داده می شد.
در حالت کلی به ازای عدد نامنفی بتا داریم:
16
17
ترجمه معنایی
. این روش در واقع از مزایای پیوند دادن معنا به داده های موجود در لغتنامه بهره می گیرد تا بتواند
واژه معادل و هم معنا را در زبان دوم پیدا نماید.
یکی از ملزومات این روش این است که معنا را به شکلی خاص نه لزوما زبان مبدا و نه در قالب زبان
مقصد به گونه ای باز نمایی می کند.
از امکانات موجود در آنتولوژی ها برای رفع ابهام در ترجمه های تولید شده بهره می گیرد .مثال رابطه
معادل بودن.
17
18
ترجمه معنایی
سیستم Mikrokosmos
18
19
ترجمه معنایی
سیستم Mikrokosmos
معماری سیستم برای تحلیل متون ورودی
خروجی مرحله تحلیل ،یک بازنمایی معنایی ،از متن
نوشته شده به زبان مبدا است که بوسیله یک ساختار
مستقل با نام TMRارایه می گردد.
19
20
ترجمه معنایی
سیستم Mikrokosmos
سه سطح اول نمودار سلسله مراتبی
آنتولوژی :
Property ،Event ،Object
20
21
ترجمه معنایی – نقش آنتولوژی
El grupo Roche adquirio Docteur Andreu
گروه روشه Docteur Andreuرا ”تملک کردند“ یا ”آموختند“ .
adquirio دارای دو معنای ACQUIREو LEARN
محدودیت های انتخابی ،در آنتولوژی بر روی مفاهیم ACQUIREو LEARNمشخص کننده
این نکته هستند که اگر موضوع عبارت یک ش ی انتزاعی Abstract Objectنیست معنی واژه
adquirioعبارت ”تملک کردن“ است و نه“ آموختن“.
بعد از اینکه نام Docteur Andreuبه عنوان نام یک شرکت(یک ش ی ء اجتماعی) شناسایی شد .
معلوم می گردد که یک Abstract Objectنبوده و لذا معنی تملک کردند انتخاب می
گردد.
21
22
ترجمه معنایی
سیستم Mikrokosmos
نمایش فریم مفهوم ACQUIREبه
همراه نمایش بخش ی از رکورد فعل اسپانیایی
’ ‘adquirirدر لغتنامه با نگاشت معنایی با
ACUIRE , LERAN
22
23
ترجمه معنایی-ویژگیهای سیستم Micrososmos
بازنمای معنایی به صورت سمبولیک و مستقل از زبان مبدا می باشد
سمبولها را در یک ساختار سلسله مراتبی پیچیده سازماندهی می کند.
یک لغتنامه مشترک برای زبانهای مختلف جهت به اشتراک گذاری دانش ،فراهم نماید.
امکان به اشتراک گذاری دانش برای تحلیلگر زبان مبدا و تولید کننده زبان مقصد را فراهم آورد.
محدودیت های انتخابی را ذخیره نماید.
ابهامات معنایی را از بین ببرد و بوسیله استنتاج هایی که از روی توپولوژی انجام می دهد میزان
شباهت معنایی را تفسیر نماید .
23
24
ترجمه معنایی -ترجمه معنایی مبتنی بر نوشتجات نمونه
-
ایده اصلی :اضافه کردن اطالعات RDFبه نمونه های موجود در روش EBMT
-
مزایا :
یافتن عبارات همتراز میان متن و ترجمه
افزودن معنا به نمونه ها ی ترجمه
رفع ابهام
مثال :دو جمله زیر در پایگاه نمونه ها موجود است
Große Besonderheiten ↔ important peculiarities
Große Städte ↔ big cities
große Schlößer
سوال :ترجمه عبارت زیر چیست:
24
25
ترجمه معنایی مبتنی بر نوشتجات نمونه-ترجمه معنایی
große Schlößer
Important peculiarities
Big cities
Big castle
26
25
ترجمه معنایی -چالشهای سیستم های ترجمه معنایی
26
•
باال بودن هزینه و زمان اجرای پروژه های ترجمه به طور کلی
•
حجم باالی اندازه پایگاه دانش زبان های طبیعی
•
ابهام در انتخاب یک قطعه به حد کافی مناسب از دانش
•
عدم وجود آنتولوژی مناسب برای بسیاری از زبانهای دنیا
•
چالشهای مربوط به مسئله انطباق آنتولوژی ها
•
...
27
نتیجه گیری
• فرآیند ترجمه ،یکی از پیچیده ترین موضوعاتی است که در پنجاه سال اخیراست.
• سیستم های ترجمه کننده مطلوب سیستمی است که از یک سو به خصوصیات ساختاری زبان های
طبیعی و ازطرف دیگر به مسئله درک معانی ،توجه داشته باشد.
• سیستم های مترجم فعلی عموما مبتنی بر قواعد زبانی ،مبتنی بر نوشتجات نمونه و ترجمه ماشینی
مبتنی بر روشهای آماری ،می باشند.
هر کدام از این روشها دارای نقاط قوت و ضعف اساس ی می باشند:
• در روشهایی مبتنی بر قواعد پیچیدگی نسبتا زیادی موجود است
• قدرت روشهای مبتنی بر نوشتجات نمونه به اندازه زیادی وابسته به حجم پایگاه نوشتجات نمونه ای
است که عمل استنتاج با توجه به آنها صورت می گیرد.
• در حال حاضر ،بهترین عملکرد مربوط به سیستم های مبتنی بر روشهای آماری می شود که در سالهای
اخیر هم مورد استفاده ماشینهای ترجمه آنالین از قبیل googleقرار گرفته است.
27
28
نتیجه گیری
• با این وجود ،یکی از چالشهایی که همچنان شالوده این معماری و همه روشهای مرسوم ،با آن دست
به گریبانند ،موضوع عدم توجه به معنا و مفاهیم درون متن می باشد.
•
28
مهمترین و شاخص ترین دست آورد مربوط به کاربرد آنتولوژی ها ،موضوع استنتاج هایی آنتولوژیکی
است که می تواند موجب از میان رفتن ابهام در تشخیص معنا گردد .اهمیت این موضوع آنجا روشنتر
می گردد که دیگر روشهای آماری و گرامری نتوانند ابهام هایی را رفع کنند که تنها راه تشخیص آن
توجه به مفاهیم و معانی باشد.
29
مراجع
•
•
•
•
•
•
•
[RYC 2007]
Rychtyckyj, N, “Machine Translation for Manufacturing”: AI
Magazine Vol 28 No 3, 2007.
[Slo1985]
Sloculn, J, “Survey of Machine Translation, Its History, Current
Status and Future Prospects”: Computational Linguistics, Volume 11, No 1, 1985
[BAR 2007]
Bar, K, Chueka, Y, Dershowitz, N, “An Arabic to English Examplebased Translation System”: ICTIS, 2007
[LOP 2008]
Lopez, A, “Statistical Machine Translation”: ACM Computing
Surveys, Vol. 40, No. 3, 2008.
[HUT 2007] Hutchins, J, “Machine Translation: aconcise history”: InComputer Aided
Translation: Theory and Practice, C. S. Wai, Ed. Chinese University of Hong Kong,
2007
[MAH 1996]
Mahesh, K, “Ontology Development for Machine Translation:
Ideology and Methodology”: Technical report, Computer Research Laboratory, New
Mexico State University, 1996.
[HAH 2005]
Hahn, W, “Knowledge Representation in Machine Translation”:
Technical report, Computer Science Department, University of Hamburg, 2005
30
29
مراجع
•
•
•
•
•
•
•
[VER 2004]
Vertan, C, “Language Resources for the Semantic Web – perspectives
for Machine Translation”: Proceedings of the Second International Workshop on
Language Resources for Translation Work, Research and Training, Coling.
Geneva.37:42, 2004
[GAN 2002] Gandon, F, “Ontology Engineering: A survey and a return on
experience”, ACACIA Team, Rapport de Recherche 2002
[ABT 2007] Rasoolian, A, ”Antology Matching”, BC Degree Thesis in Computer
Faculty of Sharif University, 2007
[OBT 2007] Obitko, M., “Translations between Ontologies in Multi-Agent Systems”,
Ph.D. dissertation, Faculty of Electrical Engineering, Czech Technical University in
Prague, 2007.
[BER 2001]
Berners-Lee, T, Hendler, J, Lassila, O, "The Semantic Web:
Scientific American," Scientific American, pp. 34-43, 2001.
[AND 2004] Anderson, S, “How many languages are there in the world?” Linguistic
Society of America. 1325 18th St, NW, Suite 211 Washington, D.C. 2004
[CAR 2003]
A-Way, and Carl, M. “Introduction to Example-based machine
Translation”, Kluwer Academic Press, 2003
31
30
مراجع
•
•
[PAP 2002]
Papineni, K, Roukos, S, Ward, T and Zhu, W. J. "BLEU: a method
for automatic evaluation of machine translation" in ACL-2002: 40th Annual meeting of
the Association for Computational Linguistics pp. 311–318
[HUT 1992] Hutchins, W. John; and Harold L. Somers (1992). An Introduction to
Machine Translation. London: Academic Press. P 107
32
31
32
33
با سپاس از شما