استفاده از پیکره‌های تطبیقی برای بازیابی اطلاعات بین زبانی فارسی

Download Report

Transcript استفاده از پیکره‌های تطبیقی برای بازیابی اطلاعات بین زبانی فارسی

‫هما برادران هاشمی‬
‫استاد راهنما‪ :‬دکتر آزاده شاکری‬
‫اساتید داور‪ :‬دکتر بیگی‪ ،‬دکتر تقی یاره‪ ،‬دکتر فیلی‬
‫اسفند ‪1389‬‬
2
‫‪3‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪поиск информации‬‬
‫‪recupero dell'informazione‬‬
‫بازیابی اطالعات‬
‫‪信息检索‬‬
‫‪information retrieval‬‬
‫‪4‬‬
‫‪tiedonhaku‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪5‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫بازیابی اطالعات‬
‫‪CLIR‬زبانی‬
‫بین‬
‫& ‪Query‬‬
‫ترجمه اسناد و‬
‫‪Document‬‬
‫پرسوجو‬
‫‪translation‬‬
‫پیکرههای‬
‫‪Comparable‬‬
‫تطبیقی‬
‫‪Corpora‬‬
‫‪6‬‬
‫‪Query‬‬
‫ترجمه پرسوجو‬
‫‪translation‬‬
‫پیکرههای‬
‫‪Parallel‬‬
‫‪Corpora‬ی‬
‫مواز‬
‫‪Dictionary‬‬
‫واژهنامهها‬
‫‪based‬‬
‫‪Document‬‬
‫ترجمه اسناد‬
‫‪translation‬‬
‫ماشینهای‬
‫‪Machine‬‬
‫ترجمه‬
‫‪translation‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫هدف‪:‬‬
‫ایجاد ترجمهای روان از متون زبان طبیعی‬
‫معایب‪:‬‬
‫پرسوجوها شامل لیستی از کلید واژگان هستند‬
‫ارائه تنها ”محتملترین ترجمه“‬
‫ماشین ترجمه گوگل‬
‫به طور گسترده مواد مخدر‬
‫در ایران استفاده میشود‬
‫‪7‬‬
‫‪Widely used narcotics‬‬
‫‪in Iran‬‬
‫هیچ واژهنامهای کامل نیست‬
‫ابهام ترجمه‬
‫”‪( “Goal‬هدف و واژه ورزش ی گل زدن)‬
‫”‪( “Bank‬بانکداری و کنارهی رودخانه)‬
‫‪8‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪9‬‬
‫‪ABCD‬‬
‫‪ST‬‬
‫ابپت‬
‫سش‬
‫‪ABCD‬‬
‫‪ST‬‬
‫ابپت‬
‫سش‬
‫‪ABCD‬‬
‫‪ST‬‬
‫ابپت‬
‫سش‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪ABCD‬‬
‫‪ST‬‬
‫‪ABCD‬‬
‫‪ST‬‬
‫‪10‬‬
‫‪ABCD‬‬
‫‪ST‬‬
‫ابپت‬
‫سش‬
‫ابپت‬
‫ابپت‬
‫سش‬
‫ابپت‬
‫سش‬
‫سش‬
‫ابپت‬
‫سش‬
‫ابپت‬
‫سش‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫بازیابی اطالعات‬
‫‪CLIR‬زبانی‬
‫بین‬
‫& ‪Query‬‬
‫ترجمه اسناد و‬
‫‪Document‬‬
‫پرسوجو‬
‫‪translation‬‬
‫پیکرههای‬
‫‪Comparable‬‬
‫تطبیقی‬
‫‪Corpora‬‬
‫‪11‬‬
‫‪Query‬‬
‫ترجمه پرسوجو‬
‫‪translation‬‬
‫پیکرههای‬
‫‪Parallel‬‬
‫‪Corpora‬ی‬
‫مواز‬
‫‪Dictionary‬‬
‫واژهنامهها‬
‫‪based‬‬
‫‪Document‬‬
‫ترجمه اسناد‬
‫‪translation‬‬
‫ماشینهای‬
‫‪Machine‬‬
‫ترجمه‬
‫‪translation‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
12
‫‪13‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫نمایش‬
‫اسناد‬
‫به زبان‬
‫مقصد‬
‫& ‪Query‬‬
‫واژهنامه و گوگل ‪ CLIR‬نمایش‬
‫اسناد‬
‫به زبان‬
‫مبدأ‬
‫‪Query‬‬
‫‪Document‬‬
‫انتشار‬
‫تاریخ‬
‫همترازی ‪translation‬‬
‫شباهت محتوا‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫‪14‬‬
‫تطابق‬
‫‪Parallel‬‬
‫‪Corpora‬‬
‫‪translation‬‬
‫‪TF, RATF‬‬
‫اسناد‬
‫مبدأ‬
‫‪Document‬‬
‫‪translation‬‬
‫نمایه‬
‫‪Dictionary‬‬
‫اسناد‬
‫‪Machine‬‬
‫‪based‬‬
‫‪translation‬‬
‫مقصد‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫اسناد‬
TF, RATF
‫مبدأ‬
Document
‫ نمایش‬CLIR ‫واژهنامه و گوگل‬
‫اسناد‬
‫به زبان‬
‫مبدأ‬
Query
‫نمایش‬
‫اسناد‬
‫به زبان‬
‫مقصد‬
Query &
Document
‫انتشار‬
‫ تاریخ‬to
Survivorstranslation
of Hurricane Katrina intranslation
the southern US are being
taken
translation
‫همترازی‬
‫تطابق‬
safety in what is being called the largest airlift
in US history.
‫شباهت محتوا‬
Up to 40 aircraft are operating round-the-clock to move thousands who
had been stranded in New Orleans. On Saturday President Bush
‫اسناد‬
‫نمایه‬
announced
the
deployment
of
thousands of extra troops in affected
Machine
Dictionary
Parallel
Comparable
‫ مقصد‬amid criticism of the rescue effort. Survivors
areas,
have been telling
Corpora
Corpora
translation
based
harrowing
tales of violence.
On Saturday more than 10,000 people
were removed from flood-ravaged New Orleans.
‫انگلیس ی‬-‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‬
15
‫اسناد‬
TF, RATF
‫مبدأ‬
Document
people
translation
Orleans
‫ نمایش‬CLIR ‫واژهنامه و گوگل‬
‫اسناد‬
‫به زبان‬
‫مبدأ‬
brown Query
translation
emerge
new
Katrina
survivor
flood
thousand
‫اسناد‬
Machine
rescue
‫مقصد‬
translation
Saturday
relief
‫نمایه‬
Dictionary
urgency
based
hurricane
‫انگلیس ی‬-‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‬
‫نمایش‬
‫اسناد‬
‫به زبان‬
‫مقصد‬
Query &
Document
‫تطابق‬
Parallel
Corpora
‫انتشار‬
‫تاریخ‬
translation ‫همترازی‬
‫شباهت محتوا‬
Comparable
Corpora
16
‫نمایش‬
‫اسناد‬
‫به زبان‬
‫مقصد‬
‫& ‪Query‬‬
‫واژهنامه و گوگل ‪ CLIR‬نمایش‬
‫اسناد‬
‫به زبان‬
‫مبدأ‬
‫‪Query‬‬
‫‪Document‬‬
‫خلق‬
‫قوم جمعيت‬
‫ملت‬
‫‪translation‬‬
‫اخیرا‬
‫نوين‬
‫انتشار شخص‬
‫همترازی تاریخ زنده‬
‫‪translation‬‬
‫تطابق‬
‫محتوا روز بازمانده باقيمانده‬
‫شباهتشنبه‬
‫پديدار‬
‫بیرون‬
‫تندباد‬
‫طوفان‬
‫گردباد‬
‫قهوه اجتماع‬
‫سرخ‬
‫قهوه‬
‫کاترينا‬
‫سيل‬
‫طوفان‬
‫دريا‬
‫نمایه‬
‫غرق‬
‫‪ Parallel‬سيل‬
‫گرفتن‬
‫‪Comparable‬طغيان‬
‫‪Dictionary‬‬
‫راحتي‬
‫‪Corpora‬اعانه‬
‫امداد‬
‫رفع‬
‫‪Corpora‬‬
‫‪based‬‬
‫نگراني‬
‫خط برجسته‬
‫فوريت‬
‫كنار ضرورت‬
‫دريا‬
‫‪17‬‬
‫‪TF, RATF‬‬
‫اسناد‬
‫مبدأ‬
‫‪Document‬‬
‫‪translation‬‬
‫اسناد‬
‫‪Machine‬‬
‫مقصد‬
‫‪translation‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫نمایش‬
‫اسناد‬
‫به زبان‬
‫مقصد‬
‫& ‪Query‬‬
‫واژهنامه و گوگل ‪ CLIR‬نمایش‬
‫اسناد‬
‫به زبان‬
‫مبدأ‬
‫‪Query‬‬
‫‪Document‬‬
‫انتشار‬
‫تاریخ‬
‫همترازی ‪translation‬‬
‫شباهت محتوا‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫‪18‬‬
‫تطابق‬
‫‪Parallel‬‬
‫‪Corpora‬‬
‫‪translation‬‬
‫‪TF, RATF‬‬
‫اسناد‬
‫مبدأ‬
‫‪Document‬‬
‫‪translation‬‬
‫نمایه‬
‫‪Dictionary‬‬
‫اسناد‬
‫‪Machine‬‬
‫‪based‬‬
‫‪translation‬‬
‫مقصد‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫نمایش‬
‫اسناد‬
‫به زبان‬
‫مقصد‬
‫& ‪Query‬‬
‫‪Document‬‬
‫انتشار‬
‫تاریخ‬
‫همترازی ‪translation‬‬
‫شباهت محتوا‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫‪19‬‬
‫قوم‬
‫ملت‬
‫زنده شخص‬
‫پرسوجوهاروز‬
‫شنبه‬
‫واژهنامه و گوگل ‪CLIR‬‬
‫تندباد‬
‫طوفانبه زبان‬
‫قهوه‬
‫سرخ‬
‫طوفانمبدأ سيل‬
‫دريا‬
‫گرفتن‬
‫‪Query‬‬
‫تطابق‬
‫‪translation‬‬
‫خلق‬
‫جمعيت‬
‫اخیرا‬
‫نوين‬
‫باقيمانده‬
‫بازمانده‬
‫‪TF, RATF‬‬
‫پديدار اسناد‬
‫بیرون‬
‫اجتماع گردباد مبدأ‬
‫قهوه‬
‫کاترينا‬
‫غرق‬
‫سيل‬
‫‪Document‬‬
‫‪translation‬‬
‫عمليات گسترده تخليه بازماندگان کاترينا نورمن مينتا وزير حمل و‬
‫نقل امريکا گفت هواپيماها و هلي کوپترها ساعته در حال کار‬
‫هستند و تا کنون بيش از هزار نفر را از مناطقي در نيواورليان که‬
‫اسناد‬
‫نمایه اند تخليه کرده اند اتوبوس ها نیز به‬
‫بيشترين اسيب را ديده‬
‫‪Machine‬‬
‫‪Dictionary‬‬
‫مقصد‬
‫‪Parallel‬بیرون بردن مردم از شهر ادامه مي دهند و اولین قطار شهر را‬
‫‪Corpora‬‬
‫‪translation‬‬
‫‪based‬‬
‫نظامي مي گويند تاکنون هزار نفر از‬
‫ترک کرده است مقامات‬
‫توفان زدگان اين شهر ويران نجات يافته اند‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫نمایش‬
‫اسناد‬
‫به زبان‬
‫مقصد‬
‫& ‪Query‬‬
‫‪Document‬‬
‫تاریخ انتشار‬
‫همترازی ‪translation‬‬
‫شباهت‬
‫محتوا‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫‪20‬‬
‫‪Survivors of Hurricane Katrina in the‬‬
‫‪southern US are being taken to safety in‬‬
‫‪what is being called the largest airlift in US‬‬
‫‪history.‬‬
‫واژهنامه و گوگل ‪CLIR‬پرسوجوها‬
‫‪TF, RATF‬‬
‫اسناد‬
‫‪Up to 40 aircraft are operating round-the‬‬‫به زبان‬
‫‪to move thousands who had been‬مبدأ‬
‫‪clock‬‬
‫مبدأ‬
‫‪stranded in New Orleans.‬‬
‫‪Query‬‬
‫‪Document‬‬
‫‪translation‬‬
‫‪translation‬‬
‫تطابقعمليات گسترده تخليه بازماندگان کاترينا نورمن مينتا وزير حمل و‬
‫نقل امريکا گفت هواپيماها و هلي کوپترها ساعته در حال کار‬
‫هستند و تا کنون بيش از هزار نفر را از مناطقي در نيواورليان که‬
‫بيشترين اسيب را ديده اند تخليه کرده اند اتوبوس ها نیز به‬
‫اسناد‬
‫نمایه‬
‫ا‬
‫شهر‬
‫قطار‬
‫اولین‬
‫و‬
‫دهند‬
‫مي‬
‫ادامه‬
‫شهر‬
‫بیرون بردن مردم از‬
‫ر‬
‫‪Machine‬‬
‫‪Dictionary‬‬
‫مقصد‬
‫‪Parallel‬ترک کرده است مقامات نظامي مي گويند تاکنون هزار نفر از‬
‫‪Corpora‬‬
‫‪based‬نجات يافته اند ‪translation‬‬
‫توفان زدگان اين شهر ويران‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫کیفیت همترازیها‬
‫کالس ‪ :1‬موضوع یکسان‬
‫کالس ‪ :2‬موضوع مرتبط‬
‫کالس ‪ :3‬ظاهر مشترک‬
‫کالس ‪ :4‬اصطالحات مشترک‬
‫کالس ‪ :5‬نامرتبط‬
‫‪21‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪ 3 CLIR‬باالترین ترجمه‬
‫بدون نویسهگردانی‬
‫& ‪Query‬‬
‫‪Document‬‬
‫تعداد‬
‫کالس ‪1‬‬
‫‪Query‬‬
‫‪13.5‬‬
‫‪%‬‬
‫‪11‬‬
‫‪translation‬‬
‫کالس ‪2‬‬
‫‪46‬‬
‫‪56.8 %‬‬
‫‪51‬‬
‫‪58.6 %‬‬
‫کالس ‪3‬‬
‫‪20‬‬
‫‪24.7 %‬‬
‫‪19‬‬
‫‪21.8 %‬‬
‫کالس ‪4‬‬
‫‪4‬‬
‫‪Parallel‬‬
‫کالس ‪5‬‬
‫‪0‬‬
‫‪Corpora‬‬
‫‪4‬‬
‫‪4.9 %‬‬
‫‪Dictionary‬‬
‫‪0 based 0 %‬‬
‫‪81‬‬
‫‪87‬‬
‫کل‬
‫‪22‬‬
‫درصد‬
‫تعداد‬
‫درصد‬
‫‪Document‬‬
‫‪14.9‬‬
‫‪%‬‬
‫‪13‬‬
‫‪translation‬‬
‫‪translation‬‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫با نویسهگردانی‬
‫‪100‬‬
‫‪4.6 %‬‬
‫‪Machine‬‬
‫‪0%‬‬
‫‪translation‬‬
‫‪100‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫اسناد‬
53,697
CLIR
‫مبدأ‬
Document
Query
translation
translation
Query &
Document
translation
10,365
‫همترازی‬
Machine
translation
‫اسناد‬
Dictionary
based191,440
Parallel
Corpora
Comparable
Corpora
‫مقصد‬
‫انگلیس ی‬-‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‬
23
24
‫‪CLIR‬‬
‫اسناد فارس ی‬
‫‪Query‬‬
‫&‬
‫‪Document‬‬
‫پرسوجوی‬
‫انگلیس ی‬
‫‪Query‬‬
‫‪translation‬‬
‫(‪)3‬‬
‫رتبهبندی اسناد‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫‪25‬‬
‫اسناد همتراز‬
‫شده فارس ی‪-‬‬
‫انگلیس ی‪Document‬‬
‫‪Parallel‬‬
‫‪Corpora‬‬
‫اسناد فارس ی و‬
‫انگلیس ی‬
‫‪translation‬‬
‫‪translation‬‬
‫(‪)2‬‬
‫ساخت پرسوجو‬
‫در فارس ی‬
‫(‪)1‬‬
‫استخراج دانش ترجمه‬
‫اصطالحات‬
‫‪Dictionary‬‬
‫‪Machine‬‬
‫‪based‬‬
‫‪translation‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
1
“Focused web crawling in the acquisition of comparable
corpora” [Talvensaari et.al, 2008]
‫ استفاده از رخداد همزمان کلمات در همترازیها‬:‫ایده اصلی‬
26
‫‪0.045‬‬
‫‪0.04‬‬
‫‪0.035‬‬
‫‪0.03‬‬
‫‪0.025‬‬
‫‪0.02‬‬
‫‪0.015‬‬
‫‪0.01‬‬
‫‪0.005‬‬
‫‪2500‬‬
‫‪2000‬‬
‫کلمه انگلیس‪1500‬ی‬
‫فوتبال‬
‫‪cancer‬‬
‫‪2500‬‬
‫‪2000‬‬
‫فوتبال‬
‫‪cancer‬‬
‫‪27‬‬
‫‪500‬‬
‫سرطان‬
‫‪ footbal‬سرطان‬
‫‪81‬‬
‫بیماری‬
‫‪52‬‬
‫بدن‬
‫‪51‬‬
‫سلول‬
‫‪42‬‬
‫‪...‬‬
‫‪...‬‬
‫عراق‬
‫‪105‬‬
‫صدام‬
‫‪95‬‬
‫‪cancer‬‬
‫‪Iraq‬‬
‫کلمه فارس ی‬
‫‪1000‬‬
‫امتیاز‬
‫‪1500‬‬
‫عراقی‬
‫‪ nuclear‬بغداد‬
‫عراق‬
‫‪...‬‬
‫‪1000‬‬
‫‪0‬‬
‫‪83‬‬
‫‪82‬‬
‫‪...‬‬
‫‪0‬‬
‫‪0.045‬‬
‫‪0.04‬‬
‫‪0.035‬‬
‫‪0.03‬‬
‫‪0.025‬‬
‫‪0.02‬‬
‫‪0.015‬‬
‫‪0.01‬‬
‫‪0.005‬‬
‫‪0‬‬
‫‪500‬‬
‫‪0‬‬
‫‪1‬‬
‫اطالعات متقابل‬
‫انگلیس ی‬
‫فارس ی‬
‫‪28‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪1‬‬
‫‪match‬‬
‫‪tennis‬‬
‫‪henman‬‬
‫‪Wimbledon‬‬
‫‪slam‬‬
‫‪game‬‬
‫انگلیس ی‬
‫فارس ی‬
‫تنيسور‬
‫مسابقات‬
‫ویمبلدون قهرمان‬
‫هولیه‬
‫تیم‬
‫قهرماني‬
‫‪29‬‬
‫جام‬
‫تنیس‬
‫باشگاه‬
‫ليگ‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪CLIR‬‬
‫اسناد فارس ی‬
‫‪Query‬‬
‫&‬
‫‪Document‬‬
‫پرسوجوی‬
‫انگلیس ی‬
‫‪Query‬‬
‫‪translation‬‬
‫(‪)3‬‬
‫رتبهبندی اسناد‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫‪30‬‬
‫اسناد همتراز‬
‫شده فارس ی‪-‬‬
‫انگلیس ی‪Document‬‬
‫‪Parallel‬‬
‫‪Corpora‬‬
‫اسناد فارس ی و‬
‫انگلیس ی‬
‫‪translation‬‬
‫‪translation‬‬
‫(‪)2‬‬
‫ساخت پرسوجو‬
‫در فارس ی‬
‫(‪)1‬‬
‫استخراج دانش ترجمه‬
‫اصطالحات‬
‫‪Dictionary‬‬
‫‪Machine‬‬
‫‪based‬‬
‫‪translation‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪2‬‬
‫روش اول‪ :‬انتخاب تعداد همسایه ثابت‬
‫پرسوجوی انگلیس ی‪Cancer Drugs :‬‬
‫کلمه فارس ی‬
‫کلمه انگیس ی‬
‫همسایه پویا‬
‫انتخاب تعداد‬
‫روش دوم‪:‬‬
‫‪Cancer‬‬
‫‪Drugs‬‬
‫‪31‬‬
‫سرطان‬
‫‪0.077‬‬
‫بیماری‬
‫‪0.049‬‬
‫بدن‬
‫‪0.049‬‬
‫سلول‬
‫‪0.041‬‬
‫…‬
‫…‬
‫درمان‬
‫دارو‬
‫داروهای‬
‫بیماری‬
‫…‬
‫‪0.050‬‬
‫‪0.049‬‬
‫‪0.042‬‬
‫‪0.042‬‬
‫…‬
‫پرسوجوی فارس ی‪:‬‬
‫سرطان‬
‫‪0.305‬‬
‫بیماری‬
‫‪0.195‬‬
‫درمان‬
‫‪0.252‬‬
‫دارو‬
‫‪0.247‬‬
‫‪0.8‬‬
‫‪sanction‬‬
‫‪0.6‬‬
‫امتیاز‬
‫‪0.4‬‬
‫‪0.2‬‬
‫‪0‬‬
‫‪1‬‬
‫‪0.8‬‬
‫‪atomic‬‬
‫‪0.4‬‬
‫‪0.2‬‬
‫‪0‬‬
‫کلمات وابسته‬
‫‪32‬‬
‫امتیاز‬
‫‪0.6‬‬
‫‪CLIR‬‬
‫اسناد فارس ی‬
‫‪Query‬‬
‫&‬
‫‪Document‬‬
‫پرسوجوی‬
‫انگلیس ی‬
‫‪Query‬‬
‫‪translation‬‬
‫(‪)3‬‬
‫رتبهبندی اسناد‬
‫‪Comparable‬‬
‫‪Corpora‬‬
‫‪33‬‬
‫اسناد همتراز‬
‫شده فارس ی‪-‬‬
‫انگلیس ی‪Document‬‬
‫‪Parallel‬‬
‫‪Corpora‬‬
‫اسناد فارس ی و‬
‫انگلیس ی‬
‫‪translation‬‬
‫‪translation‬‬
‫(‪)2‬‬
‫ساخت پرسوجو‬
‫در فارس ی‬
‫(‪)1‬‬
‫استخراج دانش ترجمه‬
‫اصطالحات‬
‫‪Dictionary‬‬
‫‪Machine‬‬
‫‪based‬‬
‫‪translation‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪3‬‬
‫پیکره همشهری‬
‫بازیابی اطالعات بین زبانی ‪ CLEF-2008‬و ‪CLEF-2009‬‬
‫بازیابی اسناد فارس ی توسط پرسوجوهای انگلیس ی‬
‫استفاده از ‪ 85‬پرسوجو‬
‫استفاده از پرسوجوهای فارس ی برای بازیابی تکزبانی‬
‫‪34‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫دقت در ‪ 5‬و ‪ 10‬سند باال (‪)Prec@5 , Prec@10‬‬
‫میانگین متوسط دقت (‪)MAP‬‬
‫مقایسه با بازیابی اطالعات تکزبانی‬
‫‪35‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
3
42% Mono
0.18
0.16
MAP
0.14
0.12
31% Mono
0.1
0.08
TAN dynamic k
dyn
 0
 0
0.06
0.04
COCOT
3
5
7
9
11
k
13
15
17
e=0
basi
c
0.02
1
e>0
19
36
3
0.18
0.16
MAP
0.14
0.12
0.1
0.08
TAN dynamic k
dyn
 0
 0
0.06
0.04
COCOT
3
5
7
9
11
k
13
15
17
e=0
basi
c
0.02
1
e>0
19
37
38
‫بازرسان‬
‫دولت‬
‫خلیج‬
‫‪gulf‬‬
‫صدام‬
‫عراق‬
‫‪Iran‬‬
‫‪z‬‬
‫‪Persian‬‬
‫ایران‬
‫‪Tehran‬‬
‫آمریکا‬
‫تهران‬
‫‪Iranian‬‬
‫ایران‬
‫خاتمی‬
‫تهران‬
‫‪39‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫بازرسان‬
‫دولت‬
‫خلیج‬
‫خبرگان‬
‫‪Khatami‬‬
‫‪gulf‬‬
‫خاتمی‬
‫صدام‬
‫‪ٰTehran‬‬
‫‪Tehran‬‬
‫‪Persian‬‬
‫آمریکا‬
‫عراق‬
‫ایرانی‬
‫تهران‬
‫‪Iranian‬‬
‫ایران‬
‫‪Iranian‬‬
‫‪Iran‬‬
‫ایران‬
‫تهران‬
‫‪Iran‬‬
‫‪Tehran‬‬
‫ایران‬
‫خاتمی‬
‫تهران‬
‫‪40‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪45% Mono‬‬
‫‪0.19‬‬
‫‪0.17‬‬
‫‪Series1‬‬
‫ترجمه برونهشتهها توسط واژهنامه‬
‫حذف برونهشتهها‬
‫‪48‬‬
‫‪24‬‬
‫‪diff k QLM omit‬‬
‫‪56‬‬
‫‪52‬‬
‫‪44‬‬
‫‪40‬‬
‫‪36‬‬
‫‪32‬‬
‫‪28‬‬
‫تعداد برونهشته‬
‫‪41‬‬
‫‪0.13‬‬
‫‪0.11‬‬
‫‪20‬‬
‫‪16‬‬
‫‪12‬‬
‫‪8‬‬
‫‪4‬‬
‫‪0‬‬
‫‪MAP‬‬
‫‪0.15‬‬
42
‫نگرش اول‪ :‬هر دو کلمه کنار یکدیگر به عنوان یک عبارت‬
‫عبارت انگیس ی‬
‫‪stock market‬‬
‫عبارت فارس ی‬
‫امتیاز‬
‫بازار سهام‬
‫‪21.46‬‬
‫سرمایه گذاران‬
‫ارزش سهام‬
‫‪19.27‬‬
‫تولید ناخالص‬
‫‪17.13‬‬
‫…‬
‫سقوط هواپیمای‬
‫سانحه هوایی‬
‫هواپیمای مسافربری‬
‫برج مراقبت‬
‫‪26.64‬‬
‫…‬
‫‪plane crash‬‬
‫‪43‬‬
‫‪17.32‬‬
‫‪21.26‬‬
‫‪15.51‬‬
‫‪12.75‬‬
‫…فارس ی‪-‬انگلیس ی‬
‫تطبیقی برای بازیابی اطالعات بین زبانی‬
‫استفاده از پیکرههای…‬
‫نگرش دوم‪ :‬در نظر گرفتن هم کلمات تکی و هم عبارات‬
‫تشخیص عبارات بر اساس اطالعات متقابل‬
‫عبارت انگیس ی‬
‫عبارت فارس ی‬
‫زلزله‬
‫زمین لرزه‬
‫‪earthquake‬‬
‫ریشتر‬
‫لرزه‬
‫‪44‬‬
‫امتیاز‬
‫‪29.75‬‬
‫‪28.05‬‬
‫‪26.01‬‬
‫‪24.79‬‬
‫…‬
‫…‬
‫انتخابات ریاست‬
‫ریاست جمهوری‬
‫‪25.19‬‬
‫‪presidential election‬‬
‫‪21.78‬‬
‫… ی‪-‬انگلیس ی‬
‫…برای بازیابی اطالعات بین زبانی فارس‬
‫استفاده از پیکرههای تطبیقی‬
‫‪45‬‬
‫معیار‬
‫‪COCOT‬‬
‫نگرش اول‬
‫نگرش دوم‬
‫‪MAP‬‬
‫‪0.13‬‬
‫)‪0.173 (21.4%‬‬
‫)‪0.162 (13.6%‬‬
‫‪Prec@5‬‬
‫‪0.223‬‬
‫)‪0.258 (15.43%‬‬
‫)‪0.284 (27%‬‬
‫‪Prec@10‬‬
‫‪0.205‬‬
‫)‪0.236 (13.3%‬‬
‫)‪0.247 (18.6%‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
46
‫استفاده از پیکره تطبیقی برای کلمات خارج از واژهنامه‬
‫(‪)Dic-CC‬‬
‫واژهنامه به همراه ترجمههای استخراج شده از پیکره تطبیقی (‪)Dic&CC‬‬
‫‪47‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪52% Mono‬‬
‫‪0.2‬‬
‫‪0.16‬‬
‫‪Dic_CC‬‬
‫‪Dic&CC‬‬
‫‪MAP‬‬
‫‪0.12‬‬
‫‪0.08‬‬
‫‪CC‬‬
‫‪Dic‬‬
‫‪10‬‬
‫‪0.04‬‬
‫‪9‬‬
‫‪8‬‬
‫‪7‬‬
‫‪5‬‬
‫‪6‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪k‬‬
‫‪48‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
49
‫گسترش پرسوجو در زبان مبدأ توسط شبه بازخورد ارتباطی‬
‫‪pseudo relevance feedback‬‬
‫‪50‬‬
‫معیار‬
‫تکزبانی‬
‫‪CC‬‬
‫‪Dic&CC‬‬
‫‪MAP‬‬
‫‪0.424‬‬
‫)‪0.194 (45.7%‬‬
‫)‪0.262 (61.8%‬‬
‫‪Prec@5‬‬
‫‪0.618‬‬
‫)‪0.298 (48.2%‬‬
‫)‪0.362 (58.6%‬‬
‫‪Prec@10‬‬
‫‪0.607‬‬
‫)‪0.28(46.1%‬‬
‫)‪0.37 (61%‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
51
‫ارزیابی سیستمهای تصفیه توافقی بین زبانی در مسابقههای‬
‫‪CLEF-2008‬‬
‫‪CLEF-2009‬‬
‫‪LREC-2010‬‬
‫بازیابی اسناد انگلیس ی توسط پرسوجوهای فارس ی‬
‫استفاده از ‪ 45‬پرسوجو‬
‫‪52‬‬
‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‪-‬انگلیس ی‬
‫‪0.16‬‬
‫نتایج شبکه وابستگی اصطالحات‬
‫‪0.13‬‬
‫‪MAP‬‬
‫نتایج کشف برونهشته‬
‫‪0.1‬‬
‫نتایج استفاده از واژهنامه‬
‫‪dyn ‬‬
‫‪e>0‬‬
‫‪0‬‬
‫‪basic‬‬
‫‪e=0‬‬
‫‪COCOT‬‬
‫‪16‬‬
‫‪19‬‬
‫‪0.07‬‬
‫‪TAN dynamic k‬‬
‫‪ 0‬‬
‫‪13‬‬
‫‪0.04‬‬
‫‪7‬‬
‫‪10‬‬
‫‪k‬‬
‫‪1‬‬
‫‪4‬‬
‫‪0.2‬‬
‫‪0.19‬‬
‫‪0.16‬‬
‫‪0.17‬‬
‫‪0.15‬‬
‫‪0.08‬‬
‫‪Dic&CC‬‬
‫‪Dic_CC‬‬
‫‪Dic‬‬
‫‪CC‬‬
‫‪10‬‬
‫‪53‬‬
‫‪9‬‬
‫‪8‬‬
‫‪7‬‬
‫‪6‬‬
‫‪5‬‬
‫‪k‬‬
‫‪0.04‬‬
‫ترجمه برونهشتهها توسط واژهنامه‬
‫‪Dic‬‬
‫حذف برونهشتهها‬
‫‪Omit Outliers‬‬
‫‪0‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪40‬‬
‫‪0.13‬‬
‫‪36‬‬
‫‪32‬‬
‫‪28‬‬
‫‪24‬‬
‫‪0.11‬‬
‫‪20‬‬
‫تعداد برونهشته‬
‫‪16‬‬
‫‪12‬‬
‫‪8‬‬
‫‪4‬‬
‫‪0‬‬
‫‪MAP‬‬
‫‪0.12‬‬
‫دستاوردها‪:‬‬
‫ساخت اولین پیکره تطبیقی بزرگ فارس ی‪-‬انگلیس ی‬
‫ارائه روش استخراج ترجمه مبنی بر شبکه وابستگی اصطالحات‬
‫بررس ی ّ‬
‫صحت ترجمههای استخراج شده با استفاده از کشف برونهشتهها‬
‫نتیجهگیری‪:‬‬
‫ترجمههای استخراج شده از پیکرههای تطبیقی روش ی مؤثر برای بازیابی اطالعات بین زبانی‬
‫ترجمه کلمات خارج از واژهنامه و استخراج کلمات مرتبط‬
‫‪54‬‬
‫بهبود کیفیت پیکره تطبیقی ساخته شده‬
‫بر اساس ترجمههای استخراج شده به صورت تکراری‬
‫گسترش دامنه پیکره تطبیقی توسط منابعی همانند وب‪ ،‬ویکیپدیا‬
‫استفاده از پیکره تطبیقی‬
‫برای ترجمه پرسوجوهایی در حوزهای به غیر از اخبار‬
‫به عنوان یک زبان میانی‬
‫استفاده از ترکیب ویژگی اسناد به منظور رتبهبندی در بازیابی اطالعات بین زبانی‬
‫‪55‬‬
Homa B. Hashemi, Azadeh Shakery, and Heshaam Faili, “Creating a PersianEnglish Comparable Corpus”, in proceedings of Conference on Multilingual
and Multimodal Information Access Evaluation (CLEF), Padua, Italy, pp. 27-39,
2010.
Homa B. Hashemi, Naser Yazdani, Azadeh Shakery, and Mahdi Pakdaman
Naeini, “Application of Ensemble Models in Web Ranking”, in proceedings of
fifth International Symposium on Telecommunications (IST), Tehran, Iran,
2010.
Homa B. Hashemi, and Azadeh Shakery, “Learning translation knowledge
from created Persian-English Comparable Corpus for Cross-Language
Information Retrieval”, Women in Machine Learning workshop (WiML),
Vancouver, Canada, 2010.
Homa B. Hashemi, and Azadeh Shakery, “Mining a Persian-English
Comparable Corpus for Cross-Language Information Retrieval”, ready to be
submitted to Information Processing & Management journal (IPM).
‫انگلیس ی‬-‫استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی‬
56
57