استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی
Download
Report
Transcript استفاده از پیکرههای تطبیقی برای بازیابی اطلاعات بین زبانی فارسی
هما برادران هاشمی
استاد راهنما :دکتر آزاده شاکری
اساتید داور :دکتر بیگی ،دکتر تقی یاره ،دکتر فیلی
اسفند 1389
2
3
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
поиск информации
recupero dell'informazione
بازیابی اطالعات
信息检索
information retrieval
4
tiedonhaku
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
5
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
بازیابی اطالعات
CLIRزبانی
بین
& Query
ترجمه اسناد و
Document
پرسوجو
translation
پیکرههای
Comparable
تطبیقی
Corpora
6
Query
ترجمه پرسوجو
translation
پیکرههای
Parallel
Corporaی
مواز
Dictionary
واژهنامهها
based
Document
ترجمه اسناد
translation
ماشینهای
Machine
ترجمه
translation
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
هدف:
ایجاد ترجمهای روان از متون زبان طبیعی
معایب:
پرسوجوها شامل لیستی از کلید واژگان هستند
ارائه تنها ”محتملترین ترجمه“
ماشین ترجمه گوگل
به طور گسترده مواد مخدر
در ایران استفاده میشود
7
Widely used narcotics
in Iran
هیچ واژهنامهای کامل نیست
ابهام ترجمه
”( “Goalهدف و واژه ورزش ی گل زدن)
”( “Bankبانکداری و کنارهی رودخانه)
8
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
9
ABCD
ST
ابپت
سش
ABCD
ST
ابپت
سش
ABCD
ST
ابپت
سش
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
ABCD
ST
ABCD
ST
10
ABCD
ST
ابپت
سش
ابپت
ابپت
سش
ابپت
سش
سش
ابپت
سش
ابپت
سش
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
بازیابی اطالعات
CLIRزبانی
بین
& Query
ترجمه اسناد و
Document
پرسوجو
translation
پیکرههای
Comparable
تطبیقی
Corpora
11
Query
ترجمه پرسوجو
translation
پیکرههای
Parallel
Corporaی
مواز
Dictionary
واژهنامهها
based
Document
ترجمه اسناد
translation
ماشینهای
Machine
ترجمه
translation
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
12
13
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
نمایش
اسناد
به زبان
مقصد
& Query
واژهنامه و گوگل CLIRنمایش
اسناد
به زبان
مبدأ
Query
Document
انتشار
تاریخ
همترازی translation
شباهت محتوا
Comparable
Corpora
14
تطابق
Parallel
Corpora
translation
TF, RATF
اسناد
مبدأ
Document
translation
نمایه
Dictionary
اسناد
Machine
based
translation
مقصد
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
اسناد
TF, RATF
مبدأ
Document
نمایشCLIR واژهنامه و گوگل
اسناد
به زبان
مبدأ
Query
نمایش
اسناد
به زبان
مقصد
Query &
Document
انتشار
تاریخto
Survivorstranslation
of Hurricane Katrina intranslation
the southern US are being
taken
translation
همترازی
تطابق
safety in what is being called the largest airlift
in US history.
شباهت محتوا
Up to 40 aircraft are operating round-the-clock to move thousands who
had been stranded in New Orleans. On Saturday President Bush
اسناد
نمایه
announced
the
deployment
of
thousands of extra troops in affected
Machine
Dictionary
Parallel
Comparable
مقصدamid criticism of the rescue effort. Survivors
areas,
have been telling
Corpora
Corpora
translation
based
harrowing
tales of violence.
On Saturday more than 10,000 people
were removed from flood-ravaged New Orleans.
انگلیس ی-استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی
15
اسناد
TF, RATF
مبدأ
Document
people
translation
Orleans
نمایشCLIR واژهنامه و گوگل
اسناد
به زبان
مبدأ
brown Query
translation
emerge
new
Katrina
survivor
flood
thousand
اسناد
Machine
rescue
مقصد
translation
Saturday
relief
نمایه
Dictionary
urgency
based
hurricane
انگلیس ی-استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی
نمایش
اسناد
به زبان
مقصد
Query &
Document
تطابق
Parallel
Corpora
انتشار
تاریخ
translation همترازی
شباهت محتوا
Comparable
Corpora
16
نمایش
اسناد
به زبان
مقصد
& Query
واژهنامه و گوگل CLIRنمایش
اسناد
به زبان
مبدأ
Query
Document
خلق
قوم جمعيت
ملت
translation
اخیرا
نوين
انتشار شخص
همترازی تاریخ زنده
translation
تطابق
محتوا روز بازمانده باقيمانده
شباهتشنبه
پديدار
بیرون
تندباد
طوفان
گردباد
قهوه اجتماع
سرخ
قهوه
کاترينا
سيل
طوفان
دريا
نمایه
غرق
Parallelسيل
گرفتن
Comparableطغيان
Dictionary
راحتي
Corporaاعانه
امداد
رفع
Corpora
based
نگراني
خط برجسته
فوريت
كنار ضرورت
دريا
17
TF, RATF
اسناد
مبدأ
Document
translation
اسناد
Machine
مقصد
translation
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
نمایش
اسناد
به زبان
مقصد
& Query
واژهنامه و گوگل CLIRنمایش
اسناد
به زبان
مبدأ
Query
Document
انتشار
تاریخ
همترازی translation
شباهت محتوا
Comparable
Corpora
18
تطابق
Parallel
Corpora
translation
TF, RATF
اسناد
مبدأ
Document
translation
نمایه
Dictionary
اسناد
Machine
based
translation
مقصد
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
نمایش
اسناد
به زبان
مقصد
& Query
Document
انتشار
تاریخ
همترازی translation
شباهت محتوا
Comparable
Corpora
19
قوم
ملت
زنده شخص
پرسوجوهاروز
شنبه
واژهنامه و گوگل CLIR
تندباد
طوفانبه زبان
قهوه
سرخ
طوفانمبدأ سيل
دريا
گرفتن
Query
تطابق
translation
خلق
جمعيت
اخیرا
نوين
باقيمانده
بازمانده
TF, RATF
پديدار اسناد
بیرون
اجتماع گردباد مبدأ
قهوه
کاترينا
غرق
سيل
Document
translation
عمليات گسترده تخليه بازماندگان کاترينا نورمن مينتا وزير حمل و
نقل امريکا گفت هواپيماها و هلي کوپترها ساعته در حال کار
هستند و تا کنون بيش از هزار نفر را از مناطقي در نيواورليان که
اسناد
نمایه اند تخليه کرده اند اتوبوس ها نیز به
بيشترين اسيب را ديده
Machine
Dictionary
مقصد
Parallelبیرون بردن مردم از شهر ادامه مي دهند و اولین قطار شهر را
Corpora
translation
based
نظامي مي گويند تاکنون هزار نفر از
ترک کرده است مقامات
توفان زدگان اين شهر ويران نجات يافته اند
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
نمایش
اسناد
به زبان
مقصد
& Query
Document
تاریخ انتشار
همترازی translation
شباهت
محتوا
Comparable
Corpora
20
Survivors of Hurricane Katrina in the
southern US are being taken to safety in
what is being called the largest airlift in US
history.
واژهنامه و گوگل CLIRپرسوجوها
TF, RATF
اسناد
Up to 40 aircraft are operating round-theبه زبان
to move thousands who had beenمبدأ
clock
مبدأ
stranded in New Orleans.
Query
Document
translation
translation
تطابقعمليات گسترده تخليه بازماندگان کاترينا نورمن مينتا وزير حمل و
نقل امريکا گفت هواپيماها و هلي کوپترها ساعته در حال کار
هستند و تا کنون بيش از هزار نفر را از مناطقي در نيواورليان که
بيشترين اسيب را ديده اند تخليه کرده اند اتوبوس ها نیز به
اسناد
نمایه
ا
شهر
قطار
اولین
و
دهند
مي
ادامه
شهر
بیرون بردن مردم از
ر
Machine
Dictionary
مقصد
Parallelترک کرده است مقامات نظامي مي گويند تاکنون هزار نفر از
Corpora
basedنجات يافته اند translation
توفان زدگان اين شهر ويران
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
کیفیت همترازیها
کالس :1موضوع یکسان
کالس :2موضوع مرتبط
کالس :3ظاهر مشترک
کالس :4اصطالحات مشترک
کالس :5نامرتبط
21
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
3 CLIRباالترین ترجمه
بدون نویسهگردانی
& Query
Document
تعداد
کالس 1
Query
13.5
%
11
translation
کالس 2
46
56.8 %
51
58.6 %
کالس 3
20
24.7 %
19
21.8 %
کالس 4
4
Parallel
کالس 5
0
Corpora
4
4.9 %
Dictionary
0 based 0 %
81
87
کل
22
درصد
تعداد
درصد
Document
14.9
%
13
translation
translation
Comparable
Corpora
با نویسهگردانی
100
4.6 %
Machine
0%
translation
100
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
اسناد
53,697
CLIR
مبدأ
Document
Query
translation
translation
Query &
Document
translation
10,365
همترازی
Machine
translation
اسناد
Dictionary
based191,440
Parallel
Corpora
Comparable
Corpora
مقصد
انگلیس ی-استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی
23
24
CLIR
اسناد فارس ی
Query
&
Document
پرسوجوی
انگلیس ی
Query
translation
()3
رتبهبندی اسناد
Comparable
Corpora
25
اسناد همتراز
شده فارس ی-
انگلیس یDocument
Parallel
Corpora
اسناد فارس ی و
انگلیس ی
translation
translation
()2
ساخت پرسوجو
در فارس ی
()1
استخراج دانش ترجمه
اصطالحات
Dictionary
Machine
based
translation
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
1
“Focused web crawling in the acquisition of comparable
corpora” [Talvensaari et.al, 2008]
استفاده از رخداد همزمان کلمات در همترازیها:ایده اصلی
26
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
2500
2000
کلمه انگلیس1500ی
فوتبال
cancer
2500
2000
فوتبال
cancer
27
500
سرطان
footbalسرطان
81
بیماری
52
بدن
51
سلول
42
...
...
عراق
105
صدام
95
cancer
Iraq
کلمه فارس ی
1000
امتیاز
1500
عراقی
nuclearبغداد
عراق
...
1000
0
83
82
...
0
0.045
0.04
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
500
0
1
اطالعات متقابل
انگلیس ی
فارس ی
28
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
1
match
tennis
henman
Wimbledon
slam
game
انگلیس ی
فارس ی
تنيسور
مسابقات
ویمبلدون قهرمان
هولیه
تیم
قهرماني
29
جام
تنیس
باشگاه
ليگ
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
CLIR
اسناد فارس ی
Query
&
Document
پرسوجوی
انگلیس ی
Query
translation
()3
رتبهبندی اسناد
Comparable
Corpora
30
اسناد همتراز
شده فارس ی-
انگلیس یDocument
Parallel
Corpora
اسناد فارس ی و
انگلیس ی
translation
translation
()2
ساخت پرسوجو
در فارس ی
()1
استخراج دانش ترجمه
اصطالحات
Dictionary
Machine
based
translation
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
2
روش اول :انتخاب تعداد همسایه ثابت
پرسوجوی انگلیس یCancer Drugs :
کلمه فارس ی
کلمه انگیس ی
همسایه پویا
انتخاب تعداد
روش دوم:
Cancer
Drugs
31
سرطان
0.077
بیماری
0.049
بدن
0.049
سلول
0.041
…
…
درمان
دارو
داروهای
بیماری
…
0.050
0.049
0.042
0.042
…
پرسوجوی فارس ی:
سرطان
0.305
بیماری
0.195
درمان
0.252
دارو
0.247
0.8
sanction
0.6
امتیاز
0.4
0.2
0
1
0.8
atomic
0.4
0.2
0
کلمات وابسته
32
امتیاز
0.6
CLIR
اسناد فارس ی
Query
&
Document
پرسوجوی
انگلیس ی
Query
translation
()3
رتبهبندی اسناد
Comparable
Corpora
33
اسناد همتراز
شده فارس ی-
انگلیس یDocument
Parallel
Corpora
اسناد فارس ی و
انگلیس ی
translation
translation
()2
ساخت پرسوجو
در فارس ی
()1
استخراج دانش ترجمه
اصطالحات
Dictionary
Machine
based
translation
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
3
پیکره همشهری
بازیابی اطالعات بین زبانی CLEF-2008و CLEF-2009
بازیابی اسناد فارس ی توسط پرسوجوهای انگلیس ی
استفاده از 85پرسوجو
استفاده از پرسوجوهای فارس ی برای بازیابی تکزبانی
34
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
دقت در 5و 10سند باال ()Prec@5 , Prec@10
میانگین متوسط دقت ()MAP
مقایسه با بازیابی اطالعات تکزبانی
35
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
3
42% Mono
0.18
0.16
MAP
0.14
0.12
31% Mono
0.1
0.08
TAN dynamic k
dyn
0
0
0.06
0.04
COCOT
3
5
7
9
11
k
13
15
17
e=0
basi
c
0.02
1
e>0
19
36
3
0.18
0.16
MAP
0.14
0.12
0.1
0.08
TAN dynamic k
dyn
0
0
0.06
0.04
COCOT
3
5
7
9
11
k
13
15
17
e=0
basi
c
0.02
1
e>0
19
37
38
بازرسان
دولت
خلیج
gulf
صدام
عراق
Iran
z
Persian
ایران
Tehran
آمریکا
تهران
Iranian
ایران
خاتمی
تهران
39
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
بازرسان
دولت
خلیج
خبرگان
Khatami
gulf
خاتمی
صدام
ٰTehran
Tehran
Persian
آمریکا
عراق
ایرانی
تهران
Iranian
ایران
Iranian
Iran
ایران
تهران
Iran
Tehran
ایران
خاتمی
تهران
40
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
45% Mono
0.19
0.17
Series1
ترجمه برونهشتهها توسط واژهنامه
حذف برونهشتهها
48
24
diff k QLM omit
56
52
44
40
36
32
28
تعداد برونهشته
41
0.13
0.11
20
16
12
8
4
0
MAP
0.15
42
نگرش اول :هر دو کلمه کنار یکدیگر به عنوان یک عبارت
عبارت انگیس ی
stock market
عبارت فارس ی
امتیاز
بازار سهام
21.46
سرمایه گذاران
ارزش سهام
19.27
تولید ناخالص
17.13
…
سقوط هواپیمای
سانحه هوایی
هواپیمای مسافربری
برج مراقبت
26.64
…
plane crash
43
17.32
21.26
15.51
12.75
…فارس ی-انگلیس ی
تطبیقی برای بازیابی اطالعات بین زبانی
استفاده از پیکرههای…
نگرش دوم :در نظر گرفتن هم کلمات تکی و هم عبارات
تشخیص عبارات بر اساس اطالعات متقابل
عبارت انگیس ی
عبارت فارس ی
زلزله
زمین لرزه
earthquake
ریشتر
لرزه
44
امتیاز
29.75
28.05
26.01
24.79
…
…
انتخابات ریاست
ریاست جمهوری
25.19
presidential election
21.78
… ی-انگلیس ی
…برای بازیابی اطالعات بین زبانی فارس
استفاده از پیکرههای تطبیقی
45
معیار
COCOT
نگرش اول
نگرش دوم
MAP
0.13
)0.173 (21.4%
)0.162 (13.6%
Prec@5
0.223
)0.258 (15.43%
)0.284 (27%
Prec@10
0.205
)0.236 (13.3%
)0.247 (18.6%
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
46
استفاده از پیکره تطبیقی برای کلمات خارج از واژهنامه
()Dic-CC
واژهنامه به همراه ترجمههای استخراج شده از پیکره تطبیقی ()Dic&CC
47
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
52% Mono
0.2
0.16
Dic_CC
Dic&CC
MAP
0.12
0.08
CC
Dic
10
0.04
9
8
7
5
6
4
3
2
1
k
48
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
49
گسترش پرسوجو در زبان مبدأ توسط شبه بازخورد ارتباطی
pseudo relevance feedback
50
معیار
تکزبانی
CC
Dic&CC
MAP
0.424
)0.194 (45.7%
)0.262 (61.8%
Prec@5
0.618
)0.298 (48.2%
)0.362 (58.6%
Prec@10
0.607
)0.28(46.1%
)0.37 (61%
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
51
ارزیابی سیستمهای تصفیه توافقی بین زبانی در مسابقههای
CLEF-2008
CLEF-2009
LREC-2010
بازیابی اسناد انگلیس ی توسط پرسوجوهای فارس ی
استفاده از 45پرسوجو
52
استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی-انگلیس ی
0.16
نتایج شبکه وابستگی اصطالحات
0.13
MAP
نتایج کشف برونهشته
0.1
نتایج استفاده از واژهنامه
dyn
e>0
0
basic
e=0
COCOT
16
19
0.07
TAN dynamic k
0
13
0.04
7
10
k
1
4
0.2
0.19
0.16
0.17
0.15
0.08
Dic&CC
Dic_CC
Dic
CC
10
53
9
8
7
6
5
k
0.04
ترجمه برونهشتهها توسط واژهنامه
Dic
حذف برونهشتهها
Omit Outliers
0
4
3
2
1
40
0.13
36
32
28
24
0.11
20
تعداد برونهشته
16
12
8
4
0
MAP
0.12
دستاوردها:
ساخت اولین پیکره تطبیقی بزرگ فارس ی-انگلیس ی
ارائه روش استخراج ترجمه مبنی بر شبکه وابستگی اصطالحات
بررس ی ّ
صحت ترجمههای استخراج شده با استفاده از کشف برونهشتهها
نتیجهگیری:
ترجمههای استخراج شده از پیکرههای تطبیقی روش ی مؤثر برای بازیابی اطالعات بین زبانی
ترجمه کلمات خارج از واژهنامه و استخراج کلمات مرتبط
54
بهبود کیفیت پیکره تطبیقی ساخته شده
بر اساس ترجمههای استخراج شده به صورت تکراری
گسترش دامنه پیکره تطبیقی توسط منابعی همانند وب ،ویکیپدیا
استفاده از پیکره تطبیقی
برای ترجمه پرسوجوهایی در حوزهای به غیر از اخبار
به عنوان یک زبان میانی
استفاده از ترکیب ویژگی اسناد به منظور رتبهبندی در بازیابی اطالعات بین زبانی
55
Homa B. Hashemi, Azadeh Shakery, and Heshaam Faili, “Creating a PersianEnglish Comparable Corpus”, in proceedings of Conference on Multilingual
and Multimodal Information Access Evaluation (CLEF), Padua, Italy, pp. 27-39,
2010.
Homa B. Hashemi, Naser Yazdani, Azadeh Shakery, and Mahdi Pakdaman
Naeini, “Application of Ensemble Models in Web Ranking”, in proceedings of
fifth International Symposium on Telecommunications (IST), Tehran, Iran,
2010.
Homa B. Hashemi, and Azadeh Shakery, “Learning translation knowledge
from created Persian-English Comparable Corpus for Cross-Language
Information Retrieval”, Women in Machine Learning workshop (WiML),
Vancouver, Canada, 2010.
Homa B. Hashemi, and Azadeh Shakery, “Mining a Persian-English
Comparable Corpus for Cross-Language Information Retrieval”, ready to be
submitted to Information Processing & Management journal (IPM).
انگلیس ی-استفاده از پیکرههای تطبیقی برای بازیابی اطالعات بین زبانی فارس ی
56
57