Transcript مجموعه تست
محتوای ارائه
• مقدمه
• پیشینه
• روش پیشنهادی
• نتایج ،تحلیل و ارزیابی
• نتیجهگیری و کارهای اتی
Page 2
سیستمهای بازیابی اطالعات ()Information Retrieval Systems
تعریف
شکل :1نمای یازیکسیستمبازیابیاطالعات[]Web 2010
موتورهای جستجو ملموسترین نمونه از سیستمهای بازیابی اطالعات است که برای بازیابی اسناد HTMLدر وب به کار می رود.
Page 3
مجموعه تست ()Test Collection
تعریف
شکل :2نمای ی از مجموعه تست و سیستم بازیابی اطالعات ][Web 2010
کاربرد :کارای ی سیستمهای بازیابی اطالعات براساس میزان ارتباط نتایج جستجو با پرسش کاربر از طریق منبعی به نام مجموعه تست ارزیابی میشود.
Page 4
انواع مجموعههای تست
مجموعهتست
غیردودوی ی
دودوی ی
چندسطحی
قضاوتهایترجیحی
ارتباطجنبه
در مجموعههای تست با قضاوتهای چند سطحی ،قضاوت در مورد ارتباط هر سند به پرسش در قالب یک عدد بیان میشود که نمایانگر
میزان ارتباط محتوای هر سند به پرسش میباشد.
کاربرد مجموعههای تست با قضاوتهای چند سطحی :در محیطهای ی (مثل وب) ][Jär 2000
– کاربر معموال اسناد ابتدای لیست را نگاه میکند که بهتر است این اسناد خیلی مرتبط باشند.
Page 5
ساخت مجموعههای تست
تهیه مجموعه اسناد کار دشواری نیست.
ساخت مجموعه پرسشها کار دشواری نیست ].[Car 2008
در مجموعه تستهای بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسشهای موجود در مجموعه ممکن نیست [San and
].Joh 2004
• ساخت مجموعه قضاوت زمانبر و هزینهبر است و مستلزم تالش انسانی است ].[San and Joh 2004][Car and Ben 2008
• اگر مجموعه تست فاقد قضاوتها کافی باشد ،در ارزیابی سیستمهای بازیابی اطالعات خوب عمل نمیکند].[Car 2008
بنابراین
• توسعه دهندگان مجموعه تست باید بین تعداد قضاوتها و هزینه ساخت ان مصالحه انجام دهند.
• اطمینان از کافی بودن تعداد قضاوتهای مجموعه تست
Page 6
تعریف مسئله
مسئله :اطمینان از میزان کارای ی مجموعه تست در ارزیابی سیستمهای بازیابی اطالعات (قابلیت استفاده مجدد).
قابلیت استفاده مجدد یعنی اطمینان از کافی بودن مجموعه قضاوتهای موجود در مجموعه تست.
• هر چه به قضاوتهای بیشتری نیاز باشد قابلیت استفاده مجدد از مجموعه تست کاهش مییابد.
• قابلیت استفاده مجدد یک معیار کیفی است.
اهمیت عملی مسئله:
• کمک به تولیدکنندگان مجموعه تست در تعیین این که ایا یک مجموعه موجود از قضاوتها برای ارزیابی سیستمهای بازیابی اطالعات مناسب است
یا به قضاوتهای بیشتری نیاز است.
Page 7
هدف
ارائهروشیبرایارزیابیقابلیتاستفادهمجددمجموعهتستباقضاوتهایچندسطحی
بدین منظور باید از کافی بودن تعداد قضاوتهای موجود در مجموعه تست اطمینان حاصل کرد.
برای نشان دادن این اطمینان از بازه اطمینان استفاده میشود که برای یک معیار ارزیابی محاسبه میشود.
پهنای بازههای اطمینان ،نمایندهای از قابلیت استفاده مجدد مجموعه تست میباشد.
Page 8
محتوای ارائه
• پیشینه
Page 9
نمونههای ی از مجموعههای تست
ناممجموعهتست
توضیحات
نوع
تعداداسناد
تعداد
پرسشها
تعداد
قضاوتها
ادرس
میلیونهاصفحاتوباز
TREC 2011
ClueWeb09 Dataset
غیر دودوی ی
1040809705
50
19381
http://trec.nist.gov/
Cranfield
مقالههایتکنیکیدرموردحرکتگاز
وهوا
دودوی ی
1400
225
1837
http://ir.dcs.gla.ac.uk
/resources/test_collec
tions/cran/
CACM
خالصههایACM
دودوی ی
3204
64
796
http://cacm.acm.org/
Mahak
شاملخبرهایISNA
غیر دودوی ی
3006
216
1196
~http://ce.sharif.edu/
shesmail/Mahak/
خبرهایروزنامههمشهری
دودوی ی
320000
50
21743
http://ece.ut.ac.ir/dbr
g/hamshahri/publicat
ions.html
Hamshahri 2
Page 10
روشهای ساخت مجموعه قضاوت
[Har 1992]
[San and Joh 2004] [Cor 1998] )Interactive
• نمونهگیری تصادفی
Searching and Judging( • جستجو و قضاوت تعاملی
[Sob 2003] [San and Joh 2004]
)Relevance Feedback( • بازخورد ارتباطی
[Car and Gab et al. 2010]
]Joh 2007[ Poolingروش
Page 11
Pooling •
معیارهای ارزیابی سیستمهای بازیابی اطالعات
فرمول
نام
نوع
Precision
Recall
Average Precision
دودوی ی
Mean Average Precision
General Precision [Kek 2002]
General Recall [Kek 2002]
Graded Average Precision [Rob
2010]
Normalized Discounted
Cumulative Gain [Jär 2000]
Page 12
غیر
دودوی ی
روشهای بررسی اسناد قضاوت نشده
[Buc
معرفیمعیارهای
جدید
اسنادقضاوتنشده،نامرتبطفرضشوند
نادقیق
binary preference
دودوی ی
]2004
دودوی ی
Inferred Average
]Precision [Yil 2006
رفتارکاربر
تخمینربطهر
سندبهپرسش
نام
نوع
دسته بندی
کلیک ][Rad 2006
[ Büt 2007] SVM
Multinomial Logistic Regression
دودوی ی
دودوی ی
غیردودوی ی
Page 13
روشهای ارزیابی قابلیت استفادهی مجدد مجموعههای تست
مناسب نبودن روشهای تخمین کارای ی :عدم اطمینان به تخمینها
• ایا دو سیستم بعد از پیشبینی ارتباط هر سند از روی یک مجموعهی کوچک از قضاوتها میتوانند نسبت به هم با اطمینان رتبهبندی شوند
].and Kan 2010
تخمین نقطهای
•
][Car and Gab et al. 2010
با استفاده از معیارهای کالسیک و معرفی معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطهای تخمین زده میشود.
تخمین بازهای
•
[Car
][Car and Gab et al. 2010
بازه اطمینان برای معیار MAPمحاسبه میشود.
روش تخمین بازهای دقیق تر از تخمین نقطهای است.
این روشها محدود به ارزیابی مجموعه تستها با قضاوتهای دودوی ی هستند.
Page 14
ی
نواور
ارزیابی قابلیت استفاده مجدد ،مجموعه تستها با قضاوتهای چند سطحی
گسترش روش تخمین بازه اطمینان با استفاده از:
• معیار NDCGدر تخمین بازه های اطمینان
• مدل Multinomial Logistic Regressionبرای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش
Page 15
محتوای ارائه
• روش پیشنهادی
Page 16
ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان
اگر یک مجموعه تست با مشخصات زیر وجود داشته باشد:
• :Jمجموعه قضاوت
• :Qمجموعه پرسش
قبل از محاسبه کارای ی یک سیستم بازیابی اطالعات با کمک این مجموعه تست و معیار ارزیابی m
•
باید از کافی بودن تعداد قضاوتهای موجود در Jاطمینان حاصل نماییم .برای نمایش این اطمینان از بازه اطمینان استفاده می شود.
بازه اطمینان برای معیار mمحاسبه میشود.
• بازه اطمینان ابزار قدرتمندی است که به کاربر اجازه میدهد عدم قطعیت را در محاسبه کارای ی سیستم بازیابی اطالعات تعیین کند.
• عدم قطعیت ناشی از اسناد قضاوت نشدهای است که توسط سیستم بازیابی شده است.
Page 17
ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان ...
برای محاسبهی بازه اطمینان با معیار NDCGابتدا باید امید ریاضی و واریانس معیار NDCGبرای یک پرسش محاسبه شود.
معموال یک مجموعه از پرسش ها وجود دارند.
ا
اما
در بازیابی اطالعات پرسش ها مستقلند.
برای یک مجموعه پرسش حالت رایج ان است که میانه معیار در نظر گرفته شود.
Page 18
Multinomial Logistic Regression
این نوع رگراسیون زمانی بکار میرود که متغییر وابسته بیشتر از دو دسته را شامل شود و از نوع اسمی ( )Nominalباشد.
لذا استفاده از از مدل Multinomial Logistic Regressionبرای تخمین سطوح ارتباطی مناسب میباشد.
– βبردار پارامتر مدل میباشد که با استفاده از Maximum likelihoodتخمین زده میشود.
– Xiبردار متغییر مستقل (بردار ویژگی) میباشد .در این کار از ویژگی شباهت سند ( )Document Similarityاستفاده میشود ].[Car and All 2007
Page 19
شباهت بین اسناد
کاربرد
فرمول
نام
دادههایمتراکم
)(فاصلهبیندونقطه
Euclidean
Distance¹
دادههایمتراکم
Pearson
Correlation
Coefficient
دادههای پراکنده(دادههای
)باینری
Jaccard
Coefficient
)دادههای پراکنده(متن
Cosine
similarity
[Hua 2008]
[Car and All 2007]
¹:http://www.stat.cmu.edu/~cshalizi/350/lectures/01/lecture-01.pdf
Page 20
محتوای ارائه
• نتایج ،تحلیل و ارزیابی
Page 21
ی و ازمایشات
پیادهساز
ازمایشات در دو مرحله انجام گرفته است:
.1مرحله اول ساخت مجموعه قضاوت با استفاده از روش poolingاست.
.2با استفاده از مجموعه قضاوتی که در مرحلهی اول ساخته شده است ،سیستمهای بازیابی اطالعات دیگری ارزیابی میشوند.
داده:
• سیتم بازیابی اطالعات 10 :موتور جستجو متن باز
• مجموعه تست
• نتیجه اجراهای موتورهای جستجو بر روی مجموعه تستrun ،های مورد نیاز را تولید میکند.
• runها بر اساس NDCGرتبه بندی میشوند (.)True NDCG
Page 22
ی و ازمایشات...
پیادهساز
روش کار:
run ،m .1به صورت تصادفی انتخاب میکنیم .که به ان runاولیه گ فته میشود( .به باقیمانده runها run ،تست گ فته میشود).
.2برای تشکیل Poolاز kسند اول که برای هر پرسش ،به وسیلهی runاولیه بازیابی شده است ،استفاده میکنیم.
.3در runهای اولیه و تست سطح ارتباطی اسناد قضاوت نشده از طریق Multinomial Logistic Regressionبیشبینی میشود.
.4برای هر runتست NDCGمحاسبه میشود ).(Expected NDCG
.5واریانس معیار NDCGبرای runهای تست محاسبه میشود.
.6بازه اطمینان محاسبه میشود.
ارزیابی روش:
.1برای ارزیابی باید runهای تست را بر اساس معیار NDCGرتبهبندی کرد.
.2کیفیت رتبهبندی runهای تست )رتبه بندی بر اساس true NDCGو )Expected NDCGبا استفاده از Kendall’s τ rank correlation
بررسی میشود.
.3برای بازیابی اطالعات τ ≥ 0.9مناسب میباشد ].[Car and Gab et al. 2010
Page 23
نمونه اجرای ی
m = 1, k = 5, Kendall’s τ rank correlation = 0/6111
. بودهاست6 دارایرتبهTrue NDCG اولیهبراساسRun
Page 24
...نمونه اجرای ی
m = 1, k = 5, Kendall’s τ rank correlation = 0/7778
. بودهاست1 دارایرتبهTrue NDCG اولیهبراساسRun
Page 25
نتایج ازمایشات برای مجموعه تست غیر دودی ی ()MAHAK
τ
بازهاطمینان
تعداداسنادقضاوتشده
K
0/29365
0/128020155
121
1
0/74605
0/0069893855
375
5
0/78575
0/0065785105
534
10
0/8889
0/0059941193
663
20
0/7857
0/007941276
170
1
0/85716
0/00572081
424
5
0/9286
0/005418785
616
10
0/9286
0/005170732
731
20
0/7143
0/006889205
187
1
0/85715
0/005039548
470
5
0/9048
0/004924617
633
10
0/9048
0/004829821
766
20
m
1
2
3
Page 26
ی)
نتایج ازمایشات برای مجموعه تست دودی ی (همشهر
τ
بازهاطمینان
تعداداسنادقضاوتشده
K
0/82916
0/006918135
26
5
0/83335
0/006404359
36
10
0/83335
0/006214945
49
0/85571
0/006210335
51
20
5
0/92164
0/006154632
70
10
0/92164
0/006013515
96
0/87215
0/006210065
57
20
5
0/95148
0/005996154
83
10
0/97548
0/005986718
117
20
m
1
2
3
Page 27
محتوای ارائه
• نتیجهگیری و کارهای اتی
Page 28
نتیجه گیری
هدف :ارائه یک روش برای ارزیابی قابلیت استفاده مجدد مجموعه تستها با قضاوتهای چند سطحی
مناسب نبودن روشهای تخمین کارای ی :عدم اطمینان به تخمینها
تخمین قابلیت استفاده مجدد با کمک بازههای اطمینان
• اگر پهنای بازه اطمینان زیاد باشد قابلیت استفاده مجدد کمتر است و نیاز به قضاوتهای بیشتر است.
•
NDCG
•
Multinomial Logistic Regression
کارهای اینده
• گسترش روش ارزیابی قابلیت استفاده مجدد به گونهای که برای سایر مجموعه تستها مانند مجموعههای تست با قضاوتهای ترجیحی و ارتباط جنبه نیز به کار برد.
• استفاده از روشهای دیگر برای پیش بینی سطح ارتباطی اسناد قضاوت نشده
• استخراج ویژگیهای دیگر
Page 29
مقاالت علمي استخراج شده از پایان نامه
Accepted:
Maryam. Khodabakhsh and Saeed. Araban, "Reusability Assessment of Test Collections with
Multi-levels of Judgments," in 10nd International Conference on IEEE ICT and Knowledge
Engineering, Bangkok. Thailand ,2012.
Under Review:
Maryam. Khodabakhsh and Saeed. Araban, "Interval Estimate of Reusability of Test
Collections with NDCG," International Journal of Computer Engineering & Sciences, 2012.
Page 30
مراجع
[Web 2010] Webber, W. E. ( 2010). Measurement in Information Retrieval Evaluation. Department of Computer Science and Software
Engineering The University of Melbourne. PhD thesis.
[Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd
annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM.
[San and Joh 2004] Sanderson, M. and H. Joho (2004). Forming test collections with no system pooling .Proceedings of the 27th annual
international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom, ACM.
[Car 2008] Carterette, B. A. (2008). Low-Cost and Robust Evaluation of Information Retrieval, University of Massachusetts Amherst: 255.
[Car and Ben 2008] Carterette, B. and P. N. Bennett (2008). Evaluation measures for preference judgments. Proceedings of the 31st annual
international ACM SIGIR conference on Research and development in information retrieval. Singapore, Singapore, ACM.
[Sob 2003] Soboroff, I. and S. Robertson (2003). Building a filtering test collection for TREC 2002. Proceedings of the 26th annual
international ACM SIGIR conference on Research and development in informaion retrieval. Toronto, Canada, ACM.
[Car and Gab et al. 2010] Carterette, B., E. Gabrilovich, et al. (2010). Measuring the reusability of test collections. Proceedings of the third
ACM international conference on Web search and data mining. New York, New York, USA, ACM: 231-240.
[Har 1992]Harman, D. (1992). Overview of the first text retrieval conference (TREC-1). In Proceedings of the First Text Retrieval
Conference (TREC-1).
[Joh 2007] Joho, H., R. Villa, et al. (2007). Interaction Pool: Towards a User-centered Test Collection. In proceedings of the Workshop on
Web Information Seeking and Interaction, SIGIR 2007. Amsterdam, The Netherlands, ACM: 17-20.
[Cor 1998] Cormack, G. V., C. R. Palmer, et al. (1998). Efficient construction of large test collections. Proceedings of the 21st annual
international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, ACM.
[Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd
annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM.
Page 31
مراجع
[Kek 2002] Kekäläinen, J. and K. Järvelin (2002). "Using graded relevance assessments in IR evaluation." J. Am. Soc. Inf. Sci. Technol.
53(13): 1120-1129.
[Rob 2010] Robertson, S. E., E. Kanoulas, et al. (2010). Extending average precision to graded relevance judgments. Proceedings of the
33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM.
[Buc 2004] Buckley, C. and E. M. Voorhees (2004). Retrieval evaluation with incomplete information. Proceedings of the 27th annual
international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom: 25-29.
[Yil 2006] Yilmaz, E. and J. A. Aslam (2006). Estimating average precision with incomplete and imperfect judgments. Proceedings of the
15th ACM international conference on Information and knowledge management. Arlington, Virginia, USA.
[Rad 2006] Radlinski, F. and T. Joachims (2006). Minimally invasive randomization for collecting unbiased preferences from clickthrough
logs. In Conference of the Association for the Advancement of Artificial Intelligence (AAAI): 1406-1412.
[ B¨ut 2007] B¨uttcher, S., C. L. A. Clarke, et al. (2007). Reliable information retrieval evaluation with incomplete and biased judgements.
Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval.
Amsterdam, The Netherlands, ACM.
[Car 2007] Carterette, B. (2007). Robust test collections for retrieval evaluation. Proceedings of the 30th annual international ACM SIGIR
conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM.
[Car and Kan 2010] Carterette, B., E. Kanoulas, et al. (2010). Reusable test collections through experimental design. Proceedings of the
33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM: 547554.
[Car and All 2007] Carterette, B. and J. Allan (2007). Semiautomatic evaluation of retrieval systems using document similarities.
Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, ACM.
[Hua 2008] Huang, A. ( 2008). Similarity Measures for Text Document Clustering. in the proceedings of the New Zealand Computer
Science Research Student Conference .Christchurch, New Zealand : 49-56.
[San] Sandhya, N., Y. S. Lalitha, et al. "Analysis of Similarity Measures for Text Clustering." International Journal of Data Engineering.
Page 32