مجموعه تست

Download Report

Transcript مجموعه تست

‫محتوای ارائه‬
‫• مقدمه‬
‫• پیشینه‬
‫• روش پیشنهادی‬
‫• نتایج‪ ،‬تحلیل و ارزیابی‬
‫• نتیجه‌گیری‌ و کارهای اتی‬
‫‪Page  2‬‬
‫سیستم‌های بازیابی اطالعات (‪)Information Retrieval Systems‬‬
‫‪ ‬تعریف‬
‫شکل‌‪ :1‬نمای ی‌از‌یک‌سیستم‌بازیابی‌اطالعات‌[‪]Web 2010‬‬
‫‪ ‬موتورهای جستجو ملموس‌ترین نمونه از سیستم‌های بازیابی اطالعات است که برای بازیابی اسناد ‪ HTML‬در وب به کار می رود‪.‬‬
‫‪Page  3‬‬
‫مجموعه تست (‪)Test Collection‬‬
‫‪ ‬تعریف‬
‫شکل ‪ :2‬نمای ی از مجموعه تست و سیستم بازیابی اطالعات ]‪[Web 2010‬‬
‫‪ ‬کاربرد‪ :‬کارای ی سیستم‌های بازیابی اطالعات براساس میزان ارتباط نتایج جستجو با پرسش کاربر از طریق منبعی به نام مجموعه تست ارزیابی می‌شود‪.‬‬
‫‪Page  4‬‬
‫انواع مجموعه‌های تست‬
‫مجموعه‌تست‬
‫غیر‌دودوی ی‬
‫دودوی ی‬
‫چند‌سطحی‬
‫قضاوت‌های‌ترجیحی‬
‫ارتباط‌جنبه‬
‫‪ ‬در مجموعه‌های تست با قضاوت‌های چند سطحی‪ ،‬قضاوت در مورد ارتباط هر سند به پرسش در قالب یک عدد بیان می‌شود که نمایان‌گر‬
‫میزان ارتباط محتوای هر سند به پرسش می‌باشد‪.‬‬
‫‪‬‬
‫کاربرد مجموعه‌های تست با قضاوت‌های چند سطحی‪ :‬در محیط‌های ی (مثل وب) ]‪[Jär 2000‬‬
‫– کاربر معموال اسناد ابتدای لیست را نگاه می‌کند که بهتر است این اسناد خیلی مرتبط باشند‪.‬‬
‫‪Page  5‬‬
‫ساخت مجموعه‌های تست‬
‫‪ ‬تهیه مجموعه اسناد کار دشواری‌ نیست‪.‬‬
‫‪ ‬ساخت مجموعه‌ پرسش‌ها کار دشواری‌ نیست ]‪.[Car 2008‬‬
‫‪ ‬در مجموعه تست‌های بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسش‌های موجود در مجموعه ممکن نیست ‪[San and‬‬
‫]‪.Joh 2004‬‬
‫• ساخت مجموعه قضاوت زمان‌بر و هزینه‌بر است و مستلزم تالش انسانی است ]‪.[San and Joh 2004][Car and Ben 2008‬‬
‫• اگر مجموعه تست فاقد قضاوت‌ها کافی باشد‪ ،‬در ارزیابی سیستم‌های بازیابی اطالعات خوب عمل نمی‌کند]‪.[Car 2008‬‬
‫‪ ‬بنابراین‬
‫• توسعه دهندگان مجموعه تست باید بین تعداد قضاوت‌ها و هزینه ساخت ان مصالحه انجام دهند‪.‬‬
‫• اطمینان از کافی بودن تعداد قضاوت‌های مجموعه تست‬
‫‪Page  6‬‬
‫تعریف مسئله‬
‫‪ ‬مسئله‪ :‬اطمینان از میزان کارای ی مجموعه تست در ارزیابی سیستم‌های بازیابی اطالعات (قابلیت استفاده مجدد)‪.‬‬
‫‪ ‬قابلیت استفاده مجدد یعنی اطمینان از کافی بودن مجموعه قضاوت‌های‌ موجود در مجموعه تست‪.‬‬
‫• هر چه به قضاوت‌های بیشتری‌ نیاز باشد قابلیت استفاده مجدد از مجموعه تست کاهش می‌یابد‪.‬‬
‫• قابلیت استفاده مجدد یک معیار کیفی است‪.‬‬
‫‪ ‬اهمیت عملی مسئله‪:‬‬
‫• کمک به تولیدکنندگان مجموعه تست در تعیین این که ایا یک مجموعه موجود از قضاوت‌ها برای ارزیابی سیستم‌های بازیابی اطالعات مناسب است‬
‫یا به قضاوت‌های بیشتری‌ نیاز است‪.‬‬
‫‪Page  7‬‬
‫هدف‬
‫ارائه‌روشی‌برای‌ارزیابی‌قابلیت‌استفاده‌مجدد‌مجموعه‌تست‌با‌قضاوت‌های‌چند‌سطحی‬
‫‪ ‬بدین منظور‌ باید از کافی بودن تعداد قضاوت‌های موجود در مجموعه تست اطمینان حاصل کرد‪.‬‬
‫‪ ‬برای نشان دادن این اطمینان از بازه اطمینان استفاده می‌شود که برای یک معیار ارزیابی محاسبه می‌شود‪.‬‬
‫‪ ‬پهنای بازه‌های اطمینان‪ ،‬نماینده‌ای از قابلیت استفاده مجدد مجموعه تست می‌باشد‪.‬‬
‫‪Page  8‬‬
‫محتوای ارائه‬
‫• پیشینه‬
‫‪Page  9‬‬
‫نمونه‌های ی از مجموعه‌های تست‬
‫نام‌مجموعه‌تست‬
‫توضیحات‬
‫نوع‌‬
‫تعداد‌اسناد‬
‫تعداد‌‬
‫پرسش‌ها‬
‫تعداد‌‬
‫قضاوت‌ها‬
‫ادرس‬
‫میلیون‌ها‌صفحات‌وب‌از‌‬
‫‪TREC 2011‬‬
‫‪ClueWeb09 Dataset‬‬
‫غیر دودوی ی‬
‫‪1040809705‬‬
‫‪50‬‬
‫‪19381‬‬
‫‪http://trec.nist.gov/‬‬
‫‪Cranfield‬‬
‫مقاله‌های‌تکنیکی‌درمورد‌حرکت‌گاز‌‬
‫و‌هوا‬
‫دودوی ی‬
‫‪1400‬‬
‫‪225‬‬
‫‪1837‬‬
‫‪http://ir.dcs.gla.ac.uk‬‬
‫‪/resources/test_collec‬‬
‫‪tions/cran/‬‬
‫‪CACM‬‬
‫خالصه‌های‌‪ACM‬‬
‫دودوی ی‬
‫‪3204‬‬
‫‪64‬‬
‫‪796‬‬
‫‪http://cacm.acm.org/‬‬
‫‪Mahak‬‬
‫شامل‌خبرهای‌‪ISNA‬‬
‫غیر دودوی ی‬
‫‪3006‬‬
‫‪216‬‬
‫‪1196‬‬
‫~‪http://ce.sharif.edu/‬‬
‫‪shesmail/Mahak/‬‬
‫خبرهای‌روزنامه‌همشهری‌‬
‫دودوی ی‬
‫‪320000‬‬
‫‪50‬‬
‫‪21743‬‬
‫‪http://ece.ut.ac.ir/dbr‬‬
‫‪g/hamshahri/publicat‬‬
‫‪ions.html‬‬
‫‪Hamshahri 2‬‬
‫‪Page  10‬‬
‫روش‌های ساخت مجموعه قضاوت‬
[Har 1992]
[San and Joh 2004] [Cor 1998] )Interactive
‫• نمونه‌گیری‌ تصادفی‬
Searching and Judging( ‫• جستجو و قضاوت تعاملی‬
[Sob 2003] [San and Joh 2004]
)Relevance Feedback( ‫• بازخورد ارتباطی‬
[Car and Gab et al. 2010]
]Joh 2007[ Pooling‌‫روش‬
Page  11
Pooling •
‫معیارهای ارزیابی سیستم‌های بازیابی اطالعات‬
‫فرمول‬
‫نام‬
‌‫نوع‬
Precision
Recall
Average Precision
‫دودوی ی‬
Mean Average Precision
General Precision [Kek 2002]
General Recall [Kek 2002]
Graded Average Precision [Rob
2010]
Normalized Discounted
Cumulative Gain [Jär 2000]
Page  12
‌‫غیر‬
‫دودوی ی‬
‫روشهای بررسی اسناد قضاوت نشده‬
‫‪[Buc‬‬
‫معرفی‌معیارهای‌‬
‫جدید‬
‫اسناد‌قضاوت‌نشده‪‌،‬نامرتبط‌فرض‌شوند‬
‫نادقیق‬
‫‪binary preference‬‬
‫دودوی ی‬
‫]‪2004‬‬
‫دودوی ی‬
‫‪Inferred Average‬‬
‫]‪Precision [Yil 2006‬‬
‫رفتار‌کاربر‬
‫تخمین‌ربط‌هر‌‬
‫سند‌به‌پرسش‬
‫نام‌‬
‫نوع‌‬
‫دسته بندی‬
‫کلیک ]‪[Rad 2006‬‬
‫‪[ Büt 2007] SVM‬‬
‫‪Multinomial Logistic Regression‬‬
‫دودوی ی‬
‫دودوی ی‬
‫غیر‌دودوی ی‬
‫‪Page  13‬‬
‫روش‌های ارزیابی قابلیت استفاده‌ی مجدد مجموعه‌های تست‬
‫‪ ‬مناسب نبودن روش‌های تخمین کارای ی‪ :‬عدم اطمینان به تخمین‌ها‬
‫• ایا دو سیستم بعد از پیش‌بینی ارتباط هر سند از روی یک مجموعه‌ی کوچک از قضاوت‌ها می‌توانند نسبت به هم با اطمینان رتبه‌بندی شوند‬
‫]‪.and Kan 2010‬‬
‫‪ ‬تخمین نقطه‌ای‬
‫•‬
‫]‪[Car and Gab et al. 2010‬‬
‫با استفاده از معیارهای کالسیک و معرفی معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطه‌ای تخمین زده می‌شود‪.‬‬
‫‪ ‬تخمین بازه‌ای‬
‫•‬
‫‪[Car‬‬
‫]‪[Car and Gab et al. 2010‬‬
‫بازه اطمینان برای معیار ‪ MAP‬محاسبه می‌شود‪.‬‬
‫‪‬روش تخمین بازه‌ای دقیق تر از تخمین نقطه‌ای است‪.‬‬
‫‪‬این روش‌ها محدود به ارزیابی مجموعه تست‌ها با قضاوت‌های دودوی ی هستند‪.‬‬
‫‪Page  14‬‬
‫ی‬
‫نواور ‌‬
‫‪ ‬ارزیابی قابلیت استفاده مجدد‪ ،‬مجموعه تست‌ها با قضاوت‌های چند سطحی‬
‫‪ ‬گسترش روش تخمین بازه اطمینان با استفاده از‪:‬‬
‫• معیار ‪ NDCG‬در تخمین بازه های اطمینان‬
‫• مدل ‪ Multinomial Logistic Regression‬برای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش‬
‫‪Page  15‬‬
‫محتوای ارائه‬
‫• روش پیشنهادی‬
‫‪Page  16‬‬
‫ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان‬
‫‪ ‬اگر یک مجموعه تست با مشخصات زیر وجود داشته باشد‪:‬‬
‫• ‪ :J‬مجموعه قضاوت‬
‫• ‪ :Q‬مجموعه پرسش‬
‫‪ ‬قبل از محاسبه کارای ی یک سیستم بازیابی اطالعات با کمک این مجموعه تست و معیار ارزیابی ‪m‬‬
‫•‬
‫باید از کافی بودن تعداد قضاوت‌‌های موجود در ‪ J‬اطمینان حاصل نماییم‪ .‬برای نمایش این اطمینان از بازه اطمینان استفاده می شود‪.‬‬
‫‪ ‬بازه اطمینان برای معیار ‪ m‬محاسبه می‌شود‪.‬‬
‫• بازه اطمینان ابزار قدرتمندی است که به کاربر اجازه می‌دهد عدم قطعیت را در محاسبه کارای ی سیستم بازیابی اطالعات تعیین کند‪.‬‬
‫• عدم قطعیت ناشی از اسناد قضاوت نشده‌ای است که توسط سیستم بازیابی شده است‪.‬‬
‫‪Page  17‬‬
‫ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان ‪...‬‬
‫‪ ‬برای محاسبه‌ی بازه اطمینان با معیار ‪ NDCG‬ابتدا باید امید ریاضی و واریانس معیار ‪ NDCG‬برای یک پرسش محاسبه شود‪.‬‬
‫معموال یک مجموعه از پرسش ها وجود دارند‪.‬‬
‫ا‌‬
‫‪ ‬اما‬
‫‪ ‬در بازیابی اطالعات پرسش ها مستقلند‪.‬‬
‫‪ ‬برای یک مجموعه پرسش حالت رایج ان است که میانه معیار در نظر گرفته شود‪.‬‬
‫‪Page  18‬‬
‫‪Multinomial Logistic Regression‬‬
‫‪ ‬این نوع رگراسیون زمانی بکار می‌رود که متغییر وابسته بیشتر از دو دسته را شامل شود و از نوع اسمی (‪ )Nominal‬باشد‪.‬‬
‫‪ ‬لذا استفاده از از مدل ‪ Multinomial Logistic Regression‬برای تخمین سطوح ارتباطی مناسب می‌‌باشد‪.‬‬
‫– ‪ β‬بردار پارامتر مدل می‌باشد که با استفاده از ‪Maximum likelihood‬تخمین زده می‌شود‪.‬‬
‫– ‪ Xi‬بردار متغییر مستقل (بردار ویژگی) می‌باشد‪ .‬در این کار از ویژگی شباهت سند (‪ )Document Similarity‬استفاده می‌شود ]‪.[Car and All 2007‬‬
‫‪Page  19‬‬
‫شباهت بین اسناد‬
‫کاربرد‬
‫فرمول‬
‫نام‬
‫داده‌های‌متراکم‬
)‫(فاصله‌بین‌دو‌نقطه‬
Euclidean
Distance¹
‫داده‌های‌متراکم‬
Pearson
Correlation
Coefficient
‌‫داده‌های پراکنده‌(داده‌های‬
)‌‫باینری‬
Jaccard
Coefficient
)‫داده‌های پراکنده‌(متن‬
Cosine
similarity
[Hua 2008]
[Car and All 2007]
¹:http://www.stat.cmu.edu/~cshalizi/350/lectures/01/lecture-01.pdf
Page  20
‫محتوای ارائه‬
‫• نتایج‪ ،‬تحلیل و ارزیابی‬
‫‪Page  21‬‬
‫ی و ازمایشات‬
‫پیاده‌ساز ‌‬
‫‪ ‬ازمایشات در دو مرحله انجام گرفته است‪:‬‬
‫‪ .1‬مرحله اول ساخت مجموعه قضاوت با استفاده از روش ‪ pooling‬است‪.‬‬
‫‪ .2‬با استفاده از مجموعه قضاوتی که در مرحله‌‌ی اول ساخته شده است‪ ،‬سیستم‌های بازیابی اطالعات دیگری‌ ارزیابی می‌شوند‪.‬‬
‫‪‬‬
‫داده‪:‬‬
‫• سیتم بازیابی اطالعات‪ 10 :‬موتور‌ جستجو متن باز‬
‫• مجموعه تست‬
‫• نتیجه اجراهای موتورهای جستجو بر روی مجموعه تست‪run ،‬های مورد نیاز را تولید می‌کند‪.‬‬
‫• ‪run‬ها بر اساس ‪ NDCG‬رتبه بندی می‌شوند (‪.)True NDCG‬‬
‫‪Page  22‬‬
‫ی و ازمایشات‪...‬‬
‫پیاده‌ساز ‌‬
‫‪ ‬روش کار‪:‬‬
‫‪ run ،m .1‬به صورت تصادفی انتخاب می‌کنیم‪ .‬که به ان ‪ run‬اولیه گ فته می‌شود‪( .‬به باقیمانده ‪run‬ها‪ run ،‬تست گ فته می‌شود‪).‬‬
‫‪ .2‬برای تشکیل ‪ Pool‬از ‪ k‬سند اول که برای هر پرسش‪ ،‬به وسیله‌ی ‪ run‬اولیه بازیابی شده است‪ ،‬استفاده می‌کنیم‪.‬‬
‫‪ .3‬در ‪run‬های اولیه و تست سطح ارتباطی اسناد قضاوت نشده از طریق ‪ Multinomial Logistic Regression‬بیش‌بینی می‌شود‪.‬‬
‫‪ .4‬برای هر ‪ run‬تست ‪ NDCG‬محاسبه می‌شود )‪.(Expected NDCG‬‬
‫‪ .5‬واریانس معیار ‪ NDCG‬برای ‪run‬های تست محاسبه می‌شود‪.‬‬
‫‪ .6‬بازه اطمینان محاسبه می‌شود‪.‬‬
‫‪ ‬ارزیابی روش‪:‬‬
‫‪ .1‬برای ارزیابی باید ‪run‬های تست را بر اساس معیار ‪ NDCG‬رتبه‌بندی کرد‪.‬‬
‫‪ .2‬کیفیت رتبه‌بندی ‪run‬های تست )رتبه بندی بر اساس ‪ true NDCG‬و ‪ )Expected NDCG‬با استفاده از ‪Kendall’s τ rank correlation‬‬
‫بررسی می‌شود‪.‬‬
‫‪ .3‬برای بازیابی اطالعات ‪ τ ≥ 0.9‬مناسب می‌باشد ]‪.[Car and Gab et al. 2010‬‬
‫‪Page  23‬‬
‫نمونه اجرای ی‬
m = 1, k = 5, Kendall’s τ rank correlation = 0/6111
.‫ بوده‌است‬6‌‫ دارای‌رتبه‬True NDCG‌‫ اولیه‌بر‌اساس‬Run
Page  24
...‫نمونه اجرای ی‬
m = 1, k = 5, Kendall’s τ rank correlation = 0/7778
.‫ بوده‌است‬1‌‫ دارای‌رتبه‬True NDCG‌‫ اولیه‌بر‌اساس‬Run
Page  25
‫نتایج ازمایشات برای مجموعه تست غیر دودی ی (‪)MAHAK‬‬
‫‪τ‬‬
‫بازه‌اطمینان‬
‫تعداد‌اسناد‌قضاوت‌شده‬
‫‪K‬‬
‫‪0/29365‬‬
‫‪0/128020155‬‬
‫‪121‬‬
‫‪1‬‬
‫‪0/74605‬‬
‫‪0/0069893855‬‬
‫‪375‬‬
‫‪5‬‬
‫‪0/78575‬‬
‫‪0/0065785105‬‬
‫‪534‬‬
‫‪10‬‬
‫‪0/8889‬‬
‫‪0/0059941193‬‬
‫‪663‬‬
‫‪20‬‬
‫‪0/7857‬‬
‫‪0/007941276‬‬
‫‪170‬‬
‫‪1‬‬
‫‪0/85716‬‬
‫‪0/00572081‬‬
‫‪424‬‬
‫‪5‬‬
‫‪0/9286‬‬
‫‪0/005418785‬‬
‫‪616‬‬
‫‪10‬‬
‫‪0/9286‬‬
‫‪0/005170732‬‬
‫‪731‬‬
‫‪20‬‬
‫‪0/7143‬‬
‫‪0/006889205‬‬
‫‪187‬‬
‫‪1‬‬
‫‪0/85715‬‬
‫‪0/005039548‬‬
‫‪470‬‬
‫‪5‬‬
‫‪0/9048‬‬
‫‪0/004924617‬‬
‫‪633‬‬
‫‪10‬‬
‫‪0/9048‬‬
‫‪0/004829821‬‬
‫‪766‬‬
‫‪20‬‬
‫‪m‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪Page  26‬‬
‫ی)‬
‫نتایج ازمایشات برای مجموعه تست دودی ی (همشهر ‌‬
‫‪τ‬‬
‫بازه‌اطمینان‬
‫تعداد‌اسناد‌قضاوت‌شده‬
‫‪K‬‬
‫‪0/82916‬‬
‫‪0/006918135‬‬
‫‪26‬‬
‫‪5‬‬
‫‪0/83335‬‬
‫‪0/006404359‬‬
‫‪36‬‬
‫‪10‬‬
‫‪0/83335‬‬
‫‪0/006214945‬‬
‫‪49‬‬
‫‪0/85571‬‬
‫‪0/006210335‬‬
‫‪51‬‬
‫‪20‬‬
‫‪5‬‬
‫‪0/92164‬‬
‫‪0/006154632‬‬
‫‪70‬‬
‫‪10‬‬
‫‪0/92164‬‬
‫‪0/006013515‬‬
‫‪96‬‬
‫‪0/87215‬‬
‫‪0/006210065‬‬
‫‪57‬‬
‫‪20‬‬
‫‪5‬‬
‫‪0/95148‬‬
‫‪0/005996154‬‬
‫‪83‬‬
‫‪10‬‬
‫‪0/97548‬‬
‫‪0/005986718‬‬
‫‪117‬‬
‫‪20‬‬
‫‪m‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪Page  27‬‬
‫محتوای ارائه‬
‫• نتیجه‌گیری‌ و کارهای اتی‬
‫‪Page  28‬‬
‫نتیجه گیری‌‬
‫‪ ‬هدف‪ :‬ارائه یک روش برای ارزیابی قابلیت استفاده مجدد مجموعه تست‌ها با قضاوت‌های چند سطحی‬
‫‪ ‬مناسب نبودن روش‌های تخمین کارای ی‪ :‬عدم اطمینان به تخمین‌ها‬
‫‪ ‬تخمین قابلیت استفاده مجدد با کمک بازه‌های اطمینان‬
‫• اگر پهنای بازه اطمینان زیاد باشد قابلیت استفاده مجدد کمتر است و نیاز به قضاوت‌های بیشتر است‪.‬‬
‫•‬
‫‪NDCG‬‬
‫•‬
‫‪Multinomial Logistic Regression‬‬
‫‪ ‬کارهای اینده‬
‫• گسترش روش ارزیابی قابلیت استفاده مجدد به گونه‌ای که برای سایر مجموعه تست‌ها مانند مجموعه‌های تست با قضاوت‌های ترجیحی و ارتباط جنبه نیز به کار برد‪.‬‬
‫• استفاده از روش‌های دیگر برای پیش بینی سطح ارتباطی اسناد قضاوت نشده‬
‫• استخراج ویژگی‌های دیگر‬
‫‪Page  29‬‬
‫مقاالت علمي استخراج شده از پایان نامه‬
Accepted:
Maryam. Khodabakhsh and Saeed. Araban, "Reusability Assessment of Test Collections with
Multi-levels of Judgments," in 10nd International Conference on IEEE ICT and Knowledge
Engineering, Bangkok. Thailand ,2012.
Under Review:
Maryam. Khodabakhsh and Saeed. Araban, "Interval Estimate of Reusability of Test
Collections with NDCG," International Journal of Computer Engineering & Sciences, 2012.
Page  30
‫مراجع‬
[Web 2010] Webber, W. E. ( 2010). Measurement in Information Retrieval Evaluation. Department of Computer Science and Software
Engineering The University of Melbourne. PhD thesis.
[Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd
annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM.
[San and Joh 2004] Sanderson, M. and H. Joho (2004). Forming test collections with no system pooling .Proceedings of the 27th annual
international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom, ACM.
[Car 2008] Carterette, B. A. (2008). Low-Cost and Robust Evaluation of Information Retrieval, University of Massachusetts Amherst: 255.
[Car and Ben 2008] Carterette, B. and P. N. Bennett (2008). Evaluation measures for preference judgments. Proceedings of the 31st annual
international ACM SIGIR conference on Research and development in information retrieval. Singapore, Singapore, ACM.
[Sob 2003] Soboroff, I. and S. Robertson (2003). Building a filtering test collection for TREC 2002. Proceedings of the 26th annual
international ACM SIGIR conference on Research and development in informaion retrieval. Toronto, Canada, ACM.
[Car and Gab et al. 2010] Carterette, B., E. Gabrilovich, et al. (2010). Measuring the reusability of test collections. Proceedings of the third
ACM international conference on Web search and data mining. New York, New York, USA, ACM: 231-240.
[Har 1992]Harman, D. (1992). Overview of the first text retrieval conference (TREC-1). In Proceedings of the First Text Retrieval
Conference (TREC-1).
[Joh 2007] Joho, H., R. Villa, et al. (2007). Interaction Pool: Towards a User-centered Test Collection. In proceedings of the Workshop on
Web Information Seeking and Interaction, SIGIR 2007. Amsterdam, The Netherlands, ACM: 17-20.
[Cor 1998] Cormack, G. V., C. R. Palmer, et al. (1998). Efficient construction of large test collections. Proceedings of the 21st annual
international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, ACM.
[Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd
annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM.
Page  31
‫مراجع‬
[Kek 2002] Kekäläinen, J. and K. Järvelin (2002). "Using graded relevance assessments in IR evaluation." J. Am. Soc. Inf. Sci. Technol.
53(13): 1120-1129.
[Rob 2010] Robertson, S. E., E. Kanoulas, et al. (2010). Extending average precision to graded relevance judgments. Proceedings of the
33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM.
[Buc 2004] Buckley, C. and E. M. Voorhees (2004). Retrieval evaluation with incomplete information. Proceedings of the 27th annual
international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom: 25-29.
[Yil 2006] Yilmaz, E. and J. A. Aslam (2006). Estimating average precision with incomplete and imperfect judgments. Proceedings of the
15th ACM international conference on Information and knowledge management. Arlington, Virginia, USA.
[Rad 2006] Radlinski, F. and T. Joachims (2006). Minimally invasive randomization for collecting unbiased preferences from clickthrough
logs. In Conference of the Association for the Advancement of Artificial Intelligence (AAAI): 1406-1412.
[ B¨ut 2007] B¨uttcher, S., C. L. A. Clarke, et al. (2007). Reliable information retrieval evaluation with incomplete and biased judgements.
Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval.
Amsterdam, The Netherlands, ACM.
[Car 2007] Carterette, B. (2007). Robust test collections for retrieval evaluation. Proceedings of the 30th annual international ACM SIGIR
conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM.
[Car and Kan 2010] Carterette, B., E. Kanoulas, et al. (2010). Reusable test collections through experimental design. Proceedings of the
33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM: 547554.
[Car and All 2007] Carterette, B. and J. Allan (2007). Semiautomatic evaluation of retrieval systems using document similarities.
Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, ACM.
[Hua 2008] Huang, A. ( 2008). Similarity Measures for Text Document Clustering. in the proceedings of the New Zealand Computer
Science Research Student Conference .Christchurch, New Zealand : 49-56.
[San] Sandhya, N., Y. S. Lalitha, et al. "Analysis of Similarity Measures for Text Clustering." International Journal of Data Engineering.
Page  32