Transcript مجموعه تست
محتوای ارائه • مقدمه • پیشینه • روش پیشنهادی • نتایج ،تحلیل و ارزیابی • نتیجهگیری و کارهای اتی Page 2 سیستمهای بازیابی اطالعات ()Information Retrieval Systems تعریف شکل :1نمای یازیکسیستمبازیابیاطالعات[]Web 2010 موتورهای جستجو ملموسترین نمونه از سیستمهای بازیابی اطالعات است که برای بازیابی اسناد HTMLدر وب به کار می رود. Page 3 مجموعه تست ()Test Collection تعریف شکل :2نمای ی از مجموعه تست و سیستم بازیابی اطالعات ][Web 2010 کاربرد :کارای ی سیستمهای بازیابی اطالعات براساس میزان ارتباط نتایج جستجو با پرسش کاربر از طریق منبعی به نام مجموعه تست ارزیابی میشود. Page 4 انواع مجموعههای تست مجموعهتست غیردودوی ی دودوی ی چندسطحی قضاوتهایترجیحی ارتباطجنبه در مجموعههای تست با قضاوتهای چند سطحی ،قضاوت در مورد ارتباط هر سند به پرسش در قالب یک عدد بیان میشود که نمایانگر میزان ارتباط محتوای هر سند به پرسش میباشد. کاربرد مجموعههای تست با قضاوتهای چند سطحی :در محیطهای ی (مثل وب) ][Jär 2000 – کاربر معموال اسناد ابتدای لیست را نگاه میکند که بهتر است این اسناد خیلی مرتبط باشند. Page 5 ساخت مجموعههای تست تهیه مجموعه اسناد کار دشواری نیست. ساخت مجموعه پرسشها کار دشواری نیست ].[Car 2008 در مجموعه تستهای بزرگ امکان قضاوت درمورد ربط تمام سندها به تمام پرسشهای موجود در مجموعه ممکن نیست [San and ].Joh 2004 • ساخت مجموعه قضاوت زمانبر و هزینهبر است و مستلزم تالش انسانی است ].[San and Joh 2004][Car and Ben 2008 • اگر مجموعه تست فاقد قضاوتها کافی باشد ،در ارزیابی سیستمهای بازیابی اطالعات خوب عمل نمیکند].[Car 2008 بنابراین • توسعه دهندگان مجموعه تست باید بین تعداد قضاوتها و هزینه ساخت ان مصالحه انجام دهند. • اطمینان از کافی بودن تعداد قضاوتهای مجموعه تست Page 6 تعریف مسئله مسئله :اطمینان از میزان کارای ی مجموعه تست در ارزیابی سیستمهای بازیابی اطالعات (قابلیت استفاده مجدد). قابلیت استفاده مجدد یعنی اطمینان از کافی بودن مجموعه قضاوتهای موجود در مجموعه تست. • هر چه به قضاوتهای بیشتری نیاز باشد قابلیت استفاده مجدد از مجموعه تست کاهش مییابد. • قابلیت استفاده مجدد یک معیار کیفی است. اهمیت عملی مسئله: • کمک به تولیدکنندگان مجموعه تست در تعیین این که ایا یک مجموعه موجود از قضاوتها برای ارزیابی سیستمهای بازیابی اطالعات مناسب است یا به قضاوتهای بیشتری نیاز است. Page 7 هدف ارائهروشیبرایارزیابیقابلیتاستفادهمجددمجموعهتستباقضاوتهایچندسطحی بدین منظور باید از کافی بودن تعداد قضاوتهای موجود در مجموعه تست اطمینان حاصل کرد. برای نشان دادن این اطمینان از بازه اطمینان استفاده میشود که برای یک معیار ارزیابی محاسبه میشود. پهنای بازههای اطمینان ،نمایندهای از قابلیت استفاده مجدد مجموعه تست میباشد. Page 8 محتوای ارائه • پیشینه Page 9 نمونههای ی از مجموعههای تست ناممجموعهتست توضیحات نوع تعداداسناد تعداد پرسشها تعداد قضاوتها ادرس میلیونهاصفحاتوباز TREC 2011 ClueWeb09 Dataset غیر دودوی ی 1040809705 50 19381 http://trec.nist.gov/ Cranfield مقالههایتکنیکیدرموردحرکتگاز وهوا دودوی ی 1400 225 1837 http://ir.dcs.gla.ac.uk /resources/test_collec tions/cran/ CACM خالصههایACM دودوی ی 3204 64 796 http://cacm.acm.org/ Mahak شاملخبرهایISNA غیر دودوی ی 3006 216 1196 ~http://ce.sharif.edu/ shesmail/Mahak/ خبرهایروزنامههمشهری دودوی ی 320000 50 21743 http://ece.ut.ac.ir/dbr g/hamshahri/publicat ions.html Hamshahri 2 Page 10 روشهای ساخت مجموعه قضاوت [Har 1992] [San and Joh 2004] [Cor 1998] )Interactive • نمونهگیری تصادفی Searching and Judging( • جستجو و قضاوت تعاملی [Sob 2003] [San and Joh 2004] )Relevance Feedback( • بازخورد ارتباطی [Car and Gab et al. 2010] ]Joh 2007[ Poolingروش Page 11 Pooling • معیارهای ارزیابی سیستمهای بازیابی اطالعات فرمول نام نوع Precision Recall Average Precision دودوی ی Mean Average Precision General Precision [Kek 2002] General Recall [Kek 2002] Graded Average Precision [Rob 2010] Normalized Discounted Cumulative Gain [Jär 2000] Page 12 غیر دودوی ی روشهای بررسی اسناد قضاوت نشده [Buc معرفیمعیارهای جدید اسنادقضاوتنشده،نامرتبطفرضشوند نادقیق binary preference دودوی ی ]2004 دودوی ی Inferred Average ]Precision [Yil 2006 رفتارکاربر تخمینربطهر سندبهپرسش نام نوع دسته بندی کلیک ][Rad 2006 [ Büt 2007] SVM Multinomial Logistic Regression دودوی ی دودوی ی غیردودوی ی Page 13 روشهای ارزیابی قابلیت استفادهی مجدد مجموعههای تست مناسب نبودن روشهای تخمین کارای ی :عدم اطمینان به تخمینها • ایا دو سیستم بعد از پیشبینی ارتباط هر سند از روی یک مجموعهی کوچک از قضاوتها میتوانند نسبت به هم با اطمینان رتبهبندی شوند ].and Kan 2010 تخمین نقطهای • ][Car and Gab et al. 2010 با استفاده از معیارهای کالسیک و معرفی معیار جدید قابلیت استفاده مجدد مجموعه تست به صورت نقطهای تخمین زده میشود. تخمین بازهای • [Car ][Car and Gab et al. 2010 بازه اطمینان برای معیار MAPمحاسبه میشود. روش تخمین بازهای دقیق تر از تخمین نقطهای است. این روشها محدود به ارزیابی مجموعه تستها با قضاوتهای دودوی ی هستند. Page 14 ی نواور ارزیابی قابلیت استفاده مجدد ،مجموعه تستها با قضاوتهای چند سطحی گسترش روش تخمین بازه اطمینان با استفاده از: • معیار NDCGدر تخمین بازه های اطمینان • مدل Multinomial Logistic Regressionبرای تخمین میزان ارتباط اسناد قضاوت نشده به پرسش Page 15 محتوای ارائه • روش پیشنهادی Page 16 ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان اگر یک مجموعه تست با مشخصات زیر وجود داشته باشد: • :Jمجموعه قضاوت • :Qمجموعه پرسش قبل از محاسبه کارای ی یک سیستم بازیابی اطالعات با کمک این مجموعه تست و معیار ارزیابی m • باید از کافی بودن تعداد قضاوتهای موجود در Jاطمینان حاصل نماییم .برای نمایش این اطمینان از بازه اطمینان استفاده می شود. بازه اطمینان برای معیار mمحاسبه میشود. • بازه اطمینان ابزار قدرتمندی است که به کاربر اجازه میدهد عدم قطعیت را در محاسبه کارای ی سیستم بازیابی اطالعات تعیین کند. • عدم قطعیت ناشی از اسناد قضاوت نشدهای است که توسط سیستم بازیابی شده است. Page 17 ارزیابی قابلیت استفاده مجدد با کمک بازه اطمینان ... برای محاسبهی بازه اطمینان با معیار NDCGابتدا باید امید ریاضی و واریانس معیار NDCGبرای یک پرسش محاسبه شود. معموال یک مجموعه از پرسش ها وجود دارند. ا اما در بازیابی اطالعات پرسش ها مستقلند. برای یک مجموعه پرسش حالت رایج ان است که میانه معیار در نظر گرفته شود. Page 18 Multinomial Logistic Regression این نوع رگراسیون زمانی بکار میرود که متغییر وابسته بیشتر از دو دسته را شامل شود و از نوع اسمی ( )Nominalباشد. لذا استفاده از از مدل Multinomial Logistic Regressionبرای تخمین سطوح ارتباطی مناسب میباشد. – βبردار پارامتر مدل میباشد که با استفاده از Maximum likelihoodتخمین زده میشود. – Xiبردار متغییر مستقل (بردار ویژگی) میباشد .در این کار از ویژگی شباهت سند ( )Document Similarityاستفاده میشود ].[Car and All 2007 Page 19 شباهت بین اسناد کاربرد فرمول نام دادههایمتراکم )(فاصلهبیندونقطه Euclidean Distance¹ دادههایمتراکم Pearson Correlation Coefficient دادههای پراکنده(دادههای )باینری Jaccard Coefficient )دادههای پراکنده(متن Cosine similarity [Hua 2008] [Car and All 2007] ¹:http://www.stat.cmu.edu/~cshalizi/350/lectures/01/lecture-01.pdf Page 20 محتوای ارائه • نتایج ،تحلیل و ارزیابی Page 21 ی و ازمایشات پیادهساز ازمایشات در دو مرحله انجام گرفته است: .1مرحله اول ساخت مجموعه قضاوت با استفاده از روش poolingاست. .2با استفاده از مجموعه قضاوتی که در مرحلهی اول ساخته شده است ،سیستمهای بازیابی اطالعات دیگری ارزیابی میشوند. داده: • سیتم بازیابی اطالعات 10 :موتور جستجو متن باز • مجموعه تست • نتیجه اجراهای موتورهای جستجو بر روی مجموعه تستrun ،های مورد نیاز را تولید میکند. • runها بر اساس NDCGرتبه بندی میشوند (.)True NDCG Page 22 ی و ازمایشات... پیادهساز روش کار: run ،m .1به صورت تصادفی انتخاب میکنیم .که به ان runاولیه گ فته میشود( .به باقیمانده runها run ،تست گ فته میشود). .2برای تشکیل Poolاز kسند اول که برای هر پرسش ،به وسیلهی runاولیه بازیابی شده است ،استفاده میکنیم. .3در runهای اولیه و تست سطح ارتباطی اسناد قضاوت نشده از طریق Multinomial Logistic Regressionبیشبینی میشود. .4برای هر runتست NDCGمحاسبه میشود ).(Expected NDCG .5واریانس معیار NDCGبرای runهای تست محاسبه میشود. .6بازه اطمینان محاسبه میشود. ارزیابی روش: .1برای ارزیابی باید runهای تست را بر اساس معیار NDCGرتبهبندی کرد. .2کیفیت رتبهبندی runهای تست )رتبه بندی بر اساس true NDCGو )Expected NDCGبا استفاده از Kendall’s τ rank correlation بررسی میشود. .3برای بازیابی اطالعات τ ≥ 0.9مناسب میباشد ].[Car and Gab et al. 2010 Page 23 نمونه اجرای ی m = 1, k = 5, Kendall’s τ rank correlation = 0/6111 . بودهاست6 دارایرتبهTrue NDCG اولیهبراساسRun Page 24 ...نمونه اجرای ی m = 1, k = 5, Kendall’s τ rank correlation = 0/7778 . بودهاست1 دارایرتبهTrue NDCG اولیهبراساسRun Page 25 نتایج ازمایشات برای مجموعه تست غیر دودی ی ()MAHAK τ بازهاطمینان تعداداسنادقضاوتشده K 0/29365 0/128020155 121 1 0/74605 0/0069893855 375 5 0/78575 0/0065785105 534 10 0/8889 0/0059941193 663 20 0/7857 0/007941276 170 1 0/85716 0/00572081 424 5 0/9286 0/005418785 616 10 0/9286 0/005170732 731 20 0/7143 0/006889205 187 1 0/85715 0/005039548 470 5 0/9048 0/004924617 633 10 0/9048 0/004829821 766 20 m 1 2 3 Page 26 ی) نتایج ازمایشات برای مجموعه تست دودی ی (همشهر τ بازهاطمینان تعداداسنادقضاوتشده K 0/82916 0/006918135 26 5 0/83335 0/006404359 36 10 0/83335 0/006214945 49 0/85571 0/006210335 51 20 5 0/92164 0/006154632 70 10 0/92164 0/006013515 96 0/87215 0/006210065 57 20 5 0/95148 0/005996154 83 10 0/97548 0/005986718 117 20 m 1 2 3 Page 27 محتوای ارائه • نتیجهگیری و کارهای اتی Page 28 نتیجه گیری هدف :ارائه یک روش برای ارزیابی قابلیت استفاده مجدد مجموعه تستها با قضاوتهای چند سطحی مناسب نبودن روشهای تخمین کارای ی :عدم اطمینان به تخمینها تخمین قابلیت استفاده مجدد با کمک بازههای اطمینان • اگر پهنای بازه اطمینان زیاد باشد قابلیت استفاده مجدد کمتر است و نیاز به قضاوتهای بیشتر است. • NDCG • Multinomial Logistic Regression کارهای اینده • گسترش روش ارزیابی قابلیت استفاده مجدد به گونهای که برای سایر مجموعه تستها مانند مجموعههای تست با قضاوتهای ترجیحی و ارتباط جنبه نیز به کار برد. • استفاده از روشهای دیگر برای پیش بینی سطح ارتباطی اسناد قضاوت نشده • استخراج ویژگیهای دیگر Page 29 مقاالت علمي استخراج شده از پایان نامه Accepted: Maryam. Khodabakhsh and Saeed. Araban, "Reusability Assessment of Test Collections with Multi-levels of Judgments," in 10nd International Conference on IEEE ICT and Knowledge Engineering, Bangkok. Thailand ,2012. Under Review: Maryam. Khodabakhsh and Saeed. Araban, "Interval Estimate of Reusability of Test Collections with NDCG," International Journal of Computer Engineering & Sciences, 2012. Page 30 مراجع [Web 2010] Webber, W. E. ( 2010). Measurement in Information Retrieval Evaluation. Department of Computer Science and Software Engineering The University of Melbourne. PhD thesis. [Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM. [San and Joh 2004] Sanderson, M. and H. Joho (2004). Forming test collections with no system pooling .Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom, ACM. [Car 2008] Carterette, B. A. (2008). Low-Cost and Robust Evaluation of Information Retrieval, University of Massachusetts Amherst: 255. [Car and Ben 2008] Carterette, B. and P. N. Bennett (2008). Evaluation measures for preference judgments. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. Singapore, Singapore, ACM. [Sob 2003] Soboroff, I. and S. Robertson (2003). Building a filtering test collection for TREC 2002. Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval. Toronto, Canada, ACM. [Car and Gab et al. 2010] Carterette, B., E. Gabrilovich, et al. (2010). Measuring the reusability of test collections. Proceedings of the third ACM international conference on Web search and data mining. New York, New York, USA, ACM: 231-240. [Har 1992]Harman, D. (1992). Overview of the first text retrieval conference (TREC-1). In Proceedings of the First Text Retrieval Conference (TREC-1). [Joh 2007] Joho, H., R. Villa, et al. (2007). Interaction Pool: Towards a User-centered Test Collection. In proceedings of the Workshop on Web Information Seeking and Interaction, SIGIR 2007. Amsterdam, The Netherlands, ACM: 17-20. [Cor 1998] Cormack, G. V., C. R. Palmer, et al. (1998). Efficient construction of large test collections. Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, ACM. [Jär 2000] Järvelin, K. and J. Kekäläinen (2000). IR evaluation methods for retrieving highly relevant documents. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. Athens, Greece, ACM. Page 31 مراجع [Kek 2002] Kekäläinen, J. and K. Järvelin (2002). "Using graded relevance assessments in IR evaluation." J. Am. Soc. Inf. Sci. Technol. 53(13): 1120-1129. [Rob 2010] Robertson, S. E., E. Kanoulas, et al. (2010). Extending average precision to graded relevance judgments. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM. [Buc 2004] Buckley, C. and E. M. Voorhees (2004). Retrieval evaluation with incomplete information. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. Sheffield, United Kingdom: 25-29. [Yil 2006] Yilmaz, E. and J. A. Aslam (2006). Estimating average precision with incomplete and imperfect judgments. Proceedings of the 15th ACM international conference on Information and knowledge management. Arlington, Virginia, USA. [Rad 2006] Radlinski, F. and T. Joachims (2006). Minimally invasive randomization for collecting unbiased preferences from clickthrough logs. In Conference of the Association for the Advancement of Artificial Intelligence (AAAI): 1406-1412. [ B¨ut 2007] B¨uttcher, S., C. L. A. Clarke, et al. (2007). Reliable information retrieval evaluation with incomplete and biased judgements. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car 2007] Carterette, B. (2007). Robust test collections for retrieval evaluation. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. Amsterdam, The Netherlands, ACM. [Car and Kan 2010] Carterette, B., E. Kanoulas, et al. (2010). Reusable test collections through experimental design. Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. Geneva, Switzerland, ACM: 547554. [Car and All 2007] Carterette, B. and J. Allan (2007). Semiautomatic evaluation of retrieval systems using document similarities. Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. Lisbon, Portugal, ACM. [Hua 2008] Huang, A. ( 2008). Similarity Measures for Text Document Clustering. in the proceedings of the New Zealand Computer Science Research Student Conference .Christchurch, New Zealand : 49-56. [San] Sandhya, N., Y. S. Lalitha, et al. "Analysis of Similarity Measures for Text Clustering." International Journal of Data Engineering. Page 32