Transcript ارزیابی
استاد راهنما :دکتر محسن کاهانی
ارائه دهنده :اعظم فیضنیا
فهرست مطالب
•
•
•
•
•
•
•
•
•
•
2
مقدمه
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
مقدمه
رتبهبندی :مرتب کردن نتایج
جستجو برای ارائه به کاربر
• مستقل از پرسوجو
• – محاسبه محبوبیت نتایج براساس تحلیل
• پیوندهای گراف دادهها
••وابسته به پرسوجو
• – محاسبه میزان مرتبط بودن نتایج با پرس-
وجوی کاربر براساس تحلیل محتوا
3
ضرورت انجام پژوهش
حجم زیاد دادههای موجود در وب معنایی
(بیش از 52بیلیون سه گانه در مخازن تا سال
)2012
وب معنایی
ساختیافتگی دادهها
متفاوت بودن معنای پیوندها
امکان ادغام دادههای مجموعهدادههای مختلف
نیاز به موتورهای جستجو برای بازیابی اطالعات
وب معنایی
امکان اِعمال پرسوجوهای ساختیافته
SPARQL
نیاز به روشهای رتبهبندی جدید در موتورهای
جستجوی وب معنایی
در نظر گرفتن تفاوت پیوندها
در نظر گرفتن اصالت دادهها
4
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
هدف انجام پژوهش
• پردازش مجموعه داده RDFو استخراج مجموعهداده-
ها و پیوندهای آنها
• ایجاد گراف از مجموعهدادهها و پیوندهای آنها
1
2
• رتبهبندی مجموعهدادهها از طریق تحلیل پیوندهای گراف
ساخته شده
3
• محاسبه رتبه نتایج پرسش SPARQLبراساس رتبه به
دست آمده برای مجموعهدادهها
4
5
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
)ReconRank(Resource CONtext RANKing
رتبهبندی بر مبنای
تحلیل پیوند
PopRank
رتبهبندی
موجودیت
)Ding(Dataset rankING
روشهای رتبهبندی
موجودیت با هدف رتبه-
بندی نتایج پرسوجوهای
)SPRING(SPaRql rankING
الگوریتم رتبهبندی
مبتنی بر شباهت نتایج
SPARQL
الگوریتم ارائه شده
توسط][Ale2003
رتبهبندی روابط
معنایی
OntoRank
رتبهبندی
آنتولوژی
OntoKhoj
AKTiveRank
6
ضرورت انجام پژوهش
هدف از انجام
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیاب
تحلیل
جمع بندی
کارهای
عوامل موثر در رتبهبندی موجودیت
مدل داده
مبتنی بر موجودیتها و
روابط آنها
نیاز به
پردازش حجم
باالیی از داده-
ها
روش تخصیص وزن به پیوندها
در نظر
گرفتن
اصالت
دادهها
عدم پوشش
ویژگی باز
بودن وب و
وجود ادعاهای
نادرست و
متناقض
دستی
کاهش دقت
وزندهی
خودکار
وابستگی به
دامنه خاص
عدم
مقیاسپذیری
7
ضرورت انجام پژوهش
هدف از انجام
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیاب
تحلیل
جمع بندی
کارهای
تخصیص وزن خودکار به پیوندها
Sindice Semantic Web Search Engine,
Ding,LF-IDF
مدل سلسله مراتبی
][Nie2005
الیهی باال ،گراف مجموعهدادهها
الیهی پایین ،گراف موجودیتها
میزان خاص بودن پیوند:
کاردینالیتی پیوند:
تعداد تکرار برچسب پیوند در تعداد پیوندهایی که مبدا و
مقصد و برچسب پیوند یکسانی
گراف دادهها
دارند.
*کاهش دقت این روش به دلیل
اهمیت باالی منتقل شده توسط
برخی برچسبهای پیوند عام مثل
owl:sameAs
8
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
اجمالی بر کارهای گذشته
الگوریتم رتبهبندی موجودیت
در نظر گرفتن اصالت داده در گراف
دادهها
در نظر گرفتن تفاوت برچسب
پیوندها
مستقل از دامنه
ReconRank
*
-
*
PopRank
-
*
-
Ding
*
*
*
SPRING
*
-
*
الگوریتم رتبهبندی
-
*
*
9
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
رتبهبندی
SELECT DISTINCT ?player
WHERE
– عدم پوشش کامل نتدایج توسدط روشهدای{
موجودیت
رتبه
?player
dbpp:clubs
تطبی دهندهی ;?x
dbpediaowl:birthPlaceویگگد و یدک
−شهرت?z.یک موجودیت و یدک
در
dbr:Steven_Gerrardد بد
دد دلیل
dbpp:clubsنم تواند
ددار ویگگ د
مقد ;?x
dbpediaowl:birthplaceشهرت یک ادعا باشد.
معتبر بودن و
?z.
}
• روش SPRING
ددی
دهبند
دل = رتبد
دده اید
−اید
براسددداس توابددد بدددین
مجموعهدادهها
−وجود موجودیتهای یکسان با
URIمتفددددددددددددداوت در
مجموعددهدادههددای مختلددف
ابرLOD
−استفاده از پیوند SameAs
dbpp:clubs
پیوندهای دوطربه
پیوندهای یک طربه
ضرورت انجام پگوهش
هدف از انجام
?x
Steven_Gerrard
• روش رتبه بندی
براساس شباهت نتایج
روشهای موجود
SPARQL
?player
?z
dbpediaowl:birthP
lace
مشکالت و چالشها
روش پیشنهادی
dbpp:clubs
ارزیاب
تحلیل
dbpediaowl:birthP
lace
جمع بندی
10
کارهای
هدف روش پیشنهادی
محاسبه رتبه زیرگرافهای پاسخ پرسشهای
SPARQLبراساس رتبهی سهگانههای تشکیل
دهندهی آنها
حل مشکل عدم پوشش کامل نتایج در رتبهبندی
محاسبه رتبهی سهگانهها براساس رتبهی
مجموعهدادههای بیانکنندهی آنها
در نظر گرفتن اصالت دادهها در رتبهبندی
حل مشکل تخصیص وزن پایین به برچسبهای
پیوند پرتکرار با اهمیت از طریق یک روش جدید
اندازهگیری اهمیت برچسب پیوند مبتنی بر نوع
برچسب در رتبهبندی
محاسبه رتبهی مجموعهدادهها براساس روشهای
تحلیل پیوند موجودیت
11
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
مدل داده
• گراف چندگانهی جهتدار برچسبدار
• Vمجموعهای از گرهها
• Eمجموعهای از یالها
• LVمجموعهای از برچسب گرهها
• LEمجموعهی برچسب یالها
• یال 𝐸 ∈ 𝑒 به صورت 𝑣1 ,𝑙,𝑣2 |𝑣1 ,𝑣2 ∈ 𝑉,𝑙 ∈ LE
)G = (V,E,LV,,LE
گراف دادهها
مجموعهداده
مجموعهپیوند
= 𝑒 تعریف میشود.
• با فرض اینکه مجموعهدادهی Dزیرگرافی از Gباشد:
• 𝐷∆𝐷 = 𝑉𝐷 ,𝐸𝐷 ,
• 𝑉 ⊆ 𝐷𝑉
• 𝐸 ⊆ 𝐷𝐸
• 𝐷∆ یک تناظر بین شناسهها و مجموعهدادهی اصالت آنها
برقرار میکند.
• پيوند 𝑒 درونی است در صورتی که 𝐷𝑉 ∈ 𝑣1 ,𝑣2باشد ،در غیر اين صورت پيوند 𝑒 خارجی است.
12
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
مدل داده...
13
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
الگوریتم رتبهبندی
• محاسبهی رتبهی هر مجموعهداده با استفاده از
تعمیم فرمول PageRankروی گراف وزندار
ِ
مجموعهدادهها
– رتبهی سهگانهی tبرابر است با میانگین رتبهی
مجموعهدادههای آن:
14
ضرورت انجام پژوهش
هدف از انجام
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیاب
تحلیل
جمع بندی
کارهای
الگوریتم تخصیص وزن
*کاردینالیتی پیوند،تعداد پیوندهایی که مبدا و مقصد و برچسب پیوند یکسانی دارند.
Lσ,i,j
Lτ,i,k
Lτ,i,k
= LF Li,σ,j
* تعیین میزان اهمیت برچسب پیوند توسط نوع برچسب پیوند:
پیوندهای عام :پیوندهایی که به کالس و نوع موجودیت وابسته نیستندN
1 + freq σ
log
IDF σ = 1
پیوندهای خاص :پیوندهای تعریف شده برای موجودیتهای متعلق به یک کالس خاصN
1 + freq σ
*تابع وزن:
IDF σ = log
ωi,σ,j = LF Li,σ,j × IDF σ
15
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
تحلیل نتایج
جمع بندی
کارهای آینده
ارزیاب
مجموعه داده و ابزار مورد استفاده برای پیادهسازی
•
•
•
•
پیادهسازی با استفاده از زبان برنامهنویس جاوا
انتخاب مجموعهداده )Billion Triple Challenge( BTC2012
دور اول خزش
بخشهای freebase ،datahub ،timblو restاز ُ
قالب NQUAD
استفاده از کتابخانه nxparserبرای پردازش دادهها
تعداد سهگانهها103,254,464 :
تعداد مجموعهدادهها249 :
تعداد مجموعهپیوندها636 :
استفاده از SQL Serverبرای ذخیرهی دادهها
1
2
• هدف آزمایش اول:
دقت روش خودکار تخییص وزن پیشنهادی با روش خودکار LF-IDFدر
الگوریتم Ding
• هدف آزمایش دوم:
اثبات عدم پوشش کامل نتایج توسط روشهای تطبی دهندهی رتبهی
موجودیت در رتبهبندی پرسوجوهای مختلف SPARQL
16
ضرورت انجام پگوهش
هدف از انجام
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیاب
تحلیل
جمع بندی
کارهای
ارزیابی دقت روش تخصیص وزن
• معیار و روش انجام ارزیابی
– معیار ارزیابی :میزان خطا از لیست استاندارد
– روش ساخت لیست استاندارد:
» تنظ ی ی ی ی ی ی ی ی ی ی یییم پرس ی ی ی ی ی ی ی ی ی ی یینامه براس ی ی ی ی ی ی ی ی ی ی ییاس روش AHP
( )Analytical Hierarchy Processب یرای
معیارهای ن ان دهندهی شهرت مجموعهدادهها
» شرکت کنندگان:
• 3دانشجوی دکتری با حدود 4سال فعالیت در زمینه دادههای پیوندی
• 3دانشجوی کارشناس یارشد با حدود 2سال فعالیت در زمینه دادههای پیوندی
• میانگین درصد وزن معیارها براساس نظر متخصصان دادههای پیوندی
ترتیب
17
ضرورت انجام پژوهش
هدف از انجام پژوهش
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیابی
معیار
وزن
1
2
شهرت
حجم مجموعهداده
36.4%
3
4
محبوبیت
دسترس پذیری
تحلیل نتایج
جمع بندی
16.08%
11.596%
35.904%
کارهای آینده
نتایج ارزیابی دقت روش تخصیص وزن
روش مورد مقایسه
سال
روش تخصیص وزن
فاکتورهای مورد
استفاده
LF-IDF
2010
خودکار
کاردینالیتی پیوند
میزان خاص بودن برچسب
پیوند
• پیادهسازی روش پیشنهادی
– تفکیک پیوندهای عام و خاص براساس پیوندهای تعریف شده برای
owl:thing
–
پیوندهای عام :پیوندهایی با دامنهی owl:thing
لیستروش پیشنهادی و روش :Ding
• مقایسه لیست استاندارد،
ترتی
استاندارد
ب
استاندارد:
میزان خطا از لیست
•
18
روش پیشنهادی1 0/34 :
روش 0/41 :Ding
2
3
4
5
6
ضرورت انجام پژوهش
هدف از انجام
روشهای موجود
dbpedia.org
freebase.org
fu-berlin.de
bbc.co.uk
purl.org
xmlns.com
مشکالت و چالشها
روش Ding
روش
پیشنهادی
freebase.com
dbpedia.org
fu-berlin.de
esd.org.uk
open.ac.uk
w3.org
dbpedia.org
freebase.com
w3.org
xmlns.com
fu-berlin.de
purl.org
روش پیشنهادی
ارزیاب
تحلیل
جمع بندی
کارهای
ارزیاب
مجموعه داده و ابزار مورد استفاده برای پیادهسازی
•
•
•
•
پیادهسازی با استفاده از زبان برنامهنویس جاوا
انتخاب مجموعهداده )Billion Triple Challenge( BTC2012
دور اول خزش
بخشهای freebase ،datahub ،timblو restاز ُ
قالب NQUAD
استفاده از کتابخانه nxparserبرای پردازش دادهها
تعداد سهگانهها103,254,464 :
تعداد مجموعهدادهها249 :
تعداد مجموعهپیوندها636 :
استفاده از SQL Serverبرای ذخیرهی دادهها
1
2
• هدف آزمایش اول:
دقت روش خودکار تخییص وزن پیشنهادی با روش خودکار LF-IDFدر
الگوریتم Ding
• هدف آزمایش دوم:
اثبات عدم پوشش کامل نتایج توسط روشهای تطبی دهندهی رتبهی
موجودیت در رتبهبندی پرسوجوهای مختلف SPARQL
19
ضرورت انجام پگوهش
هدف از انجام
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیاب
تحلیل
جمع بندی
کارهای
اثبات عدم پوشش کامل نتایج توسط روشهای
تطبیق دهندهی
موجودیت
ی
رتبه
چالشهای مربوط
20
روشهای مورد
مقایسه
سال
روش محاسبه
رتبه نتایج
ایده اصلی
SPRING
2011
میانگین رتبهی
موجودیتهای هر
سهگانه
رتبهبندی
براساس توافق
بین
مجموعهدادهها
روش رتبهبندی
براساس شباهت
نتایج
2011
محاسبه رتبه
موجودیتها
شباهت بین
نتایج
ضرورت انجام پژوهش
هدف از انجام
روشهای موجود
مشکالت و چالشها
روش پیشنهادی
ارزیاب
به
عدم پوشش کامل
نتایج در رتبهبندی
تنها قادر است برای
موجودیتهایی که حداقل یک
پیوند ورودی با برچسب
owl:sameAsاز موجودیتهای
سایر مجموعهدادهها دارند
به محاسبه رتبه بپردازد.
تنها قادر است برای
موجودیتهایی که حداقل یک
پیوند خروجی مشترک با
سایر موجودیتهای نتیجه
دارند به محاسبه رتبه
بپردازد.
تنها قادر است نتایج
پرسشهایی را رتبهبندی
کند که نتایج ارائه شده
به کاربر یک موجودیت به
همراه تعدادی ثوابت
تحلیل
جمع بندی
شما
ره
1
2
کارهای
اثبات عدم پوشش کامل نتایج توسط روشهای
تطبیق دهندهی
رتبهی موجودیت...
• معیار و روش انجام ارزیابی
– معیار ارزیابی :درصد نتایج قابل رتبهبندی
– استفاده از پرسوجوهای محک استخراج شدده از ال
SPARQLدر DBPEDIAتوسط ][Mor2011
پرسوجوهدای
• انتخاب پرسوجوهای شماره 1و 4با توجه به مجموعه داده آزمایش
• درصد پوشش روش پیشنهادی ،روش مبتنی بر شباهت
شماره روش :SPRING
نتایج و
روش مبتنی بر
پرسوجو
1
2
21
ضرورت انجام
روش SPRING
شباهت نتایج
روش پیشنهادی
21.53%
-
%100
10.20%
-
%100
بیان شده
داده
مجموعه
در یک
گانه حداقل
انجامهر سه
توضیح:
پژوهش•
جمع بندی
تحلیل
ارزیاب
مشکالت و چالشها
روشهای موجود
روش پیشنهادی
هدف از
کارهای
آنچه مرا نکشد،
قوی ترم می
سازد.ویلهلم نیچه
فریدریش