ییانعم بو یاه رگشواک یدادماما هناحیر امنهار داتسا :
Download
Report
Transcript ییانعم بو یاه رگشواک یدادماما هناحیر امنهار داتسا :
گزارش سمینار کارشناسی ارشد
کاوشگر های وب معنایی
ریحانه امامدادی
استاد راهنما :جناب دکتر کاهانی
پاییز 1391
فهرست مطالب
• کاوشگر وب
• وب معنایی
• چالش های کاوشگر های سنتی برای وب معنایی
• کاوشگر های وب معنایی
• کاوشگر های متمرکز برای وب معنایی
• نتیجه گیری
2
کاوشگر وب
•
برنامه ای است که به صورت خودکار ،وب را
از طریق دانلود کردن صفحات و دنبال کردن
پیوند ها ،از صفحه ای به صفحه ای دیگر،
پیمایش می کند.
•
جمع آوری داده
•
اولین مولفه مورد نیاز برای ایجاد شاخص گذاری
و بازیابی اسناد وب
•
... ،robot ،spider ،crawler
چرخه کاوش
][Mae2006
3
رفتار کاوشگر
• چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه)
– محبوبیت محور
– عالقه محور
• چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی)
– بررسی به روز بودن صفحه
– اولویت به روز رسانی
• چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست
)politeness
– مجوز کاوش سایت :فایل robot.txt
– رعایت یک میزان تاخیر ،بین ارسال درخواست های متوالی به یک سایت
• چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی)
4
وب معنایی
5
روشهای پیوند اسناد در وب معنایی
• owl:import ، owl:sameAs ، rdfs:isDefinedBy ، rdfs:seeAlso
• پیوند های موجود در اسناد htmlکه اشاره به یک سند با پسوند .rdfمی کنند.
• دنبال کردن پیوند های A-Boxو T-Box
– استدالل بر روی سه گانه ها )(subject, predicate, object
– :T-Boxکالس ها و خصیصه ها (شمای یک سند)
• URIهر predicate
• URIمربوط به هر ،obejctدر صورتی که در سه گانه مورد نظر predicate ،آن از نوع type
باشد..
– :A-Boxنمونههای تعریف شده
• URIمربوط به هر Subjectو یا Object
6
چالش های کاوشگر های سنتی برای وب معنایی
• حجم کمتر وب معنایی نسبت به وب سنتی :عدم نیاز به کاوش جامع و کامل
وب
• عدم اتصال کافی بین منابع
• تفاوت فرمت داده ها :عدم توجه به محتوای معنایی اسناد
• شیوه متفاوت پیوند بین منابع
• به روز رسانی اسناد
7
کاوشگر های وب معنایی
)متمرکز (موضوعی
)عمومی(کدباز
موتور های جستجو
[Ehr2003] •
[Dod2006] Slug •
[Han2006]Swoogle •
[Mae2008] •
[Ise2010] LDSpider •
[Hog2011] SWSE •
[Cyg2011] Sindice •
[Che2009] Falcons •
[Sab2007] Watson •
WebOWL :BioCrawler •
[Bat2012]
8
کاوش وب معنایی
شناسایی منابع اولیه با محتوای معنایی
شناسایی پیوند ها و روابط معنایی
حذف اسنادی که شامل هیچ گونه داده معنایی نیستند
9
کاوش وب معنایی
• جمع آوری URIهای اولیه
– وارد کردن URIتوسط کاربر
– استفاده از خروجی موتور های جستجو و بعضی از سایت ها
• فیلتر های معنایی
– جلوگیری از واکشی و ذخیره داده های غیر معنایی
– انواع فیلتر ها :پروتکل -پسوند فایل -عبارات منظم – دامنه -پیشوند - URIنوع
رسانه/محتوا
• پارسرهای معنایی
– Jena - Any23 – NxParser
– استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها
– چهارگانه = )(subject, predicate, object, context
10
روش های کاوش
اول سطح
روش های کاوش پایه
اول عمق
روش های کاوش در کاوشگر
های وب معنایی
کاوش کران دار
کاوش متمرکز (موضوعی)
•
روش اول-سطح
– کاوش زودتر صفحات مرتبط
– تنوع بیشتر در دیتاست های کاوش شده
•
روش اول-عمق
– مسیرهای عمیق تر در داخل یک سایت
•
روش کاوش کران دار ][Din2005
– در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری
نیز وجود داشته باشد.
– کاوش تمام صفحات متعلق به یک سایت
– یافتن منابع منزوی
– کشف اسناد معنایی بیشتر
11
صف های کاوش
مبتنی بر URI
PLD
صف های کاوش
مبتنی بر دامنه
سایت
•
)Top-Level Domain (TLD
– .com , .net , .uk
– co.uk , edu.au :cc-TLD
•
)Pay level domain (PLD
– amazon.com , det.wa.edu.au
• مزایای صف های مبتنی بر دامنه ][Lee2008
– کنترل کردن سایت ها با حجم باال
– رعایت عدالت میان دامنه ها
– جلوگیری از تاثیر سایت های اسپم
12
صف های کاوش
تعداد پیوند های ورودی
ترتیبی
صف های کاوش
اولویت
دار
میزان احتمال غنی بودن از نظر
معنایی
نسبت مفید
اعتبار
مبتنی بر
یادگیری
میزان ارتباط با موضوع مورد نظر
URIوارد شده توسط کاربر
13
نسبت مفید اعتبار
][Hog2011
14
روش مبتنی بر یادگیری
•
][Bat 2012
: BioCrawlerیک کاوشگر هوشمند
• مجموعه ای از کاوشگر ها با ویژگی های زیر:
– قابلیت حرکت -بردار دید -قابلیت ارتباط -مدل دانش -انرژی
• هدف
– افزایش انرژی = کاوش بیشتر سایت های معنایی ( OWLیا )RDF
• الگوریتم پایه :کاوش اول-عمق
• مدل دانش :مجموعه قوانین
– > IF < vision_vector > THEN < select_domain
• امکان تبادل قوانین میان کاوشگر ها
15
سیاست های
Politeness
• رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه ( - PLDسایت)
• تعیین حداکثر تعداد URIهای کاوش شده به ازای هر دامنه
• در روش مبتنی بر یادگیری :کاهش قدرت قانون به ازای هر بار استفاده
• مشکل قحطی PLDها
– عدم داشتن PLDفعال به تعداد کافی ][Hog2011
– دالیل
•
واکشی سایت ها با فاکتور انشعاب داخلی باال
•
عدم اتصال خوب اسناد در وب معنایی
– راه حل
•
بازگشت از دور
16
به روز رسانی داده ها
• بازه به روز رسانی
– بر حسب تقاضا
– خودکار
• بررسی به روز بودن
– بررسی فیلد ( )last-modified-sinceدر هدر HTTPصفحه
– هش محتوای صفحه
– استفاده از سرویس ""Pingthesemanticweb.com
– استفاده از نقشه سایت
• اولویت به روز رسانی
– میزان غنی بودن دامنه از نظر معنایی
– اولویت باال برای کاربر
17
مدل های طراحی در کاوشگر های وب
معنایی
مدل های طراحی
کاوش چند نخی
چارچوب توزیع شده
مدل خط لوله
مدل ترکیبی کنترل کننده -کارگر و تولید کننده -مصرف کننده
عامل های هوشمند
18
مدل های طراحی
• چارچوب توزیع شده
•
–
افزایش مقیاس پذیری
–
مدل [Hog2011] Master-Slave
•
پراکنده کردن URIهای seedتوسط Masterبین Slaveها
•
اجرای یک دور از فرآیند کاوش توسط Slaveها
•
پراکنده کردن URIها توسط Slaveها بین یکدیگر در پایان هر دور
مدل خط لوله ][Har2006
– جدا کردن مولفه واکشی از مولفه پردازش
– اجرای هر یک از مولفه های کاوش به صورت چند نخی
– افزایش مقیاس پذیری و توان عملیاتی
19
مدل ترکیبی کنترل کننده-کارگر
و تولید کننده-مصرف کننده ][Dod2006
•
جدا کردن مولفه واکشی (کنترل کننده-کارگر) از مولفه پردازش (تولید کننده-مصرف کننده)
معماري کاوشگر SLUG
20
نام کاوشگر
محیط اجرایی
SWSE
Sindice
Swoogle
Falcons
Watson
Slug
LDSpider
BioCralwer
][Hog2011
][Cyg2011
][Han2006
][Che2009
][Sab2007
][Dod2006
][Ise2010
][Bat2012
موتور جستجو
موتور جستجو
موتور جستجو
SWSE
Sindice
Swoogle
موتور
جستجو
موتور جستجو
Watson
عمومی
عمومی
موتور جستجو
WebOWL
Falcons
RDF/XML
Turtle
N-Triples
ورودی
RDF/XML
RDFa
Notation3
RSS1.0
RDF/XML
HTMLمحدود
RDF/XML
N-Triples
Turtle
RDF/XML
RDF/XML
RDF/XML
RDFa
RDF/XML
Notation3
N3
میکرو فرمتها
میکروفرمتها
خروجی
Quad
N-Tripleبه همراه
شناسههای ،subject
datasetو URLسند
N-Triple
Quad
N-Triple
N-Triple
روش کاوش
اول-سطح
اول-سطح
کران دار
-
-
-
صفهای کاوش
مبتنی برPLD
مبتنی بر سایت
-
مبتنی بر PLD
-
-
معیار اولویت
تعداد پیوندهای
ورودی URI
اولویت باال برای
کاربر
-
نسبت مفید اعتبار
-
-
-
RDF/XML
N-QUADS
اول-سطح
اول-عمق
مبتنی بر PLD
تعداد URIهای
موجود در صف
PLD
Object
اول-عمق
مبتنی بر دامنه
معنایی بودن دامنه
مبتنی بریادگیری
21
SWSE
Sindice
Swoogle
Falcons
Watson
Slug
LDSpider
BioCralwer
][Hog2011
][Cyg2011
][Han2006
][Che2009
][Sab2007
][Dod2006
][Ise2010
][Bat2012
پارسر
جنا
Any23
جنا
جنا
جنا
جنا
نوع مخزن
yars2
Hbase
mysql
mysql
mysql
پایگاه داده رابطه ای
جمع آوری
URIهای اولیه
-
نام کاوشگر
RdfXml
Nx
جنا
Any23
Swoogle
PSW
مدل طراحی
کاربر
گوگل
گوگل
( URIو نقشه
سایت)
کاربر
PSW
خط لوله
خط لوله
توزیع شده
توزیع شده
کاربر
-
-
فایل
RDFSore
db4o
Swoogle
کتابخانه Protege
-
-
-
کاربر
-
مشتری-مصرف
کننده
-
کنترل کننده-کارگر
عاملهای
هوشمند ()JADE
توزیع شده
طراحی دو لغت نامه
پشتیبانی از
ویژگی خاص
-
نقشه سایت معنایی
Ping API
ایجاد آرشیو
وب معنایی
-
استفاده از
کاوشگرهای
آرشیو اینترنت
برای ثبت
فعالیتهای کاوش و
فرادادهها
کد باز
مبتنی بر
یادگیری
کد باز
ایرلند
کشور /موسسه موسسه تحقیقاتی
DERI
ایرلند
موسسه تحقیقاتی
DERI
گروه
چین
eBiquityدر گروه تحقیقاتی
UMBC
Websoft
انگلیس
موسسه KM
ایرلند
-
موسسه
تحقیقاتی DERI
یونان
22
کاوش متمرکز
• دالیل
– رشد روز افزون و تغییر سریع محتوای وب
– نیاز به اسناد با کیفیت و ارتباط باال
– به روز رسانی صفحات بر اساس محبوبیت نه ارتباط
• محدود کردن مرزهای کاوش و تمرکز بر روی نقاط مرتبط با موضوع
• مزایا
– حفظ قابل توجه منابع سخت افزاری و شبکه
– حجم کمتر ،به روز رسانی و نگهداری آسان تر شاخص
23
مراحل کاوش متمرکز
مدل کردن موضوع
• سلسله مراتب موضوعی با مجموعه ای از اسناد
نمونه
• آنتالوژی
• ایجاد گراف زمینه برای اسناد هدف
تعیین موضوعات
مورد عالقه کاربر
• انتخاب موضوع از روی سلسله مراتب موضوعی
• پرس جوی کلمه کلیدی
• دادن آنتالوژی نمونه
• دادن اسناد هدف
محاسبه ارتباط
• محاسبه فرکانس ترم ها در اسناد
• امتیاز دادن به روابط در آنتالوژی
• نگاشت بین آنتالوژی موضوع و آنتالوژی سند
• محاسبه فاصله بین ترمهای سند بر اساس ساختار آنتالوژی
24
محاسبه ارتباط در کاوش متمرکز
تشابه
متنی
(مبتنی بر کلمه کلیدی )
معنایی
(استفاده از آنتالوژی)
محتوا
تشابه
فراپیوند
25
انواع کاوشگر های متمرکز
کاوشگر های متمرکز
کاوشگر های متمرکز کالسیک
کاوشگر های متمرکز معنایی
کاوشگر های متمرکز با قابلیت
یادگیری
یادگیری مدل موضوع
یادگیری مسیر های مرتبط
26
کاوشگر های متمرکز
• چالش ها
.1
تعریف یک هدف کاوش رضایت بخش
.2
یک سند مرتبط ممکن است به یک سند نامرتبط پیوند دهد
.3
یک سند نامرتبط ممکن است به یک سند مرتبط پیوند دهد
.4
شناسایی نقاطی که به تعداد زیادی اسناد مرتبط پیوند می دهند
• معیار های ارزیابی
– میانگین تعداد اسناد مرتبط ()harvest
• تعداد اسناد مرتبط /تعداد کل اسناد بازیابی شده
– میانگین ارتباط اسناد
• توانایی کاوشگر برای حفظ تمرکز بر روی اسناد مرتبط
• مجموع ارتباط اسناد /تعداد کل اسناد بازایابی شده
27
کاوشگر
][Cha1999
][Dil2000
فرمت داده
HTML
HTML
][Ehr2003
- HTML
RDF
][Yuv2006
HTML
][Mae2008
- HTML
RDF
نوع کاوشگر
کالسیک
یادگیرنده
معنایی
معنایی
معنایی
مدل کردن
موضوعات
استفاده از سلسله مراتب موضوعی
ایجاد گراف زمینه
برای اسناد هدف
آنتالوژی
مخزنی از آنتالوژیها
آنتالوژی
تعیین موضوعات انتخاب موضوعات از روی طبقه
بندی موضوعی
مورد عالقه
تعیین اسناد هدف
دادن آنتالوژی نمونه
پرسجوی کلمه کلیدی
و انتخاب آنتالوژی
مرتبط تر
دادن آنتالوژی نمونه
نوع تشابه
متنی -محتوا
متنی – محتوا
معنایی – محتوا
معنایی – فراپیوند
معنایی-محتوا
روش محاسبه
ارتباط
احتمال وقوع یک ترم موضوع در
میان ترمهای سند /دسته بند
/ TF-IDFدسته بند
معیار ارتباط
انتخاب دسته با بیشترین میزان
ارتباط
فاصله بین ترمها بر اساس امتیاز بندی روابط در :RDFنگاشت بین آنتالوژیها
TF-IDF :HTML
آنتالوژی
آنتالوژی
مجموع امتیازهای بدست
انتخاب دسته با
بیشترین میزان ارتباط آمده به ازای هر ترم
میانگین امتیازهای
روابط آنتالوژی بین
ترمهای پرسجو و
ترمهای فراپیوند
:RDFمجموع ضرایب تشابه
بدست آمده از فرآیند نگاشت
:HTMLضرب ضرایب TF-
IDF
ارتقای عملکرد
بهبود مدل موضوع توسط کاربر
شناسایی هابها توسط سیستم
بهبود گراف زمینه
توسط سیستم
بهبود آنتالوژی توسط
کاربر
-
نگهداری المان های نگاشت
توسط سیستم
چالشها
1/2/3
1/2/4
2/3/4
3/4
2/3/4
نتایج ارزیابی
harvestباالتر نسبت به
کاوش صفحات مرتبط به صورت harvestو میانگین
فراخوانی باالتر نسبت harvestباالتر نسبت به یک
پیوسته ،و مقاوم به انحراف در ارتباط باالتر نسبت به کاوشگرهای اول سطح و
به شاخص گذاری تمام کاوشگر متمرکز مبتنی بر
کاوشگر اول سطح و متمرکز مبتنی بر کلمه
مجموعه URLاولیه ،نسبت به
کلیدی
متن
کلمه 28
کلیدی
متمرکز کالسیک
کاوشگر اول سطح
نتیجه گیری
• کاوش هر چه بیشتر اسناد معنایی
•
• عدم اتصال خوب اسناد در وب معنایی
اجتناب از بازیابی اسناد غیر معنایی
– کشف منابع اولیه اسناد معنایی
– صرفه جویی در مصرف منابع محاسباتی و
– کاوش کران دار
شبکه
– کم تر شدن حجم شاخص
• پشتیبانی از انواع دادههای معنایی
– استخراج فراداده های معنایی از اسناد غیر
معنایی
– جدا کردن مولفه تبدیل از مولفه واکشی
• کاوش اول-سطح مبتنی بر دامنه
– کاهش سربار ناشی از کاوش بر روی دامنهها
• انتخاب و به روز رسانی منابع معنایی
تر
– نسبت مفید اعتبار
– استفاده از روش های مبتنی بر یادگیری
– استفاده از روش های کاوش متمرکز
• توزیع شدگی
– توزیع بار بر اساس میزان معنایی بودن URI
ها
29
مراجع
[Bat2012] A. Batzios, P. A. Mitkas, “WebOWL: A Semantic Web search engine development
experiment.” Journal of Expert Systems with Applications, vol. 39, pp. 5052–5060, 2012.
[Kum2012] R. K. Rana, N. Tyagi, “A Novel Architecture of Ontology-based Semantic Web Crawler.”
International Journal of Computer Applications, vol. 44, Apr. 2012.
[Hog2011] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing
Linked Data with SWSE: the SemanticWeb Search Engine.” Journal web semantics, vol. 9, pp. 365-401,
2011.
[Cyg2011] R. Cyganiak, D1.1 Deployment of Crawler and Indexer Module, Linking Open Data Around
The Clock (LATC) Project, 2011.
[Jal2011] O. Jaliian, H. Khotanlou, “A New fuzzy-Based Method to Weigh the Related Concepts in
Semantic Focused Web Crawlers,” IEEE Conference, 2011.
[Dhe2011] S. S. Dhenakaran, K. T. Sambanthan, “WEB CRAWLER - AN OVERVIEW.” International
Journal of Computer Science and Communication, vol. 2, pp. 265-267, Jun 2011.
[Ise2010] R. Isele, J. Umbrich, C. Bizer, A. Harth, “LDSpider: An open-source crawling framework for
the Web of Linked Data,” In Poster. ISWC2010, Shanghai, Chinam, 2010.
[Del2010] R. Delbru, “Searching Web Data: an Entity Retrieval Model.” Ph.D thesis, at Digital
Enterprise Research Institute, National University of Ireland, Sep. 2010.
30
مراجع
[Che2009] G. Cheng, Y. Qu, “Searching Linked Objects with Falcons: Approach, Implementation and
Evaluation.” International Journal on Semantic Web and Information Systems, vol. 5, pp. 50-71, Sep.
2009.
[Ore2008] E. Oren, R. Delbru, M. Catasta, R. Cyganiak, H. Stenzhorn, G. Tummarello, “Sindice.com: A
document-oriented lookup index for open linked data.” International Journal Metadata Semant and
Ontologies, vol. 3, pp. 37-52, 2008.
[Umb2008] J. Umbrich, A. Harth, A. Hogan, S. Decker, “Four heuristics to guide structured content
crawling,” in Proc. of the 2008 Eighth International Conference on Web Engineering-Volume 00, IEEE
Computer Society, Jul. 2008, pp.196-202.
[Cyg2008] R. Cyganiak, H. Stenzhorn, R.Delbru, S. Decker, G. Tummarello, “Semantic Sitemaps: Efficient
and Flexible Access to Datasets on the Semantic Web,” in Proc. of the 5th European semantic web
conference on The semantic web: research and applications, 2008, pp. 690-704.
[Lee2008] H. T. Lee, D. Leonard, X. Wang, D. Loguinov, “Irlbot: scaling to 6 billion pages and beyond.”
in Proc. of the 17th international conference on World Wide Web, 2008, pp. 427-436.
[Don2008] H. Dong, F. K. Hussain, E. Chang, “State of the art in metadata abstraction crawlers,” IEEE
International Conference on Industrial Technology, Chengdu, 2008.
31
مراجع
[Sab2007] M. Sabou, C. Baldassarre, L. Gridinoc, S. Angeletou, E. Motta, M. d'Aquin, M. Dzbor,
“WATSON: A Gateway for the Semantic Web,” in ESWC poster session, 2007.
[Bat2007] A. Batzios, C. Dimou, A. L. Symeonidis, P. A. Mitkas, “BioCrawler: An intelligent crawler for
the Semantic Web.” Journal of Expert Systems with Applications, vol. 35, pp. 524-530, 2007.
[Dod2006] L. Dodds, Slug: A Semantic Web Crawler, 2006.
[Han2006] L. Han, L. Ding, R. Pan, T. Finin, Swoogle's Metadata about the Semantic Web, 2006.
[Har2006] A. Harth, J. Umbrich, S. Decker, “Multicrawler: A pipelined architecture for crawling and
indexing semantic web data,” In 5th International Semantic Web Conference, 2006, pp. 258–271.
[Mae2006] F. V. D. Maele. “Ontology-based Crawler for the Semantic.” M.A. thesis, Department of
Applied Computer Science, Brussel, 2006.
[Yuv2006] M. Yuvarani, N. Ch. S. N. Iyengar, A. Kannan, “LSCrawler: A Framework for an Enhanced
Focused Web Crawler based on Link Semantics,” in Proc. of the 2006 IEEE/WIC/ACM International
Conference on Web Intelligence, 2006.
[Din2005] L. Ding, T. Finin, A. Joshi, R. Pan, P. Reddivari, “Search on the semantic web.” Journal IEEE
Computer, vol. 10, pp. 62-69, Oct. 2005.
32
مراجع
[Din2004] T. Finin, Y. Peng, R. S. Cost, J. Sachs, R. Pan, A. Joshi, P. Reddivari, R. Pan, V. Doshi, L.
Ding,“Swoogle: A Search and Metadata Engine for the Semantic Web,” in Proc. of the Thirteenth ACM
Conference on Information and Knowledge Management, 2004.
[Ehr2003] M. Ehrig, A. Maedche, “Ontology-focused crawling of Web documents,” in Proc. of the
2003 ACM Symposium on Applied Computing, 2003, pp. 1174-1178.
[Ara2001] A. Arasu, J. Cho, H. G. Molina, A. Paepcke, S. Raghavan, “Searching the Web.” ACM
Transactions on Internet Technology, vol. 1, pp. 2–43, Aug. 2001.
[Ber2001] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web.” Journal of Scientific American,
vol. 284, pp.35-43, May 2001.
[Dil2000] M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles, M. Gori, “Focused crawling using context
graphs,” in Proc. of 26th International Conference on Very Large Databases, 2000, pp. 527–534.
[Cha1999] S. Chakrabarti, M. V. D. Berg, B. Dom, “Focused crawling: a new approach to topic-specific
web resource discovery.” Journal of Computer Networks, vol. 31, pp. 1623-1640, 1999.
[Kle1998] J. Kleinberg, “Authoritative sources in a hyperlinked environment,” in Proc. ACM-SIAM
Symposium on Discrete Algorithms, 1998.
33
• با تشکر از توجه شما
34