ییانعم بو یاه رگشواک یدادماما هناحیر امنهار داتسا :

Transcript ییانعم بو یاه رگشواک یدادماما هناحیر امنهار داتسا :

‫گزارش سمینار کارشناسی ارشد‬
‫کاوشگر های وب معنایی‬
‫ریحانه امامدادی‬
‫استاد راهنما‪ :‬جناب دکتر کاهانی‬
‫پاییز ‪1391‬‬
‫فهرست مطالب‬
‫• کاوشگر وب‬
‫• وب معنایی‬
‫• چالش های کاوشگر های سنتی برای وب معنایی‬
‫• کاوشگر های وب معنایی‬
‫• کاوشگر های متمرکز برای وب معنایی‬
‫• نتیجه گیری‬
‫‪2‬‬
‫کاوشگر وب‬
‫•‬
‫برنامه ای است که به صورت خودکار‪ ،‬وب را‬
‫از طریق دانلود کردن صفحات و دنبال کردن‬
‫پیوند ها‪ ،‬از صفحه ای به صفحه ای دیگر‪،‬‬
‫پیمایش می کند‪.‬‬
‫•‬
‫جمع آوری داده‬
‫•‬
‫اولین مولفه مورد نیاز برای ایجاد شاخص گذاری‬
‫و بازیابی اسناد وب‬
‫•‬
‫‪... ،robot ،spider ،crawler‬‬
‫چرخه کاوش‬
‫]‪[Mae2006‬‬
‫‪3‬‬
‫رفتار کاوشگر‬
‫• چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه)‬
‫– محبوبیت محور‬
‫– عالقه محور‬
‫• چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی)‬
‫– بررسی به روز بودن صفحه‬
‫– اولویت به روز رسانی‬
‫• چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست‬
‫‪)politeness‬‬
‫– مجوز کاوش سایت‪ :‬فایل ‪robot.txt‬‬
‫– رعایت یک میزان تاخیر‪ ،‬بین ارسال درخواست های متوالی به یک سایت‬
‫• چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی)‬
‫‪4‬‬
‫وب معنایی‬
‫‪5‬‬
‫روشهای پیوند اسناد در وب معنایی‬
‫• ‪owl:import ، owl:sameAs ، rdfs:isDefinedBy ، rdfs:seeAlso‬‬
‫• پیوند های موجود در اسناد ‪ html‬که اشاره به یک سند با پسوند ‪ .rdf‬می کنند‪.‬‬
‫• دنبال کردن پیوند های ‪ A-Box‬و ‪T-Box‬‬
‫– استدالل بر روی سه گانه ها )‪(subject, predicate, object‬‬
‫– ‪ :T-Box‬کالس ها و خصیصه ها (شمای یک سند)‬
‫• ‪ URI‬هر ‪predicate‬‬
‫• ‪ URI‬مربوط به هر ‪ ،obejct‬در صورتی که در سه گانه مورد نظر‪ predicate ،‬آن از نوع ‪type‬‬
‫باشد‪..‬‬
‫– ‪ :A-Box‬نمونههای تعریف شده‬
‫• ‪ URI‬مربوط به هر ‪ Subject‬و یا ‪Object‬‬
‫‪6‬‬
‫چالش های کاوشگر های سنتی برای وب معنایی‬
‫• حجم کمتر وب معنایی نسبت به وب سنتی ‪ :‬عدم نیاز به کاوش جامع و کامل‬
‫وب‬
‫• عدم اتصال کافی بین منابع‬
‫• تفاوت فرمت داده ها‪ :‬عدم توجه به محتوای معنایی اسناد‬
‫• شیوه متفاوت پیوند بین منابع‬
‫• به روز رسانی اسناد‬
‫‪7‬‬
‫کاوشگر های وب معنایی‬
)‫متمرکز (موضوعی‬
)‫عمومی(کدباز‬
‫موتور های جستجو‬
[Ehr2003] •
[Dod2006] Slug •
[Han2006]Swoogle •
[Mae2008] •
[Ise2010] LDSpider •
[Hog2011] SWSE •
[Cyg2011] Sindice •
[Che2009] Falcons •
[Sab2007] Watson •
WebOWL :BioCrawler •
[Bat2012]
8
‫کاوش وب معنایی‬
‫شناسایی منابع اولیه با محتوای معنایی‬
‫شناسایی پیوند ها و روابط معنایی‬
‫حذف اسنادی که شامل هیچ گونه داده معنایی نیستند‬
‫‪9‬‬
‫کاوش وب معنایی‬
‫• جمع آوری ‪ URI‬های اولیه‬
‫– وارد کردن ‪ URI‬توسط کاربر‬
‫– استفاده از خروجی موتور های جستجو و بعضی از سایت ها‬
‫• فیلتر های معنایی‬
‫– جلوگیری از واکشی و ذخیره داده های غیر معنایی‬
‫– انواع فیلتر ها‪ :‬پروتکل ‪ -‬پسوند فایل ‪ -‬عبارات منظم – دامنه ‪ -‬پیشوند ‪ - URI‬نوع‬
‫رسانه‪/‬محتوا‬
‫• پارسرهای معنایی‬
‫– ‪Jena - Any23 – NxParser‬‬
‫– استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها‬
‫– چهارگانه = )‪(subject, predicate, object, context‬‬
‫‪10‬‬
‫روش های کاوش‬
‫اول سطح‬
‫روش های کاوش پایه‬
‫اول عمق‬
‫روش های کاوش در کاوشگر‬
‫های وب معنایی‬
‫کاوش کران دار‬
‫کاوش متمرکز (موضوعی)‬
‫•‬
‫روش اول‪-‬سطح‬
‫– کاوش زودتر صفحات مرتبط‬
‫– تنوع بیشتر در دیتاست های کاوش شده‬
‫•‬
‫روش اول‪-‬عمق‬
‫– مسیرهای عمیق تر در داخل یک سایت‬
‫•‬
‫روش کاوش کران دار ]‪[Din2005‬‬
‫– در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری‬
‫نیز وجود داشته باشد‪.‬‬
‫– کاوش تمام صفحات متعلق به یک سایت‬
‫– یافتن منابع منزوی‬
‫– کشف اسناد معنایی بیشتر‬
‫‪11‬‬
‫صف های کاوش‬
‫مبتنی بر ‪URI‬‬
‫‪PLD‬‬
‫صف های کاوش‬
‫مبتنی بر دامنه‬
‫سایت‬
‫•‬
‫)‪Top-Level Domain (TLD‬‬
‫– ‪.com , .net , .uk‬‬
‫– ‪co.uk , edu.au :cc-TLD‬‬
‫•‬
‫)‪Pay level domain (PLD‬‬
‫– ‪amazon.com , det.wa.edu.au‬‬
‫• مزایای صف های مبتنی بر دامنه ]‪[Lee2008‬‬
‫– کنترل کردن سایت ها با حجم باال‬
‫– رعایت عدالت میان دامنه ها‬
‫– جلوگیری از تاثیر سایت های اسپم‬
‫‪12‬‬
‫صف های کاوش‬
‫تعداد پیوند های ورودی‬
‫ترتیبی‬
‫صف های کاوش‬
‫اولویت‬
‫دار‬
‫میزان احتمال غنی بودن از نظر‬
‫معنایی‬
‫نسبت مفید‬
‫اعتبار‬
‫مبتنی بر‬
‫یادگیری‬
‫میزان ارتباط با موضوع مورد نظر‬
‫‪ URI‬وارد شده توسط کاربر‬
‫‪13‬‬
‫نسبت مفید اعتبار‬
‫]‪[Hog2011‬‬
‫‪14‬‬
‫روش مبتنی بر یادگیری‬
‫•‬
‫]‪[Bat 2012‬‬
‫‪ : BioCrawler‬یک کاوشگر هوشمند‬
‫• مجموعه ای از کاوشگر ها با ویژگی های زیر‪:‬‬
‫– قابلیت حرکت ‪ -‬بردار دید ‪ -‬قابلیت ارتباط ‪ -‬مدل دانش ‪ -‬انرژی‬
‫• هدف‬
‫– افزایش انرژی = کاوش بیشتر سایت های معنایی (‪ OWL‬یا ‪)RDF‬‬
‫• الگوریتم پایه‪ :‬کاوش اول‪-‬عمق‬
‫• مدل دانش‪ :‬مجموعه قوانین‬
‫– > ‪IF < vision_vector > THEN < select_domain‬‬
‫• امکان تبادل قوانین میان کاوشگر ها‬
‫‪15‬‬
‫سیاست های‬
‫‪Politeness‬‬
‫• رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه (‪ - PLD‬سایت)‬
‫• تعیین حداکثر تعداد ‪ URI‬های کاوش شده به ازای هر دامنه‬
‫• در روش مبتنی بر یادگیری‪ :‬کاهش قدرت قانون به ازای هر بار استفاده‬
‫• مشکل قحطی ‪ PLD‬ها‬
‫– عدم داشتن ‪ PLD‬فعال به تعداد کافی ]‪[Hog2011‬‬
‫– دالیل‬
‫•‬
‫واکشی سایت ها با فاکتور انشعاب داخلی باال‬
‫•‬
‫عدم اتصال خوب اسناد در وب معنایی‬
‫– راه حل‬
‫•‬
‫بازگشت از دور‬
‫‪16‬‬
‫به روز رسانی داده ها‬
‫• بازه به روز رسانی‬
‫– بر حسب تقاضا‬
‫– خودکار‬
‫• بررسی به روز بودن‬
‫– بررسی فیلد (‪ )last-modified-since‬در هدر ‪ HTTP‬صفحه‬
‫– هش محتوای صفحه‬
‫– استفاده از سرویس "‪"Pingthesemanticweb.com‬‬
‫– استفاده از نقشه سایت‬
‫• اولویت به روز رسانی‬
‫– میزان غنی بودن دامنه از نظر معنایی‬
‫– اولویت باال برای کاربر‬
‫‪17‬‬
‫مدل های طراحی در کاوشگر های وب‬
‫معنایی‬
‫مدل های طراحی‬
‫کاوش چند نخی‬
‫چارچوب توزیع شده‬
‫مدل خط لوله‬
‫مدل ترکیبی کنترل کننده ‪ -‬کارگر و تولید کننده ‪ -‬مصرف کننده‬
‫عامل های هوشمند‬
‫‪18‬‬
‫مدل های طراحی‬
‫• چارچوب توزیع شده‬
‫•‬
‫–‬
‫افزایش مقیاس پذیری‬
‫–‬
‫مدل ‪[Hog2011] Master-Slave‬‬
‫•‬
‫پراکنده کردن ‪ URI‬های ‪ seed‬توسط ‪ Master‬بین ‪ Slave‬ها‬
‫•‬
‫اجرای یک دور از فرآیند کاوش توسط ‪ Slave‬ها‬
‫•‬
‫پراکنده کردن ‪ URI‬ها توسط ‪ Slave‬ها بین یکدیگر در پایان هر دور‬
‫مدل خط لوله ]‪[Har2006‬‬
‫– جدا کردن مولفه واکشی از مولفه پردازش‬
‫– اجرای هر یک از مولفه های کاوش به صورت چند نخی‬
‫– افزایش مقیاس پذیری و توان عملیاتی‬
‫‪19‬‬
‫مدل ترکیبی کنترل کننده‪-‬کارگر‬
‫و تولید کننده‪-‬مصرف کننده ]‪[Dod2006‬‬
‫•‬
‫جدا کردن مولفه واکشی (کنترل کننده‪-‬کارگر) از مولفه پردازش (تولید کننده‪-‬مصرف کننده)‬
‫معماري کاوشگر ‪SLUG‬‬
‫‪20‬‬
‫نام کاوشگر‬
‫محیط اجرایی‬
‫‪SWSE‬‬
‫‪Sindice‬‬
‫‪Swoogle‬‬
‫‪Falcons‬‬
‫‪Watson‬‬
‫‪Slug‬‬
‫‪LDSpider‬‬
‫‪BioCralwer‬‬
‫]‪[Hog2011‬‬
‫]‪[Cyg2011‬‬
‫]‪[Han2006‬‬
‫]‪[Che2009‬‬
‫]‪[Sab2007‬‬
‫]‪[Dod2006‬‬
‫]‪[Ise2010‬‬
‫]‪[Bat2012‬‬
‫موتور جستجو‬
‫موتور جستجو‬
‫موتور جستجو‬
‫‪SWSE‬‬
‫‪Sindice‬‬
‫‪Swoogle‬‬
‫موتور‬
‫جستجو‬
‫موتور جستجو‬
‫‪Watson‬‬
‫عمومی‬
‫عمومی‬
‫موتور جستجو‬
‫‪WebOWL‬‬
‫‪Falcons‬‬
‫‪RDF/XML‬‬
‫‪Turtle‬‬
‫‪N-Triples‬‬
‫ورودی‬
‫‪RDF/XML‬‬
‫‪RDFa‬‬
‫‪Notation3‬‬
‫‪RSS1.0‬‬
‫‪RDF/XML‬‬
‫‪HTML‬محدود‬
‫‪RDF/XML‬‬
‫‪N-Triples‬‬
‫‪Turtle‬‬
‫‪RDF/XML‬‬
‫‪RDF/XML‬‬
‫‪RDF/XML‬‬
‫‪RDFa‬‬
‫‪RDF/XML‬‬
‫‪Notation3‬‬
‫‪N3‬‬
‫میکرو فرمتها‬
‫میکروفرمتها‬
‫خروجی‬
‫‪Quad‬‬
‫‪N-Triple‬به همراه‬
‫شناسههای ‪،subject‬‬
‫‪ dataset‬و ‪ URL‬سند‬
‫‪N-Triple‬‬
‫‪Quad‬‬
‫‪N-Triple‬‬
‫‪N-Triple‬‬
‫روش کاوش‬
‫اول‪-‬سطح‬
‫اول‪-‬سطح‬
‫کران دار‬
‫‪-‬‬
‫‪-‬‬
‫‪-‬‬
‫صفهای کاوش‬
‫مبتنی بر‪PLD‬‬
‫مبتنی بر سایت‬
‫‪-‬‬
‫مبتنی بر ‪PLD‬‬
‫‪-‬‬
‫‪-‬‬
‫معیار اولویت‬
‫تعداد پیوندهای‬
‫ورودی ‪URI‬‬
‫اولویت باال برای‬
‫کاربر‬
‫‪-‬‬
‫نسبت مفید اعتبار‬
‫‪-‬‬
‫‪-‬‬
‫‪-‬‬
‫‪RDF/XML‬‬
‫‪N-QUADS‬‬
‫اول‪-‬سطح‬
‫اول‪-‬عمق‬
‫مبتنی بر ‪PLD‬‬
‫تعداد ‪URI‬های‬
‫موجود در صف‬
‫‪PLD‬‬
‫‪Object‬‬
‫اول‪-‬عمق‬
‫مبتنی بر دامنه‬
‫معنایی بودن دامنه‬
‫مبتنی بریادگیری‬
‫‪21‬‬
‫‪SWSE‬‬
‫‪Sindice‬‬
‫‪Swoogle‬‬
‫‪Falcons‬‬
‫‪Watson‬‬
‫‪Slug‬‬
‫‪LDSpider‬‬
‫‪BioCralwer‬‬
‫]‪[Hog2011‬‬
‫]‪[Cyg2011‬‬
‫]‪[Han2006‬‬
‫]‪[Che2009‬‬
‫]‪[Sab2007‬‬
‫]‪[Dod2006‬‬
‫]‪[Ise2010‬‬
‫]‪[Bat2012‬‬
‫پارسر‬
‫جنا‬
‫‪Any23‬‬
‫جنا‬
‫جنا‬
‫جنا‬
‫جنا‬
‫نوع مخزن‬
‫‪yars2‬‬
‫‪Hbase‬‬
‫‪mysql‬‬
‫‪mysql‬‬
‫‪mysql‬‬
‫پایگاه داده رابطه ای‬
‫جمع آوری‬
‫‪URI‬های اولیه‬
‫‪-‬‬
‫نام کاوشگر‬
‫‪RdfXml‬‬
‫‪Nx‬‬
‫جنا‬
‫‪Any23‬‬
‫‪Swoogle‬‬
‫‪PSW‬‬
‫مدل طراحی‬
‫کاربر‬
‫گوگل‬
‫گوگل‬
‫( ‪ URI‬و نقشه‬
‫سایت)‬
‫کاربر‬
‫‪PSW‬‬
‫خط لوله‬
‫خط لوله‬
‫توزیع شده‬
‫توزیع شده‬
‫کاربر‬
‫‪-‬‬
‫‪-‬‬
‫فایل‬
‫‪RDFSore‬‬
‫‪db4o‬‬
‫‪Swoogle‬‬
‫کتابخانه ‪Protege‬‬
‫‪-‬‬
‫‪-‬‬
‫‪-‬‬
‫کاربر‬
‫‪-‬‬
‫مشتری‪-‬مصرف‬
‫کننده‬
‫‪-‬‬
‫کنترل کننده‪-‬کارگر‬
‫عاملهای‬
‫هوشمند (‪)JADE‬‬
‫توزیع شده‬
‫طراحی دو لغت نامه‬
‫پشتیبانی از‬
‫ویژگی خاص‬
‫‪-‬‬
‫نقشه سایت معنایی‬
‫‪Ping API‬‬
‫ایجاد آرشیو‬
‫وب معنایی‬
‫‪-‬‬
‫استفاده از‬
‫کاوشگرهای‬
‫آرشیو اینترنت‬
‫برای ثبت‬
‫فعالیتهای کاوش و‬
‫فرادادهها‬
‫کد باز‬
‫مبتنی بر‬
‫یادگیری‬
‫کد باز‬
‫ایرلند‬
‫کشور‪ /‬موسسه موسسه تحقیقاتی‬
‫‪DERI‬‬
‫ایرلند‬
‫موسسه تحقیقاتی‬
‫‪DERI‬‬
‫گروه‬
‫چین‬
‫‪ eBiquity‬در گروه تحقیقاتی‬
‫‪UMBC‬‬
‫‪Websoft‬‬
‫انگلیس‬
‫موسسه ‪KM‬‬
‫ایرلند‬
‫‪-‬‬
‫موسسه‬
‫تحقیقاتی ‪DERI‬‬
‫یونان‬
‫‪22‬‬
‫کاوش متمرکز‬
‫• دالیل‬
‫– رشد روز افزون و تغییر سریع محتوای وب‬
‫– نیاز به اسناد با کیفیت و ارتباط باال‬
‫– به روز رسانی صفحات بر اساس محبوبیت نه ارتباط‬
‫• محدود کردن مرزهای کاوش و تمرکز بر روی نقاط مرتبط با موضوع‬
‫• مزایا‬
‫– حفظ قابل توجه منابع سخت افزاری و شبکه‬
‫– حجم کمتر‪ ،‬به روز رسانی و نگهداری آسان تر شاخص‬
‫‪23‬‬
‫مراحل کاوش متمرکز‬
‫مدل کردن موضوع‬
‫• سلسله مراتب موضوعی با مجموعه ای از اسناد‬
‫نمونه‬
‫• آنتالوژی‬
‫• ایجاد گراف زمینه برای اسناد هدف‬
‫تعیین موضوعات‬
‫مورد عالقه کاربر‬
‫• انتخاب موضوع از روی سلسله مراتب موضوعی‬
‫• پرس جوی کلمه کلیدی‬
‫• دادن آنتالوژی نمونه‬
‫• دادن اسناد هدف‬
‫محاسبه ارتباط‬
‫• محاسبه فرکانس ترم ها در اسناد‬
‫• امتیاز دادن به روابط در آنتالوژی‬
‫• نگاشت بین آنتالوژی موضوع و آنتالوژی سند‬
‫• محاسبه فاصله بین ترمهای سند بر اساس ساختار آنتالوژی‬
‫‪24‬‬
‫محاسبه ارتباط در کاوش متمرکز‬
‫تشابه‬
‫متنی‬
‫(مبتنی بر کلمه کلیدی )‬
‫معنایی‬
‫(استفاده از آنتالوژی)‬
‫محتوا‬
‫تشابه‬
‫فراپیوند‬
‫‪25‬‬
‫انواع کاوشگر های متمرکز‬
‫کاوشگر های متمرکز‬
‫کاوشگر های متمرکز کالسیک‬
‫کاوشگر های متمرکز معنایی‬
‫کاوشگر های متمرکز با قابلیت‬
‫یادگیری‬
‫یادگیری مدل موضوع‬
‫یادگیری مسیر های مرتبط‬
‫‪26‬‬
‫کاوشگر های متمرکز‬
‫• چالش ها‬
‫‪.1‬‬
‫تعریف یک هدف کاوش رضایت بخش‬
‫‪.2‬‬
‫یک سند مرتبط ممکن است به یک سند نامرتبط پیوند دهد‬
‫‪.3‬‬
‫یک سند نامرتبط ممکن است به یک سند مرتبط پیوند دهد‬
‫‪.4‬‬
‫شناسایی نقاطی که به تعداد زیادی اسناد مرتبط پیوند می دهند‬
‫• معیار های ارزیابی‬
‫– میانگین تعداد اسناد مرتبط (‪)harvest‬‬
‫• تعداد اسناد مرتبط ‪ /‬تعداد کل اسناد بازیابی شده‬
‫– میانگین ارتباط اسناد‬
‫• توانایی کاوشگر برای حفظ تمرکز بر روی اسناد مرتبط‬
‫• مجموع ارتباط اسناد ‪ /‬تعداد کل اسناد بازایابی شده‬
‫‪27‬‬
‫کاوشگر‬
‫]‪[Cha1999‬‬
‫]‪[Dil2000‬‬
‫فرمت داده‬
‫‪HTML‬‬
‫‪HTML‬‬
‫]‪[Ehr2003‬‬
‫‪- HTML‬‬
‫‪RDF‬‬
‫]‪[Yuv2006‬‬
‫‪HTML‬‬
‫]‪[Mae2008‬‬
‫‪- HTML‬‬
‫‪RDF‬‬
‫نوع کاوشگر‬
‫کالسیک‬
‫یادگیرنده‬
‫معنایی‬
‫معنایی‬
‫معنایی‬
‫مدل کردن‬
‫موضوعات‬
‫استفاده از سلسله مراتب موضوعی‬
‫ایجاد گراف زمینه‬
‫برای اسناد هدف‬
‫آنتالوژی‬
‫مخزنی از آنتالوژیها‬
‫آنتالوژی‬
‫تعیین موضوعات انتخاب موضوعات از روی طبقه‬
‫بندی موضوعی‬
‫مورد عالقه‬
‫تعیین اسناد هدف‬
‫دادن آنتالوژی نمونه‬
‫پرسجوی کلمه کلیدی‬
‫و انتخاب آنتالوژی‬
‫مرتبط تر‬
‫دادن آنتالوژی نمونه‬
‫نوع تشابه‬
‫متنی ‪ -‬محتوا‬
‫متنی – محتوا‬
‫معنایی – محتوا‬
‫معنایی – فراپیوند‬
‫معنایی‪-‬محتوا‬
‫روش محاسبه‬
‫ارتباط‬
‫احتمال وقوع یک ترم موضوع در‬
‫میان ترمهای سند ‪ /‬دسته بند‬
‫‪ / TF-IDF‬دسته بند‬
‫معیار ارتباط‬
‫انتخاب دسته با بیشترین میزان‬
‫ارتباط‬
‫فاصله بین ترمها بر اساس امتیاز بندی روابط در ‪ :RDF‬نگاشت بین آنتالوژیها‬
‫‪TF-IDF :HTML‬‬
‫آنتالوژی‬
‫آنتالوژی‬
‫مجموع امتیازهای بدست‬
‫انتخاب دسته با‬
‫بیشترین میزان ارتباط آمده به ازای هر ترم‬
‫میانگین امتیازهای‬
‫روابط آنتالوژی بین‬
‫ترمهای پرسجو و‬
‫ترمهای فراپیوند‬
‫‪ :RDF‬مجموع ضرایب تشابه‬
‫بدست آمده از فرآیند نگاشت‬
‫‪ :HTML‬ضرب ضرایب ‪TF-‬‬
‫‪IDF‬‬
‫ارتقای عملکرد‬
‫بهبود مدل موضوع توسط کاربر‬
‫شناسایی هابها توسط سیستم‬
‫بهبود گراف زمینه‬
‫توسط سیستم‬
‫بهبود آنتالوژی توسط‬
‫کاربر‬
‫‪-‬‬
‫نگهداری المان های نگاشت‬
‫توسط سیستم‬
‫چالشها‬
‫‪1/2/3‬‬
‫‪1/2/4‬‬
‫‪2/3/4‬‬
‫‪3/4‬‬
‫‪2/3/4‬‬
‫نتایج ارزیابی‬
‫‪ harvest‬باالتر نسبت به‬
‫کاوش صفحات مرتبط به صورت ‪ harvest‬و میانگین‬
‫فراخوانی باالتر نسبت ‪ harvest‬باالتر نسبت به یک‬
‫پیوسته‪ ،‬و مقاوم به انحراف در ارتباط باالتر نسبت به کاوشگرهای اول سطح و‬
‫به شاخص گذاری تمام کاوشگر متمرکز مبتنی بر‬
‫کاوشگر اول سطح و متمرکز مبتنی بر کلمه‬
‫مجموعه ‪ URL‬اولیه‪ ،‬نسبت به‬
‫کلیدی‬
‫متن‬
‫کلمه ‪28‬‬
‫کلیدی‬
‫متمرکز کالسیک‬
‫کاوشگر اول سطح‬
‫نتیجه گیری‬
‫• کاوش هر چه بیشتر اسناد معنایی‬
‫•‬
‫• عدم اتصال خوب اسناد در وب معنایی‬
‫اجتناب از بازیابی اسناد غیر معنایی‬
‫– کشف منابع اولیه اسناد معنایی‬
‫– صرفه جویی در مصرف منابع محاسباتی و‬
‫– کاوش کران دار‬
‫شبکه‬
‫– کم تر شدن حجم شاخص‬
‫• پشتیبانی از انواع دادههای معنایی‬
‫– استخراج فراداده های معنایی از اسناد غیر‬
‫معنایی‬
‫– جدا کردن مولفه تبدیل از مولفه واکشی‬
‫• کاوش اول‪-‬سطح مبتنی بر دامنه‬
‫– کاهش سربار ناشی از کاوش بر روی دامنهها‬
‫• انتخاب و به روز رسانی منابع معنایی‬
‫تر‬
‫– نسبت مفید اعتبار‬
‫– استفاده از روش های مبتنی بر یادگیری‬
‫– استفاده از روش های کاوش متمرکز‬
‫• توزیع شدگی‬
‫– توزیع بار بر اساس میزان معنایی بودن ‪URI‬‬
‫ها‬
‫‪29‬‬
‫مراجع‬
[Bat2012] A. Batzios, P. A. Mitkas, “WebOWL: A Semantic Web search engine development
experiment.” Journal of Expert Systems with Applications, vol. 39, pp. 5052–5060, 2012.
[Kum2012] R. K. Rana, N. Tyagi, “A Novel Architecture of Ontology-based Semantic Web Crawler.”
International Journal of Computer Applications, vol. 44, Apr. 2012.
[Hog2011] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing
Linked Data with SWSE: the SemanticWeb Search Engine.” Journal web semantics, vol. 9, pp. 365-401,
2011.
[Cyg2011] R. Cyganiak, D1.1 Deployment of Crawler and Indexer Module, Linking Open Data Around
The Clock (LATC) Project, 2011.
[Jal2011] O. Jaliian, H. Khotanlou, “A New fuzzy-Based Method to Weigh the Related Concepts in
Semantic Focused Web Crawlers,” IEEE Conference, 2011.
[Dhe2011] S. S. Dhenakaran, K. T. Sambanthan, “WEB CRAWLER - AN OVERVIEW.” International
Journal of Computer Science and Communication, vol. 2, pp. 265-267, Jun 2011.
[Ise2010] R. Isele, J. Umbrich, C. Bizer, A. Harth, “LDSpider: An open-source crawling framework for
the Web of Linked Data,” In Poster. ISWC2010, Shanghai, Chinam, 2010.
[Del2010] R. Delbru, “Searching Web Data: an Entity Retrieval Model.” Ph.D thesis, at Digital
Enterprise Research Institute, National University of Ireland, Sep. 2010.
30
‫مراجع‬
[Che2009] G. Cheng, Y. Qu, “Searching Linked Objects with Falcons: Approach, Implementation and
Evaluation.” International Journal on Semantic Web and Information Systems, vol. 5, pp. 50-71, Sep.
2009.
[Ore2008] E. Oren, R. Delbru, M. Catasta, R. Cyganiak, H. Stenzhorn, G. Tummarello, “Sindice.com: A
document-oriented lookup index for open linked data.” International Journal Metadata Semant and
Ontologies, vol. 3, pp. 37-52, 2008.
[Umb2008] J. Umbrich, A. Harth, A. Hogan, S. Decker, “Four heuristics to guide structured content
crawling,” in Proc. of the 2008 Eighth International Conference on Web Engineering-Volume 00, IEEE
Computer Society, Jul. 2008, pp.196-202.
[Cyg2008] R. Cyganiak, H. Stenzhorn, R.Delbru, S. Decker, G. Tummarello, “Semantic Sitemaps: Efficient
and Flexible Access to Datasets on the Semantic Web,” in Proc. of the 5th European semantic web
conference on The semantic web: research and applications, 2008, pp. 690-704.
[Lee2008] H. T. Lee, D. Leonard, X. Wang, D. Loguinov, “Irlbot: scaling to 6 billion pages and beyond.”
in Proc. of the 17th international conference on World Wide Web, 2008, pp. 427-436.
[Don2008] H. Dong, F. K. Hussain, E. Chang, “State of the art in metadata abstraction crawlers,” IEEE
International Conference on Industrial Technology, Chengdu, 2008.
31
‫مراجع‬
[Sab2007] M. Sabou, C. Baldassarre, L. Gridinoc, S. Angeletou, E. Motta, M. d'Aquin, M. Dzbor,
“WATSON: A Gateway for the Semantic Web,” in ESWC poster session, 2007.
[Bat2007] A. Batzios, C. Dimou, A. L. Symeonidis, P. A. Mitkas, “BioCrawler: An intelligent crawler for
the Semantic Web.” Journal of Expert Systems with Applications, vol. 35, pp. 524-530, 2007.
[Dod2006] L. Dodds, Slug: A Semantic Web Crawler, 2006.
[Han2006] L. Han, L. Ding, R. Pan, T. Finin, Swoogle's Metadata about the Semantic Web, 2006.
[Har2006] A. Harth, J. Umbrich, S. Decker, “Multicrawler: A pipelined architecture for crawling and
indexing semantic web data,” In 5th International Semantic Web Conference, 2006, pp. 258–271.
[Mae2006] F. V. D. Maele. “Ontology-based Crawler for the Semantic.” M.A. thesis, Department of
Applied Computer Science, Brussel, 2006.
[Yuv2006] M. Yuvarani, N. Ch. S. N. Iyengar, A. Kannan, “LSCrawler: A Framework for an Enhanced
Focused Web Crawler based on Link Semantics,” in Proc. of the 2006 IEEE/WIC/ACM International
Conference on Web Intelligence, 2006.
[Din2005] L. Ding, T. Finin, A. Joshi, R. Pan, P. Reddivari, “Search on the semantic web.” Journal IEEE
Computer, vol. 10, pp. 62-69, Oct. 2005.
32
‫مراجع‬
[Din2004] T. Finin, Y. Peng, R. S. Cost, J. Sachs, R. Pan, A. Joshi, P. Reddivari, R. Pan, V. Doshi, L.
Ding,“Swoogle: A Search and Metadata Engine for the Semantic Web,” in Proc. of the Thirteenth ACM
Conference on Information and Knowledge Management, 2004.
[Ehr2003] M. Ehrig, A. Maedche, “Ontology-focused crawling of Web documents,” in Proc. of the
2003 ACM Symposium on Applied Computing, 2003, pp. 1174-1178.
[Ara2001] A. Arasu, J. Cho, H. G. Molina, A. Paepcke, S. Raghavan, “Searching the Web.” ACM
Transactions on Internet Technology, vol. 1, pp. 2–43, Aug. 2001.
[Ber2001] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web.” Journal of Scientiﬁc American,
vol. 284, pp.35-43, May 2001.
[Dil2000] M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles, M. Gori, “Focused crawling using context
graphs,” in Proc. of 26th International Conference on Very Large Databases, 2000, pp. 527–534.
[Cha1999] S. Chakrabarti, M. V. D. Berg, B. Dom, “Focused crawling: a new approach to topic-specific
web resource discovery.” Journal of Computer Networks, vol. 31, pp. 1623-1640, 1999.
[Kle1998] J. Kleinberg, “Authoritative sources in a hyperlinked environment,” in Proc. ACM-SIAM
Symposium on Discrete Algorithms, 1998.
33
‫• با تشکر از توجه شما‬
‫‪34‬‬

ییانعم بو یاه رگشواک یدادماما هناحیر امنهار داتسا :

Transcript ییانعم بو یاه رگشواک یدادماما هناحیر امنهار داتسا :

Directory