بو ينآرق يوجتسج روتوم يزاس هدايپ رد يملع ثحابم امنهار داتسا :
Download
Report
Transcript بو ينآرق يوجتسج روتوم يزاس هدايپ رد يملع ثحابم امنهار داتسا :
به نام خدا
مباحث علمي در پياده سازي
موتور جستجوي قرآني وب
دانشگاه صنعتي شريف
دانشکده مهندس ي کامپيوتر
سمينار کارشناس ي ارشد
استاد راهنما :دکتر قدس ي
استاد مشاور :دکتر ابوالحسني
ارائه دهنده :مجتبي محمدي نصيري
84206861
فهرست
تعريف پروژه
جستجو در وب
کارهاي مرتبط
اجزاي موتور جستجو
راهکارهاي پيشنهادي
نتيجهگيري
مراجع
2
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
تعريف پروژه
جستجويي قرآني وب
موتور
موتورجستجو
وب
موتور جستجوي وب
سيستم بازيابي اطالعات وب بر اساس کليد واژه
3
نتايج قرآني :مستنداتي که قسمتي از قرآن در آنها آمده است
پرس جوي قرآني :کليد واژهها عربي و از کلمات موجود در قرآن
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
مشکالت اطالعات وب و راه حلها
حجم باالي اطالعات
نياز به موتورهاي جستجو براي کاربر امروزي
نتايج متنوع و در زمينههاي مختلف
نياز به موتورهاي خاص منظوره و ّ
تخصص ي مثل شيمی و بيولوژی
اطالعات غلط و غيرعلمي
4
ايجاد پايگاههاي ّ
تخصص ي وب و مرجع
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
علوم اسالمي در وب
همان مشکالت گفته شده
راه حلهاي گفته شده هنوز انجام نشدهاند
کم بودن پايگاههاي ّ
تخصص ي قرآني در وب
وجود نداشتن پايگاه مرجع قوي در پژوهشهاي قرآني
ديگر پروژه
کار
بردهاي ِ
ِ
5
جستجو در متون اسالمي
جستجو در يک اينترانت بر روي مستندات معتبر
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
کارهاي مرتبط
جستجوي عربي وب
http://www.google.com/intl/ar
جستجو در متن قرآن و کتابهاي اسالمي
6
http://www.searchquran.org
ارتباط بين قرآن و متون اسالمي ()2006 /10
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
ساختمان يک موتور جستجو
URL Server
Store Server
Crawler
Crawler
Repository
URL Revolver
Indexer
Indexer
Lexicon
انديسگذار
Barrels
Links
Doc
Index
Searcher & Ranker
Sorter
Page Rank
زير سيستمهاي موتور جستجو
خزشگر
Anchors
جستجوگرو رتبهبند
Searcher
1385 دی
موتور جستجوی قرآنی وب- مجتبی محمدی نصیری
7
خزشگر)(Crawler
هدف
جمعآوري و ذخيره مستندات وب
چالشها
نياز به منابع شبکه زياد
تعيين اولويت پيمايش صفحات
آدرسهاي تکراري و پيموده شده
صفحات متقلب
همزماني دسترس ي به منابع (در خزشگرهاي موازي)
8
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
انديسگذار)(Indexer
هدف
ايجاد فهرستي از اطالعات الزم مستندات
براي جستجوي درست و سريع
مسائل
9
روش انديسگذاري :مستقيم يا معکوس
تعيين اطالعات الزم يک مستند
نحوه نگهداري انديسها (ساختار دادهي مناسب)
ً
تعيين کلمات بسيار متداول و يا اصطالحا کلمات توقف()stop words
فشردهکردن انديسها
ريشهيابي کلمات ()stemming
بروزرساني يا افزايش :انديسگذاري دستهاي
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
جستجو و رتبهبند )(Searcher & Ranker
هدف
ارائه نتايج جستجو،
به ترتيب اهميت و ميزان ارتباط با پرسجو
اطالعات رتبهبندي
اطالعات مربوط به متن صفحه
اطالعات مربوط به لينکهاي بين اين صفحه و صفحات ديگر
انواع رتبهبندي بر اساس لينکها
10
شبکههاي اجتماعي()Social Networks
PageRank
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
جستجو و رتبهبند ) (Searcher & Rankerادامه...
مسائل
جستجوي ترکيب منطقي از کلمات (و ،يا ،نفي)... ،
گسترش پرسجو
ريشهيابي کلمات پرسجو،
اضافه کردن کلمات مترادف يک کلمه
اضافه کردن کلماتي که از نظر امالئي نزديک به کلمه مورد نظر هستند؛ چون
ممکن است کاربر يا نويسنده مستند ،در امالي کلمه اشتباه کرده باشد.
11
ترجمه کردن کلمات به زبان مستندات
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
راهکارهاي انجام پروژه
خزشگر کانوني
()Focus Crawler
فوق موتور جستجو
)Search Engine
( Meta
انديسگذاري بر اساس رابطهي آيات
و مستندات
12
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
خزشگر کانوني()Focus Crawler
تعريف :
الگوريتم جستجوي بهترين اول()Best First Search
جمعآوري مستندات مرتبط با يک زمينهي خاص
مزايا
حذف بسياري از صفحات وب قبل از جمعآوری
کنترل مرتبط با قرآن بودن نتايج از همين ابتدا
نياز کمتر به منابع شبکهاي
معايب
13
پيچيدگي الگوريتمي و نياز به منابع پردازش ي
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
فوق موتور جستجو ()Meta Search Engine
سه رويکرد
مزايا
پيادهسازي سادهتر
معايب
14
رتبهبندي دوباره
فيلترکردن نتايج
گسترش پرسجو
زمان پاسخگويي سيستم باال
نياز به منابع شبکهي زياد
عدم تضمين مربوط بودن نتايج به قرآن
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
انديسگذاري بر اساس رابطهي آيات و مستندات
دو مرحله
مدلکردن رابطههاي بين آيات
مدلکردن ارتباط مستندات و آيات
سه پيشنهاد
استفاده از کلمات مشترک
استفاده از محل کلمات مشترک
هستانشناس ي براي مفاهيم قرآن و ايجاد پايگاه دانش
15
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
انديسگذاري بر اساس رابطهي آيات و مستندات (ادامه)...
مزايا
تضمين ارتباط مستندات بازيابي شده با قرآن
با اجرای پيشنهاد سوم امکان گسترش پروژه به حالت پرسجوهاي به زبانهاي ديگر
گسترش پروژه به بازيابی صفحات در مورد مفاهيم اسالمي و قرآني (با اجرای پيشنهاد
سوم)
معايب
16
مشکل بودن و هزينه و زمان بر بودن بخصوص ايجاد هستانشناس ي
نياز به تخصص بااليي درعلوم قرآني بخصوص در پيشنهاد سوم
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
نتيجهگيري
سه راهکار باال در تضاد با هم نيستند و با کمي تطبيق ميتوان در يک موتور
به کار روند.
با توجه به مزايا و معايب
راهکار سوم قابل اجرا در يک سال نيست
راهکار دوم نتايج مطلوب را ايجاد نمیکند
تمرکز ما در اين مرحله بر روي خزشگر کانوني است
17
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385
مراجع
Blaz N. A survey of focused web crawling algorithm.
SIKDD'04, 2004.
Brin S. and Page L. The Anatomy of a Large-Scale Hyper
textual Web Search Engine.1998(Extended in 2003).
Noordin, M.F. Othman, R. An Information Retrieval
System for Quranic Texts: A Proposed System Design.
ICTTA'06. 2nd Information and Communication
Technologies, 2006.
Pretschner A. Ontology Based Personalized Search. Master
's thesis, The University of Kansas, Lawrence, KS, 1999.
1385 دی
موتور جستجوی قرآنی وب- مجتبی محمدی نصیری
18
)...مراجع (ادامه
Ah Chung Tsoi. Forsali, D. Gori, M. Hagenbuchner, M. Scarselli F. A Simple Focused
Crawler. 2003.
Aljlayl, M. and Frieder, O. On Arabic Search: Improving the Retrieval Effectiveness via a
Light Stemming Approach, ACM Eleventh Conference on Information and Knowledge
Management, Mclean, VA, November, 2002.
Angkawattanawit N., Rungsawang A., Learnable Crawling: An Efficient Approach to
Topic-specific Web Resource Discovery. 2002.
Charu C. Aggarwal, Fatima Al-Garawi, and Philip S. Yu. Intelligent crawling on the World
Wide Web with arbitrary predicates. In Proceedings of the 10 th International World Wide
Web Conference, Hong Kong, May 2001.
Ehrig M. and Maedche A.. Ontology-focused crawling of Web documents. In Proc. of the
2003 ACM symposium on Applied computing, Melbourne, Florida, 2003.
Rachidi, T. Iraqi, O. Bouzoubaa, M. Khattab, A.B.E. Kourdi, M.E. Zahi,
A. Bensaid, A. Barq: distributed multilingual internet search engine with focus on Arabic
language. IEEE International Conference on Systems, Man and Cybernetics, 2003.
1385 دی
موتور جستجوی قرآنی وب- مجتبی محمدی نصیری
19
پايگاههاي مرجع
http://www.searchquran.org/
http://www.google.com/intl/ar/
http://scholar.google.com
http://www.searchengineguide.com/pages/Science/Biology
http://scitech.quickfound.net/biology_medical_news_search.html
http://chemfinder.cambridgesoft.com/
http://www.chemindustry.com/
1385 دی
موتور جستجوی قرآنی وب- مجتبی محمدی نصیری
20
با تشکر از توجه شما
21
مجتبی محمدی نصیری -موتور جستجوی قرآنی وب
دی 1385