بو ينآرق يوجتسج روتوم يزاس هدايپ رد يملع ثحابم امنهار داتسا :

Download Report

Transcript بو ينآرق يوجتسج روتوم يزاس هدايپ رد يملع ثحابم امنهار داتسا :

‫به نام خدا‬
‫مباحث علمي در پياده سازي‬
‫موتور جستجوي قرآني وب‬
‫دانشگاه صنعتي شريف‬
‫دانشکده مهندس ي کامپيوتر‬
‫سمينار کارشناس ي ارشد‬
‫استاد راهنما ‪ :‬دکتر قدس ي‬
‫استاد مشاور‪ :‬دکتر ابوالحسني‬
‫ارائه دهنده ‪ :‬مجتبي محمدي نصيري‬
‫‪84206861‬‬
‫فهرست‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫تعريف پروژه‬
‫جستجو در وب‬
‫کارهاي مرتبط‬
‫اجزاي موتور جستجو‬
‫راهکارهاي پيشنهادي‬
‫نتيجهگيري‬
‫‪ ‬مراجع‬
‫‪2‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫تعريف پروژه‬
‫‪‬‬
‫جستجويي قرآني وب‬
‫موتور‬
‫موتورجستجو‬
‫وب‬
‫موتور جستجوي وب‬
‫‪‬‬
‫سيستم بازيابي اطالعات وب بر اساس کليد واژه‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪3‬‬
‫نتايج قرآني ‪ :‬مستنداتي که قسمتي از قرآن در آنها آمده است‬
‫پرس جوي قرآني ‪ :‬کليد واژهها عربي و از کلمات موجود در قرآن‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫مشکالت اطالعات وب و راه حلها‬
‫‪ ‬حجم باالي اطالعات‬
‫‪‬‬
‫نياز به موتورهاي جستجو براي کاربر امروزي‬
‫‪ ‬نتايج متنوع و در زمينههاي مختلف‬
‫‪ ‬نياز به موتورهاي خاص منظوره و ّ‬
‫تخصص ي مثل شيمی و بيولوژی‬
‫‪ ‬اطالعات غلط و غيرعلمي‬
‫‪‬‬
‫‪4‬‬
‫ايجاد پايگاههاي ّ‬
‫تخصص ي وب و مرجع‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫علوم اسالمي در وب‬
‫‪ ‬همان مشکالت گفته شده‬
‫‪ ‬راه حلهاي گفته شده هنوز انجام نشدهاند‬
‫‪‬‬
‫‪‬‬
‫کم بودن پايگاههاي ّ‬
‫تخصص ي قرآني در وب‬
‫وجود نداشتن پايگاه مرجع قوي در پژوهشهاي قرآني‬
‫ديگر پروژه‬
‫‪ ‬کار‬
‫بردهاي ِ‬
‫ِ‬
‫‪‬‬
‫‪‬‬
‫‪5‬‬
‫جستجو در متون اسالمي‬
‫جستجو در يک اينترانت بر روي مستندات معتبر‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫کارهاي مرتبط‬
‫‪ ‬جستجوي عربي وب‬
‫‪‬‬
‫‪http://www.google.com/intl/ar‬‬
‫‪ ‬جستجو در متن قرآن و کتابهاي اسالمي‬
‫‪‬‬
‫‪‬‬
‫‪6‬‬
‫‪http://www.searchquran.org‬‬
‫ارتباط بين قرآن و متون اسالمي (‪)2006 /10‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫ساختمان يک موتور جستجو‬
URL Server
Store Server
Crawler
Crawler
Repository
URL Revolver
Indexer
Indexer
Lexicon
‫انديسگذار‬
Barrels
Links
Doc
Index
Searcher & Ranker
Sorter
Page Rank
‫زير سيستمهاي موتور جستجو‬
‫خزشگر‬
Anchors
‫جستجوگرو رتبهبند‬
Searcher
1385 ‫دی‬
‫موتور جستجوی قرآنی وب‬- ‫مجتبی محمدی نصیری‬
7
‫خزشگر)‪(Crawler‬‬
‫‪ ‬هدف‬
‫‪‬‬
‫جمعآوري و ذخيره مستندات وب‬
‫‪ ‬چالشها‬
‫‪‬‬
‫نياز به منابع شبکه زياد‬
‫تعيين اولويت پيمايش صفحات‬
‫آدرسهاي تکراري و پيموده شده‬
‫صفحات متقلب‬
‫‪‬‬
‫همزماني دسترس ي به منابع (در خزشگرهاي موازي)‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪8‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫انديسگذار)‪(Indexer‬‬
‫‪ ‬هدف‬
‫‪‬‬
‫ايجاد فهرستي از اطالعات الزم مستندات‬
‫براي جستجوي درست و سريع‬
‫‪ ‬مسائل‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪9‬‬
‫روش انديسگذاري ‪ :‬مستقيم يا معکوس‬
‫تعيين اطالعات الزم يک مستند‬
‫نحوه نگهداري انديسها (ساختار دادهي مناسب)‬
‫ً‬
‫تعيين کلمات بسيار متداول و يا اصطالحا کلمات توقف(‪)stop words‬‬
‫فشردهکردن انديسها‬
‫ريشهيابي کلمات (‪)stemming‬‬
‫بروزرساني يا افزايش ‪ :‬انديسگذاري دستهاي‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫جستجو و رتبهبند )‪(Searcher & Ranker‬‬
‫‪ ‬هدف‬
‫‪‬‬
‫ارائه نتايج جستجو‪،‬‬
‫به ترتيب اهميت و ميزان ارتباط با پرسجو‬
‫‪ ‬اطالعات رتبهبندي‬
‫‪‬‬
‫‪‬‬
‫اطالعات مربوط به متن صفحه‬
‫اطالعات مربوط به لينکهاي بين اين صفحه و صفحات ديگر‬
‫‪ ‬انواع رتبهبندي بر اساس لينکها‬
‫‪10‬‬
‫‪‬‬
‫شبکههاي اجتماعي(‪)Social Networks‬‬
‫‪‬‬
‫‪PageRank‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫جستجو و رتبهبند )‪ (Searcher & Ranker‬ادامه‪...‬‬
‫‪ ‬مسائل‬
‫‪‬‬
‫‪‬‬
‫جستجوي ترکيب منطقي از کلمات (و‪ ،‬يا‪ ،‬نفي‪)... ،‬‬
‫گسترش پرسجو‬
‫‪ ‬ريشهيابي کلمات پرسجو‪،‬‬
‫‪ ‬اضافه کردن کلمات مترادف يک کلمه‬
‫‪ ‬اضافه کردن کلماتي که از نظر امالئي نزديک به کلمه مورد نظر هستند؛ چون‬
‫ممکن است کاربر يا نويسنده مستند‪ ،‬در امالي کلمه اشتباه کرده باشد‪.‬‬
‫‪‬‬
‫‪11‬‬
‫ترجمه کردن کلمات به زبان مستندات‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫راهکارهاي انجام پروژه‬
‫‪ ‬خزشگر کانوني‬
‫(‪)Focus Crawler‬‬
‫‪ ‬فوق موتور جستجو‬
‫‪)Search Engine‬‬
‫( ‪Meta‬‬
‫‪ ‬انديسگذاري بر اساس رابطهي آيات‬
‫و مستندات‬
‫‪12‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫خزشگر کانوني(‪)Focus Crawler‬‬
‫‪ ‬تعريف ‪:‬‬
‫‪‬‬
‫‪‬‬
‫الگوريتم جستجوي بهترين اول(‪)Best First Search‬‬
‫جمعآوري مستندات مرتبط با يک زمينهي خاص‬
‫‪ ‬مزايا‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫حذف بسياري از صفحات وب قبل از جمعآوری‬
‫کنترل مرتبط با قرآن بودن نتايج از همين ابتدا‬
‫نياز کمتر به منابع شبکهاي‬
‫‪ ‬معايب‬
‫‪‬‬
‫‪13‬‬
‫پيچيدگي الگوريتمي و نياز به منابع پردازش ي‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫فوق موتور جستجو (‪)Meta Search Engine‬‬
‫‪‬‬
‫سه رويکرد‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫مزايا‬
‫‪‬‬
‫‪‬‬
‫پيادهسازي سادهتر‬
‫معايب‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪14‬‬
‫رتبهبندي دوباره‬
‫فيلترکردن نتايج‬
‫گسترش پرسجو‬
‫زمان پاسخگويي سيستم باال‬
‫نياز به منابع شبکهي زياد‬
‫عدم تضمين مربوط بودن نتايج به قرآن‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫انديسگذاري بر اساس رابطهي آيات و مستندات‬
‫‪ ‬دو مرحله‬
‫‪‬‬
‫‪‬‬
‫مدلکردن رابطههاي بين آيات‬
‫مدلکردن ارتباط مستندات و آيات‬
‫‪ ‬سه پيشنهاد‬
‫‪‬‬
‫استفاده از کلمات مشترک‬
‫استفاده از محل کلمات مشترک‬
‫‪‬‬
‫هستانشناس ي براي مفاهيم قرآن و ايجاد پايگاه دانش‬
‫‪‬‬
‫‪15‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫انديسگذاري بر اساس رابطهي آيات و مستندات (ادامه‪)...‬‬
‫‪ ‬مزايا‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫تضمين ارتباط مستندات بازيابي شده با قرآن‬
‫با اجرای پيشنهاد سوم امکان گسترش پروژه به حالت پرسجوهاي به زبانهاي ديگر‬
‫گسترش پروژه به بازيابی صفحات در مورد مفاهيم اسالمي و قرآني (با اجرای پيشنهاد‬
‫سوم)‬
‫‪ ‬معايب‬
‫‪‬‬
‫‪‬‬
‫‪16‬‬
‫مشکل بودن و هزينه و زمان بر بودن بخصوص ايجاد هستانشناس ي‬
‫نياز به تخصص بااليي درعلوم قرآني بخصوص در پيشنهاد سوم‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫نتيجهگيري‬
‫‪ ‬سه راهکار باال در تضاد با هم نيستند و با کمي تطبيق ميتوان در يک موتور‬
‫به کار روند‪.‬‬
‫‪ ‬با توجه به مزايا و معايب‬
‫‪ ‬راهکار سوم قابل اجرا در يک سال نيست‬
‫‪ ‬راهکار دوم نتايج مطلوب را ايجاد نمیکند‬
‫‪ ‬تمرکز ما در اين مرحله بر روي خزشگر کانوني است‬
‫‪17‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬
‫مراجع‬

Blaz N. A survey of focused web crawling algorithm.
SIKDD'04, 2004.

Brin S. and Page L. The Anatomy of a Large-Scale Hyper
textual Web Search Engine.1998(Extended in 2003).

Noordin, M.F. Othman, R. An Information Retrieval
System for Quranic Texts: A Proposed System Design.
ICTTA'06. 2nd Information and Communication
Technologies, 2006.

Pretschner A. Ontology Based Personalized Search. Master
's thesis, The University of Kansas, Lawrence, KS, 1999.
1385 ‫دی‬
‫موتور جستجوی قرآنی وب‬- ‫مجتبی محمدی نصیری‬
18
)...‫مراجع (ادامه‬

Ah Chung Tsoi. Forsali, D. Gori, M. Hagenbuchner, M. Scarselli F. A Simple Focused
Crawler. 2003.

Aljlayl, M. and Frieder, O. On Arabic Search: Improving the Retrieval Effectiveness via a
Light Stemming Approach, ACM Eleventh Conference on Information and Knowledge
Management, Mclean, VA, November, 2002.

Angkawattanawit N., Rungsawang A., Learnable Crawling: An Efficient Approach to
Topic-specific Web Resource Discovery. 2002.

Charu C. Aggarwal, Fatima Al-Garawi, and Philip S. Yu. Intelligent crawling on the World
Wide Web with arbitrary predicates. In Proceedings of the 10 th International World Wide
Web Conference, Hong Kong, May 2001.

Ehrig M. and Maedche A.. Ontology-focused crawling of Web documents. In Proc. of the
2003 ACM symposium on Applied computing, Melbourne, Florida, 2003.

Rachidi, T. Iraqi, O. Bouzoubaa, M. Khattab, A.B.E. Kourdi, M.E. Zahi,
A. Bensaid, A. Barq: distributed multilingual internet search engine with focus on Arabic
language. IEEE International Conference on Systems, Man and Cybernetics, 2003.
1385 ‫دی‬
‫موتور جستجوی قرآنی وب‬- ‫مجتبی محمدی نصیری‬
19
‫پايگاههاي مرجع‬

http://www.searchquran.org/

http://www.google.com/intl/ar/

http://scholar.google.com

http://www.searchengineguide.com/pages/Science/Biology
http://scitech.quickfound.net/biology_medical_news_search.html



http://chemfinder.cambridgesoft.com/
http://www.chemindustry.com/
1385 ‫دی‬
‫موتور جستجوی قرآنی وب‬- ‫مجتبی محمدی نصیری‬
20
‫با تشکر از توجه شما‬
‫‪21‬‬
‫مجتبی محمدی نصیری ‪-‬موتور جستجوی قرآنی وب‬
‫دی ‪1385‬‬