Transcript Document
به نام خدا
دانشکده فنی منتظری مشهد
1387.03.13
اطالع یابی در اینترنت
ظهور اینترنت و سپس رشد و گسترش روز افزون ( شبکه جهانی وب) فهرستها و
چالشهای نوینی را در فرایند اطالع یابی پدید آورد .امکان جستجو و دسترسی به
حجم زیادی از اطالعات از طریق اینترنت،فعالیت های آموزشی ،تحقیقاتی ،تجاری و
...را تحت تاثیر خود قرار داده است.مشکل اصلی فرایند اطالع یابی در اینترنت بازیابی
حجم کمی از اطالعات و منابع اطالعاتی نیست ،بلکه مشکل جدیدی تحت عنوان
(بازیابی بیش از حد اطالعات) پدید آمده است .در گذشته کاربران نیاز کمتری به
فراگیری مهارتهای جستجو داشتند و اغلب از متخصصان اطالع رسانی برای
دسترسی به اطالعات کمک می گرفتند ،اما امروزه باید بدون حضور یک واسط
انسانی و داشتن دانش کافی درباره اصول و مهارتهای جستجو و بازیابی اطالعات به
کاوش در اینترنت و فراگیری اصول و مهارتهای اطالع یابی برای جستجو گران مهم و
حیاتی شد.
اطالع یابی ،مجموعه مهارتهای مورد نیاز برای شناسایی،دسترسی و جستجوی
اطالعات است .
چرا باید در شبکه جهانی وب به جستجوی اطالعات پرداخت
.1منحصر بفرد بودن :برخی از منابع اطالعاتی در شبکه جهانی وب نمونه چاپی یا
الکترونیکی( بر روی دیسک فشرده یا شبکه های پیوسته )ندارد .پایگاه اطالعاتی
مقاالت تمام متن find articlesکه حاوی متن کامل هزاران مقاله است تنها از طریق
شبکه جهانی وب قابل دسترس است و نسخه چاپی یا الکترونیکی ندارد.
بسیاری از منابع مرجع مانند فرهنگها راهنماها و سرگذشتنامه ها منحصرا از طریق
محیط وب در دسترس قرار می دهند .
.2روز آمد بودن :یکی از ویژگیهای مهم شبکه جهانی وب نسبت به رسانه های
چاپی انعطاف پذیری بیشتر آن برای روز آمد سازی اطالعات در زمان کوتاهتر است.
امروزه اطالعات بسیاری از پایگاههای اطالعاتی در وب نظیر
(http://askeric.org/eric)ERIC,(www.ncbi,nlm.nih.gov/pubmed) MEDLINEو
پروانه های ثبت اختراع امریکا ( )www. Uspto.govهر هفته به روز می شو ند.
.3رایگان بودن :برخی از منابع اطالعاتی در شبکه وب رایگان هستند و همین
موضوع انگیزه ای قوی برای جستجوی اطالعات در این محیط به وجود آورده است.
مثال از طریق ) www.onelook.com( onelook dicionariesمیتوان به طور رایگان در
بیش از 800فرهنگ پیوسته رایگان (بیش از 8/4میلیون واژه)به جستجو پرداخت یا از
طریق سایت )www.nap.edu( national academic pressمتن کامل بیش از 2500
کتاب معتبر علمی و تخصصی را به طور پیوسته مطالعه کرد.
.4سهولت جستجو و بازیابی اطالعات :سهولت جستجو و باز یابی اطالعات از
طریق کلید واژه های مورد نظر را در کادر جستجو وارد کرد و فرایند بازیابی اطالعات را
در پیش گرفت.
در بسیاری از موارد جویندگان اطالعات ترجیح می دهند به جای مراجعه به کتابخانه
ها و مراکز اطالع رسانی از طریق کامپیوتر شخصی خود به جستجوی اطالعات مورد
نظر بپردازند زیرا جستجوی کلید واژه ای یا مرور صفحات وب بسیار آسانتر از شیوه
های سنتی دسترسی به اطالعات است .سهولت انجام جستجو (نه بازیابی
اطالعات مورد نظر )در محیط گرافیکی وب حتی بر رفتار اطالع یابی دانش آموزان نیز
تاثیر گذاشته است به طوری که بسیاری از دانش آموزان آمریکایی جستجوی کلید
واژه ای در وب را به جستجو در برگه دان کتابخانه ها ترجیح میدهند و عقیده دارند که
استفاده از این محیط برای انجام تکالیف درسی و تحقیق به مراتب آسانتر است .
.5دسترسی به اطالعات چند رسانه ای :یکی از مهمترین قابلیتهای شبکه
جهانی وب ،امکان جستجو و بازیابی حجم بسیار زیادی از اطالعات چند رسانه ای
شامل صوت،تصویر و ویدیو است.
سیر تحول تاریخی ابزارهای کاوش
شبکه جهانی اینترنت در اواخر دهه 1960پا به عرصه ظهور گذاشت ،اما تا سال
1990ابزارهایی برای کاوش اطالعات موجود در آن وجود نداشت .با مروری اجمالی بر
تاریخچه ابزارهای کاوش اینترنت میتوان دریافت که تقریبا کلیه پیشرفتها در این زمینه
توسط دانشجویان و طرحهای پژوهشی آنها صورت گرفته است.
در سال 1990اولین ابزار کاوش اینترنت توسط آالن اِمتیچ ( )Alan Emtageدر دانشگاه
MacGil Universityتحت عنوان Archieتوسعه یافت .این ابزار کاوش تنها میتوانست
فایلهای اینترنتی ،نه متن و اسناد موجود در اینترنت را بازیابی کند.
در سال 1993در دانشگاه نوادا برای بازیابی اسناد و متون در سرورهای گوفر نظامی
مشابه آرکی طراحی شد که ورونیکا نام داشت .در واقع ورونیکا برای اولین بار امکان
جستجو و باز یابی متن و اسناد ساده (بدون تصویر یا پیوندهای فرامتنی ) را در
اینترنت فراهم کرد .
آرکی و ورونیکا پدر و مادر تمام ابزارهای کاوش امروزی به شمار می آیند .بعدها دو
ابزار کاوش برای جستجوی اطالعات در محیط وب توسعه یافتند که عبارت بودند از
آلی وب و ورالد واید وب واندرر .ورالد واید وب واندرر که توسط ماتؤگری در دانشگاه
MITتوسعه یافت از روبات ها به تعبیر دیگر برنامه های کامپیوتری برای جستجو و
نمایه سازی صفحات وب استفاده می کرد .به این ترتیب اولین موتور کاوش پا به ظهور
گذاشت و پایگاه موتور کاوش تحت عنوان وندکس شکل گرفت .
در اوایل سال 1994دو دانشجوی دوره دکتری مهندسی برق دانشگاه استانفورد به
نامهای دیوید فیلو و جری یانگ فهرستی از سایتهای وب مورد عالقه و منتخب را تهیه
و در محیط وب ارائه کردند .سپس به منظور جستجو در پایگاه اطالعاتی گرد آوری
شده از سایتها ،نرم افزار کاوشی به آن افزودند و ان را !(www.yahoo.com) yahoo
! yahooافزایش یافت و
نام نهادند .پس از مدتی ،حجم اطالعات موجود در
روزانه هزاران نفر به آن مراجعه کردند.
در دسامبر (www.altavista.com) Alta vista 1995به عنوان یکی از شناخته شده
ترین موتور های کاوش ظهور پیدا کرد و به دلیل ویژگیها و نوآوریهایی که در آن پیش
بینی شده بود ،به سرعت به عنوان یکی از بهترین ابزارهای کاوش اینترنت مطرح
شد; به طوری که توانایی انجام روزانه میلیونها جستجو را بدون کاهش سرعت
بازیابی اطالعات به همراه داشت Alta vista .اولین موتور کاوشی بود که از زبان
طبیعی ( مانند جستجوی جمله آب و هوای تهران چطور است ؟) و عملگرهای بول
برای باز یابی اطالعات در محیط وب استفاده کرد .
در ماه می (www.hotbot.com) Hot Bot 1996به عنوان یکی دیگر از ابزارهای کاوش
مهم ابداع شد که روبات آن قادر بود روزانه حدود 10میلیون صفحه در محیط وب را در
پایگاه خود نمایه کند .در سال 1995اولین ابر موتور کاوش توسط اریک سلبرگ تحت
عنوان (www.metacrawler.com (Metacrawlerظهور پیدا کرد .این ابر موتور کاوش
می توانست در پایگاه شش موتور کاوش و راهنمای موضوعی به طور هم زمان به
جستجو بپردازد .
در اواخر سال 1997یکی از بزرگترین و مهمترین ابزارهای کاوش امروزی یعنی موتور
کاوش )www.google.com) Googleاز طریق طرح تحقیقاتی دانشگاه استانفورد
ظهور یافت .
Googleتالش کرد که در نظام رتبه بندی نتایج کاوش خود مبتنی بر میزان ارتباط آنها
با کلید واژه های جستجو،تحول اساسی به وجود آورد که از طریق استفاده از معیار
میزان استناد به یک سایت مشخص توسط سایت های دیگر صورت می گیرد.
ابزارهای کاوش اینترنت چیست؟
ابزارهای کاوش اینترنت پایگاههای اطالعاتی جستجو یا مرور هستند که با استفاده
از آنها میتوان به «بخشی » از اطالعات موجود در اینترنت دست یافت .این ابزارها
به دو شیوه کاربران را به سوی اطالعات مورد نظر راهنمایی می کنند:
جستجوی کلید واژه ها
مرور و انتخاب پیوندهای فرامتنی
کاربران را به سوی اطالعات مورد نظر ،هدایت می کنند .
ابزارهای کاوش اینترنت را میتوان به دو نوع اصلی تقسیم بندی کرد:
راهنمای موضوعی
موتورهای کاوش
.1راهنماهای موضوعی :
راهنمای موضوعی وب ،پایگاههایی هستند که اطالعات صفحات یا سایتهای وب
منتخب را توسط نیروی انسانی در پایگاه خود نمایه می کنند.
.2موتورهای کاوش :
موتورهای کاوش ،پایگاههای اطالعاتی قابل جستجویی هستند که از طریق برنامه
های کامپیوتری به شناسایی و نمایه سازی خودکار صفحات وب می پردازند .
موتورهای کاوش بر خالف راهنماهای موضوعی ،برنامه های خودکاری هستند
که هیچ گونه وابستگی به نیروی انسانی ندارند .به تعبیر دیگر ،فرایند
شناسایی،انتخاب و نمایه سازی اطالعات وب توسط برنامه های کامپیوتری انجام
می شود .
موتور جستجو چگونه کار می کند؟
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود،
كاربران در واقع نتیجه كار بخش های متفاوت موتور جستجوگر را می بینند .موتور
جستجوگر قبال" پایگاه داده اش را آماده كرده است و این گونه نیست كه درست در
همان لحظه جستجو ،تمام وب را بگردد .بسیاری از خود می پرسند كه چگونه ممکن
است گوگل در كمتر از یك ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در
نتایج جستجوی خود ارایه كند؟
گوگل و هیچ موتور جستجوگر دیگری توانایی انجام این كار را ندارند .همه آنها در زمان
پاسخ گویی به جستجوهای كاربران ،تنها در پایگاه داده ای كه در اختیار دارند به
جستجو می پردازند و نه در وب !موتور جستجوگر به كمك بخش های متفاوت خود،
اطالعات مورد نیاز را قبال "جمع آوری ،تجزیه و تحلیل می كند ،آنرا در پایگاه داده اش
ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می
گردد .بخش های مجزای یك موتور جستجوگر عبارتند از:
Spiderیا عنکبوت
Crawlerیا خزنده
Indexerیا بایگانی کننده
Databaseیا پایگاه داده
Rankerیا سیستم رتبه بندی
الف Spider-عنکبوت
اسپایدر یا روبوت) ، (Robotنرم افزاری است كه كار جمع آوری اطالعات مورد نیاز یك
موتور جستجوگر را بر عهده دارد .اسپایدر به صفحات مختلف سر می زند ،محتوای آنها
را می خواند ،لینکها را دنبال می کند ،اطالعات مورد نیاز را جمع آوری می كند و آنرا
در اختیار سایر بخش های موتور جستجوگر قرار می دهد .كار یك اسپایدر ،بسیار
شبیه كار كاربران وب است .همانطور كه كاربران ،صفحات مختلف را بازدید می كنند،
اسپایدر هم درست این كار را انجام می دهد با این تفاوت كه اسپایدر كدهای HTML
صفحات را می بیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را .
index.htmlصفحه ای است كه كاربران آنرا به صورت شكل ( )1می بینند :
شكل -1نمونه ای از صفحات وب كه توسط مرورگرها نشان داده می شود.
شكل -1نمونه ای از صفحات وب كه توسط مرورگرها نشان داده می شود.
اما یک اسپایدر آنرا چگونه می بیند؟
برای این كه شما هم بتوانید دنیای وب را از دیدگاه یك اسپایدر ببینید ،كافی است كه
كدهای HTMLصفحات را مشاهده کنید .برای این كار در مرورگر مورد استفاده خود،
مسیر نشان داده شده در شكل ( )2دنبال کنید .
با انجام این کار فایل متنی شكل ( )3به شما نشان داده می شود:
شكل -3كدهای HTMLسازنده یك صفحه وب
اسپایدر ،به هنگام مشاهده صفحات ،بر روی سرورها رد پا برجای می گذارد .شما اگر
اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام
شده در آن را داشته باشید ،می توانید مشخص كنید كه اسپایدر كدام یک از
موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است .یکی از فعالیتهای
اصلی که در SEMانجام می شود تحلیل آمار همین دید و بازدیدها است .
اسپایدرها كاربردهای دیگری نیز دارند ،به عنوان مثال عده ای از آنها به سایت های
مختلف مراجعه می كنند و فقط به بررسی فعال بودن لینك های آنها می پردازند و یا
به دنبال آدرس ایمیل ) (Emailمی گردند.
ب( - Crawlerخزنده )
كراولر ،نرم افزاری است كه به عنوان یك فرمانده برای اسپایدر عمل می كند .آن
مشخص می كند که اسپایدر كدام صفحات را مورد بازدید قرار دهد .در واقع کراولر
تصمیم می گیرد كه كدام یك از لینك های صفحه ای كه اسپایدر در حال حاضر در آن
قرار دارد ،دنبال شود .ممكن است همه آنها را دنبال كند ،بعضی ها را دنبال كند و یا
هیچ كدام را دنبال نكند.
کراولر ،ممكن است قبال" برنامه ریزی شده باشد که آدرس های خاصی را طبق
برنامه ،در اختیار اسپایدر قرار دهد تا از آنها دیدن کند .دنبال كردن لینك های یک
صفحه به این بستگی دارد كه موتور جستجوگر چه حجمی از اطالعات یک سایت را
می تواند (می خواهد) در پایگاه داده اش ذخیره كند .همچنین ممكن است اجازه
دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد .
شما به عنوان دارنده سایت ،همان طور كه دوست دارید موتورهای جستجوگر
اطالعات سایت شما را با خود ببرند ،می توانید آنها را از بعضی صفحات سایت تان دور
كنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید .موتور جستجو اگر
مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در
صورت وجود) در فایلی خاص بررسی می کند و از حقوق دسترسی خود اطالع می
یابد .تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط
پروتكل Robotsانجام می شود .به عمل کراولر ،خزش ) (Crawlingمی گویند .
ج( - Indexerبایگانی كننده )
تمام اطالعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد .در این
بخش اطالعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی
تقسیم می شوند .تجزیه و تحلیل بدین معنی است كه مشخص می شود اطالعات از
كدام صفحه ارسال شده است ،چه حجمی دارد ،كلمات موجود در آن كدامند ،کلمات
چندبار تكرار شده اند ،كلمات در كجای صفحه قرار دارند و... .
در حقیقت ایندکسر ،صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به
یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات
مختلف را با هم مقایسه کند .در زمان تجزیه و تحلیل اطالعات ،ایندکسر برای كاهش
حجم داده ها از بعضی كلمات كه بسیار رایج هستند صرفنظر می کند .كلماتی نظیر
is ، www ،the ،an ،aو . ...از این گونه كلمات هستند.
د( - DataBaseپایگاه داده )
تمام داده های تجزیه و تحلیل شده در ایندکسر ،به پایگاه داده ارسال می گردد .در
این بخش داده ها گروه بندی ،كدگذاری و ذخیره می شود .همچنین داده ها قبل از
آنكه ذخیره شوند ،طبق تکنیکهای خاصی فشرده می شوند تا حجم كمی از پایگاه
داده را اشغال كنند .یك موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به
طور مداوم حجم محتوای آنرا گسترش دهد و البته اطالعات قدیمی را هم به روز
رسانی نماید .بزرگی و به روز بودن پایگاه داده یك موتور جستجوگر برای آن امتیاز
محسوب می گردد .یكی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده
آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.
و( - Rankerسیستم رتبه بندی )
بعد از آنكه تمام مراحل قبل انجام شد ،موتور جستجوگر آماده پاسخ گویی به سواالت
كاربران است .كاربران چند كلمه را در جعبه جستجوی ) (Search Boxآن وارد می كنند
و سپس با فشردن Enterمنتظر پــاسخ می مانند .برای پاسخگویی به درخواست
کاربر ،ابتدا تمام صفحات موجود در پایگاه داده كه به موضوع جستجو شده ،مرتبط
هستند ،مشخص می شوند .پس از آن سیستم رتبه بندی وارد عمل شده ،آنها را از
بیشترین ارتباط تا كمترین ارتباط مرتب می كند و به عنوان نتایج جستجو به كاربر
نمایش می دهد.
حتی اگر موتور جستجوگر بهترین و كامل ترین پایگاه داده را داشته باشد اما نتواند
پاسخ های مرتبطی را ارایه كند ،یك موتور جستجوگر ضعیف خواهد بود .در حقیقت
سیستم رتبه بندی قلب تپنده یك موتور جستجوگر است و تفاوت اصلی موتورهای
جستجوگر در این بخش قرار دارد .سیستم رتبه بندی برای پاسخ گویی به سواالت
كاربران ،پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار
آنها قرار دارد .
حرفه ای های دنیای SEMبه طور خالصه از آن به ( Algoالگوریتم) یاد می كنند.
الگوریتم ،مجموعه ای از دستورالعمل ها است كه موتور جستجوگر با اعمال آنها بر
پارامترهای صفحات موجود در پایگاه داده اش ،تصمیم می گیرد که صفحات مرتبط را
چگونه در نتایج جستجو مرتب كند .در حال حاضر قدرتمندترین سیستم رتبه بندی را
گوگل در اختیار دارد.
می توان با ادغام کردن اسپایدر با کراولر و همچنین ایندکسر با پایگاه داده ،موتور
جستجوگر را شامل سه بخش زیر دانست که این گونه تقسیم بندی هم درست می
باشد:
کراولر
بایگانی
سیستم رتبه بندی
تذکر -برای سهولت در بیان مطالب بعدی هر گاه صحبت از بایگانی کردن (شدن) به
میان می آید ،مقصود این است که صفحه تجزیه و تحلیل شده و به پایگاه داده موتور
جستجوگر وارد می شود .
راهنمای موضوعی)Open Directory (www.dmoz.org
DMOZبه عنوان یکی از مهمترین و جامع ترین راهنماهای موضوعی وب در ژوئن 1998
تحت عنوان NewHooدر دسترس قرار گرفت .این ابزار کاوش توسط ویراستاران
داوطلب اداره میشود و آنها در سراسر دنیا وظیفه بررسی و وارد کردن سایتهای
معرفی شده را بر عهده دارند .طبق آمار ارائه شده توسط این سایت تا آبان ماه 1381
حدود 53هزار ویراستار داوطلب با سایت همکاری داشتند .توصیف ارائه شده برای هر
سایت از کیفیت و محتوای خوبی برخوردار است .بعالوه ،این راهنمای موضوعی هیچ
هدف تجاری و انتفاعی ندارد و همگان میتوانند با آن به عنوان ویراستار موضوعی
همکاری کنند یا سایتهای مرتبط و با کیفیت را به بخشهای موضوعی مختلف آن
معرفی نمایند .برخی از مهمترین ابزارهای کاوش نظیر HotBot ،Googleو lycosدر
بخش راهنمای موضوعی خود از پایگاه Open Directoryاستفاده میکند.
نقاط قوت:
بزرگترین راهنمای موضوعی که توسط انسان اداره میشود
غیر انتفاعی بودن و غیر تجاری بودن سایت
دارای ساختار سلسله مراتب موضوعی قوی و نسبتا جامع
سیاست نمایه سازی برای گنجاندن سایتهای با کیفیت و معتبر
دارای امکانات جستجوی مناسب نسبت به سایر راهنماهای موضوعی وب
امکان انجام جستجو در یک تقسیم موضوعی مشخص و خاص
امکان جستجو از طریق عملگرهای بول و ریاضی
نقاط ضعف:
در موارد معدودی ،کیفیت سایتهای نمایه شده ،یک دست و هماهنگ نیست
نسبت به موتورهای کاوش پایگاه اطالعاتی کوچکی دارد
عدم حساسیت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک
عدم امکان استفاده از عملگر نزدیک یابی
عدم امکان محدود کردن کاوش از طریق زبان و تاریخ
عدم امکان تعیین مدخل ها برای نمایش در هر صفحه
موتور کاوش )Http://search.msn.com(MSN Search
MSN Searchموتور کاوشی است که توسط شرکت مایکروسافت راه اندازی شد .این
موتور کاوش برای بازیابی اطالعات از پایگاه inktomو راهنمای موضوعی Look Smart
استفاده میکند در بخش جستجوی ساده آن ،امکانات محدودی قابل دسترس است.
اما در بخش جستجوی پیشرفته ،قابلیتهای نسبتا مناسبی پیشبینی شده است .بر
آورد دقیقی از حجم پایگاه اطالعاتی آن وجود ندارد .این موتور کاوش از لحاظ جلو گیری
از باز یابی سایتهای غیر اخالقی بسیار مطمئن است و به صورت خود کار از بازیابی
چنین سایتهایی جلوگیری میکند.
نقاط قوت:
امکان جستجو از طریق قابلیت Page Depth Limit
دارای برنامه غلط یاب خود کار کلمات انگلیسی
امکان رتبه بندی نتایج بر اساس تاریخ ،عنوان و عمق سایت
امکان جستجوی فرمت های مختلف فایل پیشرفته
نقاط ضعف:
عدم استفاده از عملگرهای بول در جستجوی ساده
بازیابی نتایج متفاوت از طریق عملگر به کارگیری عملگر کوتاه سازی
عدم امکان استفاده از عملگر نزدیک یابی
عدم امکان ترجمه سایتها به زبانهای مختلف
عدم امکان محدود کردن تاریخ انتشار صفحات وب
موتور کاوش )HotBot (www.hotbot.com
HotBotدر ماه می 1996ظهور پیدا کرد .این موتور کاوش دارای امکانات و قابلیتهای
جستجوی پیشرفته و مناسبی به ویژه در بخش جستجوی ساده است .در واقع،
بسیاری از قابلیتهای جستجوی ساده ،طراحی شده و در دسترس قرار گرفته است.
راهنمای موضوعی HotBotاز پایگاه Open Directoryاستفاده میکند .این موتور کاوش
از دو پایگاه lnktomiو Direct Hitبرای بازیابی نتایج اصلی بهره میگیرد .طبق اخرین
آمار مستند برآورده میشود که این موتور کاوش بیش از 500میلیون صفحه وب را در
پایگاه خود نمایه کرده است.
نقاط قوت:
امکانات جستجوی پیشرفته در بخش جستجوی ساده
امکان جستجو از طریق قابلیت ( Page Depth Limitکاوش مبتنی بر عمق صفحات
وب)
امکان جستجوی فرمت های مختلف فایل در بخشهای جستجوی ساده و پیشرفته
نمایش اطالعات به صورت مفصل و مختصر
امکان جستجوی نام یک شخص از طریق گزینه The Person
نقاط ضعف:
جستجوی صفحات پیوند داده شده Link Searchدقیق نیست.
دارای پایگاه اطالعاتی نسبتا کوچک مه به آهستگی رشد میکند
برخی از قابلیتهای کاوش در بخش جستجوی پیشرفته همیشه درست کار نمیکند
فاقد عملگر نزدیک یابی است
عدم امکان ترجمه سایتها به زبانهای مختلف
عدم امکان جستجوی کلید واژه ها در قالب پیوند فرامتنی
نداشتن برنامه غلط یاب خود کار برای تصحیح امالی کلمات انگلیسی
حساس نبودن نسبت به کلید واژه ها با حروف بزرگ و کوچک
عدم امکان حذف نتایج تکراری از سایتی واحد و برعکس ،دسترسی به سایتهای
مشابه
موتور کاوش)www. Alltheweb.com(fast search
Fast searchدر ماه می 1999در دسترس کاربران اینترنت قرار گرفت .این موتور
کاوش با عنوان All The Webهم شناخته میشوند و نشانی دسترسی آن نیز مشابه
این نام است) .(www.alltheweb.comاین موتور کاوش در اوایل مرداد ماه 1381
مدعی شد با 2.1میلیارد صفحه ،از بزرگترین ابزارهای کاوش اینترنت است.
قابلیتهای جستجوی اطالعات:
Fast searchامکان استفاده از عملگرهای بول (بجز ،) ANDجستجوی ترکیبی و کوتاه
سازی را ارائه نمیدهد و تنها میتوان از عملگرهای ریاضی +و – استفاده کرد .برای
اجرای عملگرهای بول باید از بخش جستجوی پیشرفته و فهرست انتخاب استفاده
کرد.
نقاط قوت:
یکی از بزرگترین پایگاههای اطالعاتی در میان ابزارهای کاوش
سرعت بازیابی باال
در میان ابزارهای کاوش ،بیشترین تعداد زبان( 49زبان) را پوشش میدهد.
امکان دسترسی به کلیه نتایج بازیابی شده
امکان بازیابی فایلهای PDFو FTP
امکان محدود کردن جستجو از طریق حجم صفحات وب براساس کیلو بایت
دارای بخشهای جستجوی جدا گانه برای بازیابی اطالعات چند رسانه ای شامل
صوت،تصویر و ویدئو
جستجو در نشانی پروتکل اینترنت) (IP Addressکه منحصر به فرد است.
نمایه سازی صفحات وب به صورت تمام متن
نقاط ضعف:
عدم امکان استفاده از عملگرهای بول ،کوتاه سازی و نزدیک یابی
محدود بودن امکانات جستجو در فیلدهای مختلف
عدم امکان ترجمه سایتهای بازیابی شده
نداشتن برنامه غلط یاب خود کار برای تصحیح امالی کلمات انگلیسی
حساس نبودن نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک
عدم امکان حذف نتایج تکراری از سایتی واحد و برعکس ،دسترسی به سایتهای
مشابه
راهنمای موضوعی !Yahoo
بدون شک ! Yahooشناخته شده ترین ،پر مراجعه ترین و عامه پسند ترین ابزار کاوش
اینترنت است .هرچند که امروزه با ظهور راهنماهای موضوعی بزرگتر و قدرتمند تری
نظیر DMOZکمی از محبوبیت آن به ویژه در میان محققان و کاوشگران حرفه ای
کاسته شده است Yahoo! .در اواخر سال 1994در دسترس قرار گرفت و ابتکار
طراحان آن در جهت شناسایی و تقسیم بندی موضوعی سایتهای اینترنت توسط
انسان باعث شد تا هم اینک روزانه دهها میلیون نفر در سراسر جهان به آن مراجع
کنند .طبق آخرین آمار ،حدود 1.8میلیون سایت در پایگاه این راهنمای موضوعی نمایه
شده است و بیش از 150ویراستار به کار شناسایی یا توصیف سایتهای اینترنت در آن
مشغول فعالیت هستند.
! Yahooیک ابزار کاوش کامال تجاری است .به طوری که سایتهای تجاری با پرداخت
حدود 300دالر میتوانند نسبت به ثبت سایت خود در آن اقدام کنند .پرداخت این هزینه
به معنای وارد شدن در پایگاه ! Yahooنیست ،بلکه این مبلغ به عنوان هزینه برسی
سایت دریافت میشود .تبلیغات و خدمات جانبی دیگر از پست الکترونیکی ،چت،
بازیهای کامپیوتری و موسیقی گرفته تا وضعیت آب و هوا ،ورزش و خرید فروش اجناس
و ...ماهیت اصلی ! Yahooرا به عنوان یک راهنمای موضوعی سایتهای وب در جهان
تا حدود زیادی تحت تاثیر قرار داده است Yahoo! .دارای امکانات جستجو و بازیابی
نسبتا ضعیفی است.
نقاط قوت:
شناخته شده ترین و پر مراجعه ترین ابزار کاوش اینترنت
دارای خدمات جانبی عامه پسند برای عموم مردم
نقاط ضعف:
عدم امکان استفاده از عملگرهای بول
عدم استفاده از پرانتز برای انجام جستجوهای پیچیده
عدم حساسیت به بازیابی کلید واژه ها با حروف بزرگ و کوچک
عدم امکان محدود کردن کاوش از طریق از طریق زبان
دارای پایگاه اطالعاتی کوچکی است
رویکرد کامال تجاری نسبت به برسی و گنجاندن سایتها در پایگاه خود
موتور کاوش Google
موتور کاوش Googleیکی از جدید ترین ابزارهای کاوش وب است که در سپتامبر
1999در دسترس عموم قرار گرفت .با اینکه Googleبه تور نسبی بسیار زود به
عرصه رقابت ابزارهای کاوش اینترنت گام نهاد ،ولی به سرعت در میان مردم شناخته
شد .این موتور کاوش ،مبتکر نظامی منحصر به فرد یعنی تجزیه و تحلیل پیوندهای فرا
متنی برای رتبه بندی نتایج کاوش است که تحت عنوان Link Popularityاز آن نام برده
میشود .ذخیره تصویر از صفحات یا سایتهای نمایه شده در پایگاه Googleتحت عنوان
cachedبا کاربران امکان میدهد که صفحات یا سایتهای وب را در همان زمانی که
توسط روبات آن شناسایی و نمایه شده اند ،مشاهده کنند Google .اخیرا در رقابتی
فشرده با موتور کاوش ، Fast Searchتوانست عنوان بزرگترین موتور کاوش منفرد در
محیط وب را به خود اختصاص دهد .به دلیل واسط جستجوی ساده و بدون گرافیک و
نیز استفاده از برنامه بازیابی اطالعات مناسب ،این موتور کاوش از سرعت بازیابی
باالیی برخوردار است.
حجم پایگاه اطالعاتی:
Googleبزرگترین و جامع ترین پایگاه اطالعاتی را میان ابزارهای کاوش منفرد در اختیار
دارد ،به طوری که مدعی است تا اواخر آبان ماه 1381بیش از سه میلیارد صفحه
وب را در پایگاه خود نمایه کرده است.رشد حجم پایگاه اطالعات Googleبسیار سریع
بوده است به طوری که در مدت زمانی کوتاه به عنوان بزرگترین موتور کاوش وب مطرح
شد.
قابلیتهای جستجوی اطالعات :
Googleاز قابلیتهای جستجوی نسبتا ضعیف و محدودی برخوردار است که در واقع
جامعیت پایگاه اطالعاتی آن را تحت شعاع قرار داده است .این موتور کاوش ،فقط
عملگر ORرا قبول میکند و استفاده از دیگر عملگرها شامل AND,NOTپرانتز ،کوتاه
سازی ،نزدیکی یابی به صورت درج عملگرها میان کلید واژه ها در آن امکان پذیر
نیست .امکان استفاده از عملگرهای ریاضی +و – در Googleوجود دارد ،ولی با
وجود این نمیتوان از طریق پرانتز ،جستجوی ترکیبی انجام داد .این موتور کاوش امکان
جستجوی انواع مختلفی از فایلهای نظیر PDFو Microsoft Officeرا ارائه می دهد که
تقریبا در میان موتورهای کاوش ،منحصر به فرد است .راهنمای موضوعی Googleاز
پایگاه Open Directoryاستفاده میکند.
در اوایل اردیبهشت ماه 1381این موتورهای کاوش ،واسط جستجوی فارسی خود را
در دسترس قرار داد که از طریق گزینه Language Toolsیا آدرس
WWW.Google.com/faمیتوان آن را فعال کرد Google .جز زبان فارسی ،امکان تغییر
واسط جستجوی انگلیسی به 80زبان دیگر را ارئه میکند و تحول بزرگی در طراحی
ابزارهای کاوش چند زبان محسوب میشود.
نقاط قوت:
بزرگترین ابزار کاوش منفرد از لحاظ حجم پایگاه اطالعاتی
معیار رتبه بندی سایتها بر اساس تعداد صفحات پیوند داده شده
امکان مشاهده سایتهای بازیابی شده در زمان نمایه شدن
امکان جستجوی مختلف فایل بویژه فایلهای Microsoft office
امکان ترجمه صفحات وب به 12زبان مختلف
دارای برنامه غلط یاب خود کار برای تصحیح امالء کلمات انگلیسی
امکان تغییر واسط جستجو به 81زبان مختلف از جمله فارسی
دارای واسط جستجوی ساده و بدون تبلیغات
سرعت باالی بازیابی اطالعات
قابلیت جستجوی تصویر و اخبار جهان
امکان دسترسی به صفحات مشابه از طریق گزینه Similar Pages
نقاط ضعف:
امکانات نسبتا محدود برای جستجوهای پیشرفته از طریق عملگرهای بول
عدم امکان جستجو از طریق عملگر نزدیک یابی
تنها نیمی از صفحات وب در پایگاه اطالعاتی آن به صورت تمام متن نمایه شده اند .
پیش گزیده کاوش:
Googleبه طور خودکار ،عملگر ANDرا میان کلید واژه های جستجو اجرا میکند
عملگرهای بول و ریاضی:
Googleبه طور خودکار ،کلید واژه ها را از طریق عملگر ANDترکیب میکند .به عبارت
دیگر ،نباید عملگر ANDرا به کار برد .عملگر ORرا باید با حروف بزرگ به کار برد .برای
اجرای عملگر NOTباید از عالمت منفی ( )-استفاده کرد .از عملگر ریاضی مثبت()+
میتوان به جای ANDاستفاده کرد.
جستجوی عبارتی و نزدیک یابی:
Googleجستجوی عبارتی را از طریق قرار دادن عبارت یا کلید واژه های جستجو میان
عالمت گیومه (" ") مورد حمایت قرار میدهد .اما نمیتوان از عملگر نزدیک یابی
استفاده کرد.
کوتاه سازی:
Googleهیچ شکل از عملگرهای کوتاه سازی ،حتی ریشه اصلی کلمات را پوشش
نمیدهد.
حساسیت نسبت به جستجوی کلید واژه ها با حروف بزرگ :
این موتورهای کاوش نسبت به بازیابی کلید واژه ها با حروف بزرگ یا کوچک ،حساس
نیست.
فیلد های قابل جستجو:
فیلدهایی که از طریق آنها میتوان به جستجوی اطالعات در
از:
intitle:
بازیابی عبارت یا کلید واژه در عنوان سایت
intitle:Iranian Newspaper
مانند:
بازیابی کلید واژه در نشانی دسترسی صفحات وب
inurl:amirkabir
مانند:
بازیابی صفحات وب پیوند داده شده به یک سایت مشخص
link:www.mashhadmit.ir
مانند:
جستجوی کلید واژه ها در یک سایت شخصی مشخص
site:www.cnn.com
مانند:
related:
بازیابی صفحات مشابه از یک سایت خاص
related:www.unesco.org
مانند:
بازیابی داده ها در قالب پیوند فرامتنی allinanchor:
مانند:
allinanchor:free journals
Googleپرداخت ،عبارتند
inurl:
link:
site:
محدود کننده ها (زبان و تاریخ)
Googleامکان محدود کردن فرایند جستجوی اطالعات را از طریق 35زبان مختلف ارائه
میدهد .عالوه بر این ،امکان محدود کردن تاریخ انتشار صفحات از طریق فهرست
انتخاب از سه ماه تا یک سال پیش بینی شده است .در این میان ،قابلیتی به منظور
محدود کردن تاریخ انتشار منابع میان دو طیف زمانی مشخص پیش بینی نشده است.
شیوه رتبه بندی و مرتب سازی:
Googleاز طریق تجزیه و تحلیل پیوندهای گنجانده در سایتهای مهم به رتبه بندی
اطالعات بازیابی شده می پردازد.
این قابلیت که link popularityنام دارد ،مبتنی بر تعداد پیوندهای فرامتنی یا به
تعبیری دیگر ،استناد ها به صفحه هات یا سایتهای وب است .به این ترتیب اگر به یک
سایت ،تعداد بیشتری از صفحات یا سایتهای وب استناد کرده باشند ،احتماال از
اهمیت بیشتری برخوردار خواهد بود و در رتبه بندی نتایج کاوش رتبه باالتری را بدست
می آورد.
نمایش اطالعات:
Googleعنوان ،نشانی دسترسی ،حجم فایل ،مدت زمان کاوش و همچنین تعداد
نتایج بازیابی شده را نشان میدهد.
این موتور کاوش به صورت پیش گزیده 10مدخل را در هر صفحه نمایش میدهد اما
امکان نمایش 20تا 100مدخل ابتدایی بازیابی شده را مشاهده کرد .امکان جلو گیری
از بازیابی صفحات یا سایت های نا مناسب و غیر اخالقی در جستجوی پیشرفته از
طریق گزینه safe searchوجود دارد .
عناصر صفحات نتايج گوگل
A.جستجو پیشرفته
شما را به صفحه اى كه شما را به محدود كردن جستجو قادر میسازد لینك میكند .
B.مشخصات و مزيتها)(Preferences
لینكها به صفحه اى كه شما را قادر میسازد تا مشخصات و مزيتهاى جستجو
)(preferencesرا مرتب كنید ،شامل تعداد نمايش نتايج در هر صفحه ،زبان اينترفیس،
و استفاده از فیلتر جستجو مطمئن است. C.Language Tools
Tools for setting language preferences for pages to be searched, interface
language and translation of results. D.راهنمائی هاى جستجو
شما را به اطالعاتى كه به شما كمك میكند تا جستجوى خود را مثر تر سازيد لینك
میكند .اين موضوع به شما میگويد كه گوگل چه تفوتها و خصوصیاتى نسبت به
ماشینهاى جستجوگر ديگرى دارد. E.زﻣﻳﻨﻪ جستجو
براى وارد كردن پرس و جويى در گوگل ،كافیست تا كلمات كلیدى تشريحى خود را
تايپ كرده ،سپس بر روى كلید جستجو كلید كرده يا كلید enterرا بزنید. F.دكمه
جستجوى گوگل
كلیك بر روى اين كلید به اين منظور است كه جستجوى ديگرى را انجام میدهید .
همچنین شما میتوانید تا پرس و جوى ديگرى را با زدن كلید enterتايید كنید.G.Tabs
Click the tab for the kind of search you want to conduct. Choose from a full
web search, images only, Google Groups (Usenet discussion archive) or the
Google Directory (the web organized into browsable categories).
H.مانع آمارى
اين خط جستجوى شما را توصیف میكند و همچنین تعداد نتايج برگردانده را نشان
میدهد.I.دسته بنديها
اگر اصطالحات جستجوى شما همچنین در دايركتورى وب به چشم میخورند ،اين
دسته بنديهاى پیشنهاد شده ممكن است كه به شما در پیدا كردن اطالعات بیشتر در
رابطه با پرس و جوى خود كمك كند .بر روى آنها كلیك كنید تا لینكهاى ديگرى را پیدا
كنید.J.عنوان صفحه
اولین خطى كه به عنوان نتیجه نشان داده میشود ،عنوان صفحه پیدا شده است .
بعضى وقتها بجاى عنوانURL ( ،آدرس) نشان داده میشود ،كه اين به معنى است كه
صفحه پیدا شده عنوانى ندارد ،يا گوگل تمام محتويات صفحه را به طور كامل فهرست
نكرده است.K.متن زير عنوان
اين متن منتخبى از صفحه نتیجه برگردانده شده از موضوع پرس و جو شما است .اين
موضوعات برگزيده شه و انتخاب شده به شما اين امكان را میدهد تا زمینه اى از
موضوعات كه در صفحه هستند قبل از اينكه برروى آن كلیك كنید ببینید.L.توضیحات
اگر پرس و جوى جستجو شما در دايركتورى وب فهرست شده بود ،توضیحات مولف نیز
نشان داده میشود.M.دسته بندى
اگر سايتى توسط پرس و جو جستجو ى شما كه در دايركتوى وب فهرست شده بود
پیدا شد ،دسته بندى آن نیز در زير آن مشخص میشود . N.URLنتیجه
اين آدرس نتیجه يافته شده می باَشد.O.اندازه
اين شماره انداز بخش متن صفحه پیدا شده است .اين براى سايتهايي كه هنوز
ضمیمه نشده اند موجود نمیباشد. P.ذﺨﻴﺭ شده
كلیك برروى لینك cacheشده شما را قادر میسازد تا محتويات صفحه را به عنوان
وقتى كه ما آنرا ضمیمه كرده ايم ببینید .اگر به هر دلیلى ،لینك نتیجه اصلى شما را
به صفحه كنونى نبرد ،شما میتوانید آن صفحه را از cacheما بازيافت كنید تا اطالعاتى
كه میخواهید را بیباايد .در نسخه cacheشده ،موضوع جستجوى شما برجسته
است.Q.صفحات مشابه
وقتى شما لینك صفحات مشابه را كلیك میكنید ،گوگل به طور خودكار صفحات
مشابهى را كه در اينترنت موجودند و عمل جستجوى آنها همین نتیجه را بدست
میاورند را كشف میكند. R.نتیجه برجسته
وقتى كه گوگل چند نتیجه را از يك وب سايت پیدا میكند ،بیشترين نتیجه اى كه در
اول قرار میگیرد مناسبترين نتیجه نسبت به موضوع شما است. S.More Results
If there are more than two results from the same site, the remaining results
can be accessed by clicking on "More results from..." link.
:موتورهای جستجو
داراي قابلیت جستجوي فارسيhttp://uk.altavista.com |
داراي قابلیت جستجوي فارسيhttp://www.yahoo.com |
داراي قابلیت جستجوي فارسيhttp://www.google.com |
داراي قابلیت جستجوي فارسيhttp://www.search.com |
داراي قابلیت جستجوي فارسيhttp://www.metacrawler.com |
داراي قابلیت جستجوي فارسيAolsearch |
http://www.ask.com
http://www.lycos.com
www.entireweb.com
http://www.exactseek.com
http://www.gigablast.com
http://www.goclick.com
http://www.hotbot.com
http://www.inktomi.com
search.jayde.com
http://www.looksmart.com
http://www.nationaldirectory.com
search.netscape.com
http://www.dogpile.co.uk
http://www.northernlight.com
http://www.mirago.co.uk
http://www.turbo10.com
http://www.webcrawler.com
http://infoseek.go.com
http://www.about.com
http://www.mama.com
http://www.excite.com
http://search.msn.com