O wyszukiwarkach internetowych - Maciej Ruciński

Download Report

Transcript O wyszukiwarkach internetowych - Maciej Ruciński

Slide 1

Rodzaje, zasada działania oraz opisy
wybranych wyszukiwarek
internetowych


Slide 2

X
Menu główne
Wstęp
Zasada działania

Rodzaje
Opisy
Linki

INFO


Slide 3

X
Wstęp
Wyszukiwarka internetowa (ang. search engine)
to program lub strona internetowa, której zadaniem
jest ułatwienie użytkownikom Internetu znalezienie
informacji w sieci.

W znaczeniu ogólnym wyszukiwarka to oprogramowanie
gromadzące w sposób automatyczny informacje o
dokumentach tekstowych oraz plikach zgromadzonych
w sieci (obszarze wyznaczonym dla wyszukiwarki
do indeksowania).


Slide 4

X
Określenie Wyszukiwarka stosujemy do:
• stron internetowych serwisów wyszukujących - czyli
implementacji oprogramowania wyszukującego
działającego z interfejsem WWW ogólnodostępnym
dla internautów
• oprogramowania przeznaczonego do indeksowania i
wyszukiwania informacji w sieciach komputerowych:
internecie, intranecie.


Slide 5

X
Największym minusem wyszukiwarek są reklamy.
Wyszukiwarki stanowią wymarzony cel reklamodawców
ponieważ mają oni praktycznie pełną gwarancję, że osoba
wyszukująca dane hasło jest nim zainteresowana.
Tak więc większość wyszukiwarek oferuje reklamy
zależne od treści zapytań (np. AdWords oferowany
przez Google). Ze względu na szeroką krytykę procederu
nie oddzielania reklam od wyników, większość
wyszukiwarek z niego zrezygnowała i wyraźnie zaznacza
teraz reklamy.


Slide 6

X
Zasada działania
Oprogramowanie wyszukiwarek to zestaw programów
modułów, z których każdy ma oddzielne zadanie.
W skład zestawu wchodzą takie elementy jak:
• Crawler, Robot, Pająk, Spider, Bot - modułów
pobierających dokumenty z sieci
• Indeksera, programów analizujących i oceniających
• Searcher'a - interfejsu wyszukującego wyszukiwarki
odpowiadający na zapytania/analizator zapytań +
moduł prezentacji wyników


Slide 7

X
Mechanizm działania wyszukiwarki składa się z trzech faz:
1) Specjalny moduł odwiedza stronę i dzięki hiperlączom
wchodzi w kolejne. To co odnajdzie trafia do bazy
danych.
2) W bazie danych indeksowane są tylko te strony które
mają unikalne słowa podane w wyszukiwarce.
3) Z Indeksu wyniki trafiają do interfejsu gdzie dane
są prezentowane w sposób przystępny dla użytkownika.


Slide 8

X
Poza podstawowymi elementami wyszukiwarka posiada
narzędzia rozszerzające jej funkcjonalność:
• programy konwersji dokumentów

• programy archiwizujące repozytorium (Google używa
archwizera Z)
• programy analizy technik zabronionych (spam)
• moduły administracyjne


Slide 9

X
Rodzaje wyszukiwarek
Ze względu na typ wyszukiwania wyszukiwarki
internetowe można podzielić na trzy grupy :
• wyszukiwarki oparte na analizie treści strony
• wyszukiwarki oparte na analizie topologii sieci

• wyszukiwarki oparte na zasadzie aukcji miejsc


Slide 10

X
Wyszukiwarki oparte na analizie treści strony
Ponieważ Internet rośnie znacznie szybciej niż
jakakolwiek grupa ludzi może go katalogować, oraz
z powodu wad katalogów (np. pod danym hasłem może
znajdować się tysiące stron), powstały wyszukiwarki
które przeszukują Internet analizując zawartość stron.
Kiedy użytkownik poda wyszukiwarce zapytanie
ona odpowie mu łączami do stron, które uzna w
zależności od użytego algorytmu, za najbardziej
odpowiednie.


Slide 11

X

Wyszukiwarki oparte na tej zasadzie mogą objąć
znacznie większą część sieci niż katalogi. Niestety są
one bardzo podatne na nadużycia, przez co użytkownik
zamiast użytecznych informacji dostaje linki na strony
bardzo często nie mające nic wspólnego z jego
zapytaniem. Szczególnie wyspecjalizowały się w
tym strony pornograficzne.


Slide 12

X
Wyszukiwarki oparte na analizie topologii sieci
Żeby przeciwdziałać procederowi podszywania się pod
inną stronę wyszukiwarki zaczęły stosować analizę
topologii sieci. Tak więc stronę uważa się za
odpowiadającą zapytaniu „linux", jeśli wiele stron na
temat „linux" do niej linkuje. Tak więc na przykład
strona oferująca oprogramowanie pod linuksa nie
będzie brana pod uwagę niezależnie od treści. Natomiast
jeśli zada się zapytanie „linux software", strona ta
zostanie uznana za istotną, ponieważ linkuje na nią
wiele stron o tematyce „software".


Slide 13

X
Pierwszą wyszukiwarką, która zastosowała zaawansowane
algorytmy analizy topologii sieci było Google.
Wyszukiwarki oparte na analizie topologicznej są bardzo
odporne na nadużycia. Jedynym znanym atakiem, który
rzeczywiście zastosowano wobec nich, jest stworzenie
dużej ilości gęsto polinkowanych stron, z czego wszystkie
na ten sam temat. Jest to jednak zadanie trudne i
wymagające dużego nakładu pracy, a modyfikując
heurystykę wartości początkowych można znacznie
ograniczyć ten proceder, którego skala na razie jest
minimalna.


Slide 14

X
Wyszukiwarki oparte na zasadzie aukcji miejsc
Osobnym pomysłem jest system, gdzie strony płacą
wyszukiwarce kilka centów za każde kliknięcie, przy
czym miejsca są licytowane - strona która daje więcej
za kliknięcie znajdzie się wyżej na liście rezultatów.
Pozycje płatne są oznaczone jako takie, razem z ceną.
System ten jest korzystny dla właścicieli stron - płacą
oni tylko za wejścia nie za wyświetlenia.


Slide 15

X

Pomysłodawcy twierdzą, że jest on również korzystny
dla użytkownika, gdyż tylko strony, które oferują coś
użytecznego z danej dziedziny mogą sobie pozwolić na
taką reklamę. Z drugiej jednak strony wiele użytecznych
witryn jest niekomercyjnych, a nawet przy stronach
komercyjnych wyniki będą często nieoptymalne – na
przykład na taką reklamę nie mogą sobie pozwolić
strony, które mają niskie marże i oferują produkty po
niskich cenach, a jedynie te, które mają wysokie marże
i oferują produkty drożej.


Slide 16

X
Opisy wyszukiwarek
1) Google
2) AltaVista
3) MSN Search

4) Szukacz


Slide 17

X
Google
Wyszukiwarka internetowa, stworzona przez
Amerykańską firmę Google Inc. Jej celem jest
skatalogowanie wszystkich możliwych informacji
i udostępnienie ich za pomocą Internetu.
W chwili obecnej, Google ma możliwość przeszukiwania
stron internetowych, grup dyskusyjnych Usenet, zdjęć
i grafik, nowości z serwisów informacyjnych oraz kilku
innych, wymienionych dalej w tym artykule. Wedle
danych z lutego 2005 roku, Google indeksuje ponad
8.05 miliarda stron WWW, około 1.2 miliarda zdjęć
i grafik oraz 1 miliard wiadomości Usenet.


Slide 18

X

Nazwa wyszukiwarki jest grą słów i pochodzi od
matematycznego terminu googol. Nazwa miała też
odzwierciedlać zamierzenia firmy do objęcia indeksacją
jak największej liczby stron ze światowych zasobów
Internetu. Ponoć nazwa powstała poprzez przekręcenie
przez inwestora nazwy Googol, jak miała się nazywać
początkowo firma. Aby uniknąć komplikacji bankowych
założyciele zdecydowali pozostać przy tej nazwie.


Slide 19

X

Najważniejszą technologią Google, która została
opatentowana jest PageRank, czyli system
segregowania wyników na stronach wynikowych.
PageRank to matematyczny algorytm stworzony przez
twórców oprogramowania Google, na podstawie którego
obliczana jest ważność znalezionych stron dla każdego
zapytania. Poprzez prześledzenie wartości PageRank
wszystkich stron, które linkują do strony wynikowej
wyliczany jest PageRank dla znalezionej strony.


Slide 20

X
AltaVista
Wyszukiwarka internetowa opracowana w 1995 r. przez
dział badawczy Digital Equipment Corporation
bazująca na wprowadzonych w tamtym czasie szybkich
serwerach Alpha tej firmy.
Twórcy opracowali uprzednio nowatorską metodę
gromadzenia każdego wyrazu w szybkim, przeszukiwalnym
indeksie, co legło u podstaw zbudowania wyszukiwarki
sieciowej. W krótkim czasie przewyższyła ona
konkurencyjne Lycos i Excite, była też pierwszą
wielojęzyczną wyszukiwarką i obsługiwała języki oparte
na niełacińskich alfabetach.


Slide 21

X

Po zakupieniu firmy DEC przez Compaq’a AltaVista
sukcesywnie traciła na znaczeniu i ostatecznie
wyszukiwarka została wydzielona jako niezależna
kompania, którą w lutym 2003 wykupiła firma Overture
Services, W marcu 2004 Overture została z kolei
przejęta przez Yahoo.
Wyszukiwarkę obsługuje też specjalna wtyczka do
przeglądarki AltaVista Toolbar, dająca dostęp do
rozmaitych narzędzi wyszukiwawczych.


Slide 22

X
MSN Search
Wyszukiwarka internetowa firmy Microsoft wprowadzona
oficjalnie 1 lutego 2005 po dwóch latach prac
rozwojowych.
Jest to opracowany od podstaw projekt, dostępny
w 10 wersjach językowych, indeksujący w chwili
oficjalnej inauguracji co najmniej 5 miliardów stron i
wykorzystywane średnio przez co szóstego użytkownika
Internetu. MSN Search poza wyszukiwaniem witryn
oferuje szukanie plików graficznych i sekwencji wideo.


Slide 23

X
Szukacz
Polska wyszukiwarka internetowa - oparta w całości na
polskim, autorskim rozwiązaniu programowym.
Stworzona i uruchomiona za sprawą wydawnictwa
Prószyński i S-ka.
Cechy charakterystyczne :
• wykorzystywanie tezaurusa dla języka polskiego
• wykorzystywanie algorytmów rozpoznawania odmian
słów w języku polskim
• indeksowanie zamkniętych dla robotów zasobów na
podstawie odrębnych umów


Slide 24

X
Linki
www.google.pl - polska wersja wyszukiwarki google
www.netsprint.pl - największa polska wyszukiwarka
www.altavista.com - najlepsza przez długi czas
wyszukiwarka internetowa
www.gooru.pl - nowoczesna wyszukiwarka witryn z
kilkoma ciekawymi funkcjami – warto odwiedzić

www.searchengines.pl - strona poświęcona tematyce
p2p i wyszukiwarkom stron


Slide 25

X
INFO
AUTOR : Maciej Ruciński
KLASA : II LB 2005/2006

Źródła
http://pl.wikipedia.org