Transcript (*) Plik
Slide 1
Skuteczne
przeszukiwanie
internetu
Slide 2
Katalogi tematyczne
• redagowane są przez ludzi
• zawierają wyselekcjonowane treści
• podzielone są na kategorie tematyczne
• prowadzone są przez duże portale
Slide 3
Katalogi tematyczne
Slide 4
Katalogi tematyczne
Slide 5
Pierwsza wyszukiwarka
•
Pierwowzorem wyszukiwarek był program
stworzony na Uniwersytecie w Colorado przez
Oliviera McBriana w 1994 r. zwany Robakiem
WWW (ang. Worm WWW).
•
Program ten przeszukiwał i skanował dostępne
wówczas zasoby sieci, a następnie indeksował je
w bazie danych
•
Metodę opracowaną przez McBriana z wieloma
modyfikacjami stosuje się w wyszukiwarkach
do dnia dzisiejszego
Slide 6
Elementy wyszukiwarki
•
Robot (pająk, spider) – program, który
przeszukuje sieć internetową, zbiera informacje o
znalezionych stronach, indeksowane zawarte na
nich treści
•
Indekser – generuje bazę stron WWW, tworzy
spis słów kluczowych charakteryzujących
znalezione strony
•
Index – to posortowana lista wszystkich
unikalnych słów, wraz z odnośnikami do adresów
dokumentów w których wystapiły
Slide 7
Reguły pracy robota
• praca metodą wędrówki po odsyłaczach
• filtrowanie treści stron
• unikanie dokumentów generowanych
•
•
•
dynamicznie
nie wolno mu blokować serwerów bezustannymi
zapytaniami
dokonywanie wyborów jakimi odsyłaczami
podążać
honorowanie zakazów dostępu do pewnych
zasobów (zapisanych w pliku „robots.txt”)
Slide 8
Wady wyszukiwarek
• trudność w skonstruowaniu adekwatnego
zapytania, współcześnie wyszukiwarka
automatycznie rozważa pewne modyfikacje
frazy wpisanej przez użytkownika
• brak oceny merytorycznej zwracanych zasobów
(wyszukiwarki są automatami)
• podatność na sztuczne zawyżanie pozycji
rankingowej wybranej strony, czergo
przykłądem są tzw. farmy treści
Slide 9
Niewidzialna sieć
(ang. Hidden Web, Deep Web)
Niewidzialna sieć to ogólnie strony internetowe
wyłączone z procesu indeksacji (np. ze względów
prawnych lub z powodu zablokowania dostępu
do nich)
Roboty nie mają do nich dostępu, żadna
z wyszukiwarek nie indeksuje tekiej strony
Szacuje się, że niewidzialna sieć jest nawet trzy razy
większa aniżeli ogół stron zaindeksowanych przez
wyszukiwarki
Slide 10
Niewidzialna sieć
(ang. Hidden Web)
Przeszukiwanie ukrytego
internetu wymaga
specjalnych strategii
wyszukiwawczych
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.htmlhtt
p://www.lib.lsu.edu/instruction/deepweb/deepweb-print.html
Slide 11
Niewidzialna sieć
(ang. Hidden Web)
Sposób na ukryty internet
to:
wyszukiwarki specjalne:
www.pkn.pl
katalogi prasowe
www.witryna.czasopism.pl
bazy informacji branżowej
www.pf.pl
Slide 12
Serwisy Subject Gateways
To dziedzinowe przewodniki po zasobach internetowych uporządkowane
według kategorii.
Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez
bibliotekarzy lub ekspertów z danej dziedziny
Zobacz wykaz na stronie:
http://ebib.oss.wroc.pl/2004/57/wykaz.php
Slide 13
DIRECT SEARCH
To serwis autorstwa Gary’ego Price’a — bibliotekarza amerykańskiego
zajmującego się porządkowaniem informacji w internecie,
wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu
Direct Search to stale rosnący zbiór odsyłaczy do serwisów i narzędzi
wyszukiwawczych, ułatwiających dostęp do zasobów „ukrytych”
Na stronie dostępny jest interface wyszukiwawczy oraz ogromny zbiór
zasobów elektronicznych
http://www.abc-directory.com/site/942710
Slide 14
Wyszukiwarki naukowe
Oparta o zasoby biblioteki wirtualnej:
http://infomine.ucr.edu
Wyszukiwarka zasobów naukowych, także płatnych
http://ww.scirus.com
Wyszukiwarka zasobów naukowych, oparta na
mechanizmach i interface Google
http://scholar.google.com
Slide 15
Katalogi naukowe
Academic Info
http://www.academicinfo.net
SciCentral
http://www.scicentral.com
BUBL Information Service
http://bubl.ac.uk
Slide 16
Wyszukiwarka
schemat działania
Slide 17
Multiwyszukiwarki
Powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż 30 40% stron w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko
częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy
dają odmienne rezultaty nawet dla tej samej bazy danych
To serwisy internetowe lub instalowane na dysku programy, które przekazują
zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie
wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej
spójnej listy
Nie dysponują one własnymi indeksami
W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria
wyszukiwania
Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych
opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych
wyszukiwarkach
Slide 18
Typu multiwyszukiwarek
• serwisy
typu „lista” – są to strony, na których zgromadzone zostały
odnośniki do wybranych, standardowych wyszukiwarek, użytkownik
może dokonywać poszukiwań przy jednoczesnym wykorzystywaniu wielu
serwisów, pełnią rolę puntów informacyjnych o nowych, bądź mało
znanych wyszukiwarkach i katalogach
• serwisy
poszukujące pojedyńczo – oferują przeważnie jedno pole
do wpisania zapytania, a użytkownik ma możliwość wyboru narzędzi,
które zostaną kolejno pojedynczo odpytane, uzyskane wyniki zwykle
wyświetlane są przy zachowaniu podziału na poszczególne narzędzia
• serwisy
poszukujące równolegle – łączą się jednocześnie z wieloma
(wybranymi przez użytkownika) narzędziami
Slide 19
Kryteria w rankingu
wyszukiwarki
•
•
•
tytuł strony: czy dane słowo kluczowe występuje w tytule
•
gęstość: jak wiele razy dane słowo kluczowe powtarza się
na stronie (liczba słów kluczowych w stosunku
do zawartości tekstu na stronie nazywamy gęstością słowa
kluczowego)
•
metainformacja: większość wyszukiwarek bierze pod
uwagę teksty zapisane w meta znacznikach
•
odsyłacze na stronie: silnik sprawdza do ilu i jakich stron
prowadzą linki zawarte na stronie (strony, do których
prowadzi więcej odsyłaczy ze świata są wyżej w rankingu)
adres: czy dane słowo kluczowe występuje w adresie
styl: czy dane słowo kluczowe występuje jako tekst
nagłówka, pogrubiony, ukośny (wyróżniony)
Slide 20
Metainformacja
znaczniki META w nagłówku stronu
— zadaniem tego elementu jest
instruowanie wyszukiwarek, jak mają indeksować stronę, przy pomocy kilku
parametrów można określić, gdzie chcemy wpuścić robota i co może on
indeksować:
•NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki;
•INDEX – pozwala robotom indeksować dokument;
•NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki
z indeksowanej strony;
•FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze
przez odsyłacze z danej strony;
•NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być
indeksowany);
— pozwala na umieszczenie krótkiego
opisu merytorycznego dotyczącego zawartości strony, opis ten jest wyświetlany przy adresie
strony w rankingu wyszukanych stron, powinien krótko informować użytkowników o treści
witryny
Slide 21
Metawyszukiwarki
Slide 22
Metawyszukiwarki
Slide 23
Metawyszukiwarki
Slide 24
Metawyszukiwarki
Slide 25
www.altavista.com.pl
Jedna z największych wyszukiwarek globalnych. Umożliwia nie
tylko wyszukiwanie stron tekstowych, ale również zdjęć, nazwisk,
plików muzycznych, nagrań wideo, bieżących wiadomości itp.
Wprowadzone słowa są domyślnie łączone spójnikiem logicznym
LUB (OR)
Slide 26
szukaj.onet.pl
Bazuje na dwóch wyszukiwarkach — doprzeszukiwania polskich zasobów
Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma
zaindeksowanych 8 mln stron polskich, a do wyszukiwania informacji w
zasobach światowych używa wyszukiwarki AltaVista, która ma również w bazie
zasoby polskich stron około 2,5 mln.
Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW,
zasobów polskich i światowych, ale również encyklopedii, baz danych
dostępnych na portalu oraz plików w wielu formatach.
Slide 27
Przykłady innych wyszukiwarek:
Anglojęzyczne wyszukiwarki naukowe:
Wyszukiwarki plików:
http://science.first-search.com
http://plikoskop.internauci.pl
http://www.scirus.comwww.search4science.com
http://pliki.onet.pl
Polskojęzyczneczne serwisy naukowe
Wyszukiwarki plików programów:
http://science.eu.org
http://icm.tucows.comhttp://download.chip
.pl
http://www.wiw.pl
Slide 28
Lider wśród wyszukiwarek
Google
Slide 29
Google
29
Slide 30
Arytmetyka wyszukiwania
na przykładzie Google
jeśli podamy wyszukiwarce szereg słów, wyszuka ona
dokumenty zawierające którekolwiek z nich
wielkość liter nie odgrywa roli
Google ignoruje występujące w zapytaniu pojedyncze litery lub
cyfry
zapytanie może zawierać wyłącznie litery i cyfry (wyjątek
stanowią tzw. znaki specjalne)
z zapytania automatycznie eliminowane „słowa nieznaczące”
tj. występujące w danym języku tak często, że można je znaleźć
praktycznie, w każdym dokumencie (np. do, i , jak, już)
Slide 31
Znaki specjalne
Znak
Działanie
Umożliwia poszukiwanie kompletnych
cudzysłów („”) fraz, czyli słów występujących
bezpośrednio po sobie
Przykład
"jan sobieski"
szukanie informacji o Janie
Sobieskim, ale już nie
o Janie III Sobieskim
minus (–)
Jeżeli występuje przed słowem
kluczowym powoduje wyświetlenie
stron, które go nie zawierają
sobieski –jan
Szukanie stron dotyczących
osób o nazwisku Sobieski
z pominięciem Janów
minus(–)
ukośnik (/)
kropka (.)
równość (=)
apostrof (')
Jeżeli występuje miedzy słowami
oznacza frazę, czyli działa analogicznie
do zastosowania cudzysłowu
jan–sobieski
Równoznaczne
z "jan sobieski"
plus (+)
Wymuszenie uwzględnienia słowa
w zapytaniu (na przykład przed słowem
jednoznakowym)
"grupa krwi" +a
Szukanie stron na temat grupy
krwi A
Slide 32
Operatory logiczne
- operator OR (lub) – w odpowiedzi zostaną
uwzględnione dokumenty zawierające
przynajmniej jedno ze słów nim rozdzielonych
np. laptop (dell or asus)
- nawiasy – grupowanie wszelkiego rodzaju
warunków wyszukiwania
- maksymalna liczba słów w zapytaniu wynosi 10
- * (gwiazdka) – zastępowanie całych słów
np. stół z * nogami
Slide 33
Składniki odpowiedzi
1. Tytuł dokumentu
2. Kontekst
3. Opis wprowadzony przez redaktora i nazwa kategorii
(w przypadku Katalogu)
4. Adres
5. Rozmiar strony
6. Kopia
7. Odsyłacze
8. Podpowiedzi Google…
Slide 34
Otwieranie odnalezionej strony
w nowym oknie
Slide 35
Specjalne dyrektywy
wyszukiwania w Google
Zapytanie może zawierać jedną lub kilka
specjalnych dyrektyw, umożliwiających
nakładanie dodatkowych warunków
dotyczących poszukiwanych informacji oraz
uzyskanie dodatkowych informacji
o stronach przechowywanych w bazie
danych wyszukiwarki.
Slide 36
Specjalne dyrektywy
wyszukiwania w Google
w tytule strony intitle:
wszystkie słowa w tytule allintitle:
tylko w tekście strony intext: lub allintext:
w nazwach odsyłaczy inanchor:
w adresach inurl: lub allinurl:
w konkretnym serwisie site:
w określonych typach plików filetype:
wykluczenie określonego typu pliku -filetype:
Slide 37
Specjalne dyrektywy
wyszukiwania w Google
Slide 38
Szukanie zaawansowane
38
Slide 39
Wyszukiwanie obrazów
Podczas wyszukiwania możesz określić:
• żądany rozmiar w pikselach,
• format pliku (GIF lub JPEG),
• kolor,
• lokalizacja (domena),
• można także wykorzystywać dyrektywy:
intitle:, filetype:, inurl:, site:
39
Slide 40
Wyszukiwanie graficzne
images.google.pl
Google wprowadził też wyszukiwanie niejako odwrotne —
masz grafikę, dowiedz się, co wie o niej sieć
• Sposób 1
przeciągnij posiadany plik na pole wyszukiwania w serwisie
• Sposób 2
kliknij ikonkę aparatu i „Prześlij obraz”
• Sposób 3
kliknij ikonkę aparatu i „Wklej adres URL obrazu”
Slide 41
Wyszukiwanie graficzne
Slide 42
Najpopularniejsze
serwisy wyszukiwawcze
Slide 43
Ocena wyszukiwarek
Kryteria
• wielkość bazy
• aktualność danych
• „ręczny” czy „automatyczny” sposób tworzenia bazy
• mechanizmy dopasowania wyników do zapytań
użytkowników
• jakość interfejsu (czytelność wyników, dodatkowe opcje
• popularność mierzona liczbą bieżących zapytań
Slide 44
Skracanie adresów
internetowych
Pozwala skrócić długie linki zanim je komuś
podasz, dzięki czemu będą łatwiejsze
do zapamiętania i odporne na zniekształcenia
np. podczas przesyłania w listach
elektronicznych.
Skracanie adresu przez serwis polega na
utworzeniu na serwerze tzw. aliasu, który działa
tak samo jak skróty tworzone w systemie
operacyjnym. Zwykle takie aliasy nie są nigdy
usuwane, działają zawsze póki działa serwis.
Slide 45
Zalety skracania długich adresów
pozwala wpisać adresu w miejscu, gdzie liczba znaków
jest ograniczona, czyli np. w wiadomość SMS-ie lub opisie
komunikatora;
długie adresy często są ucinane we wpisach na forach
internetowych, w programach pocztowych itp.;
odsyłacze wygenerowane np. przez wyszukiwarkę czy
skrypt php na stronie internetowej jest wręcz niemożliwy
do zapamiętania, a można go skrócić do minimum;
wiele serwisów daje możliwość wyboru własnej nazwy
dla skrótu;
Jeden skrót może odnosić się do wielu podstron serwisu.
Slide 46
Skracanie
adresu internetowego
przed skróceniem:
•
http://www.jakis.dlugi.trudny.do.zapamietania.adres.com.pl/
po skróceniu:
•
http://mini.org/zobacz/
•
http://mini.org/zobacz/katalog/strona1.html
•
http://mini.org/zobacz/folder/strona2.html
•
http://mini.org/zobacz/teczka/strona3.html
Slide 47
Jak to działa
Slide 48
Skuteczne
przeszukiwanie
internetu
Slide 2
Katalogi tematyczne
• redagowane są przez ludzi
• zawierają wyselekcjonowane treści
• podzielone są na kategorie tematyczne
• prowadzone są przez duże portale
Slide 3
Katalogi tematyczne
Slide 4
Katalogi tematyczne
Slide 5
Pierwsza wyszukiwarka
•
Pierwowzorem wyszukiwarek był program
stworzony na Uniwersytecie w Colorado przez
Oliviera McBriana w 1994 r. zwany Robakiem
WWW (ang. Worm WWW).
•
Program ten przeszukiwał i skanował dostępne
wówczas zasoby sieci, a następnie indeksował je
w bazie danych
•
Metodę opracowaną przez McBriana z wieloma
modyfikacjami stosuje się w wyszukiwarkach
do dnia dzisiejszego
Slide 6
Elementy wyszukiwarki
•
Robot (pająk, spider) – program, który
przeszukuje sieć internetową, zbiera informacje o
znalezionych stronach, indeksowane zawarte na
nich treści
•
Indekser – generuje bazę stron WWW, tworzy
spis słów kluczowych charakteryzujących
znalezione strony
•
Index – to posortowana lista wszystkich
unikalnych słów, wraz z odnośnikami do adresów
dokumentów w których wystapiły
Slide 7
Reguły pracy robota
• praca metodą wędrówki po odsyłaczach
• filtrowanie treści stron
• unikanie dokumentów generowanych
•
•
•
dynamicznie
nie wolno mu blokować serwerów bezustannymi
zapytaniami
dokonywanie wyborów jakimi odsyłaczami
podążać
honorowanie zakazów dostępu do pewnych
zasobów (zapisanych w pliku „robots.txt”)
Slide 8
Wady wyszukiwarek
• trudność w skonstruowaniu adekwatnego
zapytania, współcześnie wyszukiwarka
automatycznie rozważa pewne modyfikacje
frazy wpisanej przez użytkownika
• brak oceny merytorycznej zwracanych zasobów
(wyszukiwarki są automatami)
• podatność na sztuczne zawyżanie pozycji
rankingowej wybranej strony, czergo
przykłądem są tzw. farmy treści
Slide 9
Niewidzialna sieć
(ang. Hidden Web, Deep Web)
Niewidzialna sieć to ogólnie strony internetowe
wyłączone z procesu indeksacji (np. ze względów
prawnych lub z powodu zablokowania dostępu
do nich)
Roboty nie mają do nich dostępu, żadna
z wyszukiwarek nie indeksuje tekiej strony
Szacuje się, że niewidzialna sieć jest nawet trzy razy
większa aniżeli ogół stron zaindeksowanych przez
wyszukiwarki
Slide 10
Niewidzialna sieć
(ang. Hidden Web)
Przeszukiwanie ukrytego
internetu wymaga
specjalnych strategii
wyszukiwawczych
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.htmlhtt
p://www.lib.lsu.edu/instruction/deepweb/deepweb-print.html
Slide 11
Niewidzialna sieć
(ang. Hidden Web)
Sposób na ukryty internet
to:
wyszukiwarki specjalne:
www.pkn.pl
katalogi prasowe
www.witryna.czasopism.pl
bazy informacji branżowej
www.pf.pl
Slide 12
Serwisy Subject Gateways
To dziedzinowe przewodniki po zasobach internetowych uporządkowane
według kategorii.
Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez
bibliotekarzy lub ekspertów z danej dziedziny
Zobacz wykaz na stronie:
http://ebib.oss.wroc.pl/2004/57/wykaz.php
Slide 13
DIRECT SEARCH
To serwis autorstwa Gary’ego Price’a — bibliotekarza amerykańskiego
zajmującego się porządkowaniem informacji w internecie,
wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu
Direct Search to stale rosnący zbiór odsyłaczy do serwisów i narzędzi
wyszukiwawczych, ułatwiających dostęp do zasobów „ukrytych”
Na stronie dostępny jest interface wyszukiwawczy oraz ogromny zbiór
zasobów elektronicznych
http://www.abc-directory.com/site/942710
Slide 14
Wyszukiwarki naukowe
Oparta o zasoby biblioteki wirtualnej:
http://infomine.ucr.edu
Wyszukiwarka zasobów naukowych, także płatnych
http://ww.scirus.com
Wyszukiwarka zasobów naukowych, oparta na
mechanizmach i interface Google
http://scholar.google.com
Slide 15
Katalogi naukowe
Academic Info
http://www.academicinfo.net
SciCentral
http://www.scicentral.com
BUBL Information Service
http://bubl.ac.uk
Slide 16
Wyszukiwarka
schemat działania
Slide 17
Multiwyszukiwarki
Powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż 30 40% stron w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko
częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy
dają odmienne rezultaty nawet dla tej samej bazy danych
To serwisy internetowe lub instalowane na dysku programy, które przekazują
zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie
wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej
spójnej listy
Nie dysponują one własnymi indeksami
W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria
wyszukiwania
Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych
opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych
wyszukiwarkach
Slide 18
Typu multiwyszukiwarek
• serwisy
typu „lista” – są to strony, na których zgromadzone zostały
odnośniki do wybranych, standardowych wyszukiwarek, użytkownik
może dokonywać poszukiwań przy jednoczesnym wykorzystywaniu wielu
serwisów, pełnią rolę puntów informacyjnych o nowych, bądź mało
znanych wyszukiwarkach i katalogach
• serwisy
poszukujące pojedyńczo – oferują przeważnie jedno pole
do wpisania zapytania, a użytkownik ma możliwość wyboru narzędzi,
które zostaną kolejno pojedynczo odpytane, uzyskane wyniki zwykle
wyświetlane są przy zachowaniu podziału na poszczególne narzędzia
• serwisy
poszukujące równolegle – łączą się jednocześnie z wieloma
(wybranymi przez użytkownika) narzędziami
Slide 19
Kryteria w rankingu
wyszukiwarki
•
•
•
tytuł strony: czy dane słowo kluczowe występuje w tytule
•
gęstość: jak wiele razy dane słowo kluczowe powtarza się
na stronie (liczba słów kluczowych w stosunku
do zawartości tekstu na stronie nazywamy gęstością słowa
kluczowego)
•
metainformacja: większość wyszukiwarek bierze pod
uwagę teksty zapisane w meta znacznikach
•
odsyłacze na stronie: silnik sprawdza do ilu i jakich stron
prowadzą linki zawarte na stronie (strony, do których
prowadzi więcej odsyłaczy ze świata są wyżej w rankingu)
adres: czy dane słowo kluczowe występuje w adresie
styl: czy dane słowo kluczowe występuje jako tekst
nagłówka, pogrubiony, ukośny (wyróżniony)
Slide 20
Metainformacja
znaczniki META w nagłówku stronu
— zadaniem tego elementu jest
instruowanie wyszukiwarek, jak mają indeksować stronę, przy pomocy kilku
parametrów można określić, gdzie chcemy wpuścić robota i co może on
indeksować:
•NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki;
•INDEX – pozwala robotom indeksować dokument;
•NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki
z indeksowanej strony;
•FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze
przez odsyłacze z danej strony;
•NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być
indeksowany);
— pozwala na umieszczenie krótkiego
opisu merytorycznego dotyczącego zawartości strony, opis ten jest wyświetlany przy adresie
strony w rankingu wyszukanych stron, powinien krótko informować użytkowników o treści
witryny
Slide 21
Metawyszukiwarki
Slide 22
Metawyszukiwarki
Slide 23
Metawyszukiwarki
Slide 24
Metawyszukiwarki
Slide 25
www.altavista.com.pl
Jedna z największych wyszukiwarek globalnych. Umożliwia nie
tylko wyszukiwanie stron tekstowych, ale również zdjęć, nazwisk,
plików muzycznych, nagrań wideo, bieżących wiadomości itp.
Wprowadzone słowa są domyślnie łączone spójnikiem logicznym
LUB (OR)
Slide 26
szukaj.onet.pl
Bazuje na dwóch wyszukiwarkach — doprzeszukiwania polskich zasobów
Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma
zaindeksowanych 8 mln stron polskich, a do wyszukiwania informacji w
zasobach światowych używa wyszukiwarki AltaVista, która ma również w bazie
zasoby polskich stron około 2,5 mln.
Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW,
zasobów polskich i światowych, ale również encyklopedii, baz danych
dostępnych na portalu oraz plików w wielu formatach.
Slide 27
Przykłady innych wyszukiwarek:
Anglojęzyczne wyszukiwarki naukowe:
Wyszukiwarki plików:
http://science.first-search.com
http://plikoskop.internauci.pl
http://www.scirus.comwww.search4science.com
http://pliki.onet.pl
Polskojęzyczneczne serwisy naukowe
Wyszukiwarki plików programów:
http://science.eu.org
http://icm.tucows.comhttp://download.chip
.pl
http://www.wiw.pl
Slide 28
Lider wśród wyszukiwarek
Slide 29
29
Slide 30
Arytmetyka wyszukiwania
na przykładzie Google
jeśli podamy wyszukiwarce szereg słów, wyszuka ona
dokumenty zawierające którekolwiek z nich
wielkość liter nie odgrywa roli
Google ignoruje występujące w zapytaniu pojedyncze litery lub
cyfry
zapytanie może zawierać wyłącznie litery i cyfry (wyjątek
stanowią tzw. znaki specjalne)
z zapytania automatycznie eliminowane „słowa nieznaczące”
tj. występujące w danym języku tak często, że można je znaleźć
praktycznie, w każdym dokumencie (np. do, i , jak, już)
Slide 31
Znaki specjalne
Znak
Działanie
Umożliwia poszukiwanie kompletnych
cudzysłów („”) fraz, czyli słów występujących
bezpośrednio po sobie
Przykład
"jan sobieski"
szukanie informacji o Janie
Sobieskim, ale już nie
o Janie III Sobieskim
minus (–)
Jeżeli występuje przed słowem
kluczowym powoduje wyświetlenie
stron, które go nie zawierają
sobieski –jan
Szukanie stron dotyczących
osób o nazwisku Sobieski
z pominięciem Janów
minus(–)
ukośnik (/)
kropka (.)
równość (=)
apostrof (')
Jeżeli występuje miedzy słowami
oznacza frazę, czyli działa analogicznie
do zastosowania cudzysłowu
jan–sobieski
Równoznaczne
z "jan sobieski"
plus (+)
Wymuszenie uwzględnienia słowa
w zapytaniu (na przykład przed słowem
jednoznakowym)
"grupa krwi" +a
Szukanie stron na temat grupy
krwi A
Slide 32
Operatory logiczne
- operator OR (lub) – w odpowiedzi zostaną
uwzględnione dokumenty zawierające
przynajmniej jedno ze słów nim rozdzielonych
np. laptop (dell or asus)
- nawiasy – grupowanie wszelkiego rodzaju
warunków wyszukiwania
- maksymalna liczba słów w zapytaniu wynosi 10
- * (gwiazdka) – zastępowanie całych słów
np. stół z * nogami
Slide 33
Składniki odpowiedzi
1. Tytuł dokumentu
2. Kontekst
3. Opis wprowadzony przez redaktora i nazwa kategorii
(w przypadku Katalogu)
4. Adres
5. Rozmiar strony
6. Kopia
7. Odsyłacze
8. Podpowiedzi Google…
Slide 34
Otwieranie odnalezionej strony
w nowym oknie
Slide 35
Specjalne dyrektywy
wyszukiwania w Google
Zapytanie może zawierać jedną lub kilka
specjalnych dyrektyw, umożliwiających
nakładanie dodatkowych warunków
dotyczących poszukiwanych informacji oraz
uzyskanie dodatkowych informacji
o stronach przechowywanych w bazie
danych wyszukiwarki.
Slide 36
Specjalne dyrektywy
wyszukiwania w Google
w tytule strony intitle:
wszystkie słowa w tytule allintitle:
tylko w tekście strony intext: lub allintext:
w nazwach odsyłaczy inanchor:
w adresach inurl: lub allinurl:
w konkretnym serwisie site:
w określonych typach plików filetype:
wykluczenie określonego typu pliku -filetype:
Slide 37
Specjalne dyrektywy
wyszukiwania w Google
Slide 38
Szukanie zaawansowane
38
Slide 39
Wyszukiwanie obrazów
Podczas wyszukiwania możesz określić:
• żądany rozmiar w pikselach,
• format pliku (GIF lub JPEG),
• kolor,
• lokalizacja (domena),
• można także wykorzystywać dyrektywy:
intitle:, filetype:, inurl:, site:
39
Slide 40
Wyszukiwanie graficzne
images.google.pl
Google wprowadził też wyszukiwanie niejako odwrotne —
masz grafikę, dowiedz się, co wie o niej sieć
• Sposób 1
przeciągnij posiadany plik na pole wyszukiwania w serwisie
• Sposób 2
kliknij ikonkę aparatu i „Prześlij obraz”
• Sposób 3
kliknij ikonkę aparatu i „Wklej adres URL obrazu”
Slide 41
Wyszukiwanie graficzne
Slide 42
Najpopularniejsze
serwisy wyszukiwawcze
Slide 43
Ocena wyszukiwarek
Kryteria
• wielkość bazy
• aktualność danych
• „ręczny” czy „automatyczny” sposób tworzenia bazy
• mechanizmy dopasowania wyników do zapytań
użytkowników
• jakość interfejsu (czytelność wyników, dodatkowe opcje
• popularność mierzona liczbą bieżących zapytań
Slide 44
Skracanie adresów
internetowych
Pozwala skrócić długie linki zanim je komuś
podasz, dzięki czemu będą łatwiejsze
do zapamiętania i odporne na zniekształcenia
np. podczas przesyłania w listach
elektronicznych.
Skracanie adresu przez serwis polega na
utworzeniu na serwerze tzw. aliasu, który działa
tak samo jak skróty tworzone w systemie
operacyjnym. Zwykle takie aliasy nie są nigdy
usuwane, działają zawsze póki działa serwis.
Slide 45
Zalety skracania długich adresów
pozwala wpisać adresu w miejscu, gdzie liczba znaków
jest ograniczona, czyli np. w wiadomość SMS-ie lub opisie
komunikatora;
długie adresy często są ucinane we wpisach na forach
internetowych, w programach pocztowych itp.;
odsyłacze wygenerowane np. przez wyszukiwarkę czy
skrypt php na stronie internetowej jest wręcz niemożliwy
do zapamiętania, a można go skrócić do minimum;
wiele serwisów daje możliwość wyboru własnej nazwy
dla skrótu;
Jeden skrót może odnosić się do wielu podstron serwisu.
Slide 46
Skracanie
adresu internetowego
przed skróceniem:
•
http://www.jakis.dlugi.trudny.do.zapamietania.adres.com.pl/
po skróceniu:
•
http://mini.org/zobacz/
•
http://mini.org/zobacz/katalog/strona1.html
•
http://mini.org/zobacz/folder/strona2.html
•
http://mini.org/zobacz/teczka/strona3.html
Slide 47
Jak to działa
Slide 48