Transcript (*) Plik

Slide 1

Skuteczne
przeszukiwanie
internetu


Slide 2

Katalogi tematyczne
• redagowane są przez ludzi
• zawierają wyselekcjonowane treści

• podzielone są na kategorie tematyczne
• prowadzone są przez duże portale


Slide 3

Katalogi tematyczne


Slide 4

Katalogi tematyczne


Slide 5

Pierwsza wyszukiwarka


Pierwowzorem wyszukiwarek był program
stworzony na Uniwersytecie w Colorado przez
Oliviera McBriana w 1994 r. zwany Robakiem
WWW (ang. Worm WWW).



Program ten przeszukiwał i skanował dostępne
wówczas zasoby sieci, a następnie indeksował je
w bazie danych



Metodę opracowaną przez McBriana z wieloma
modyfikacjami stosuje się w wyszukiwarkach
do dnia dzisiejszego


Slide 6

Elementy wyszukiwarki


Robot (pająk, spider) – program, który
przeszukuje sieć internetową, zbiera informacje o
znalezionych stronach, indeksowane zawarte na
nich treści



Indekser – generuje bazę stron WWW, tworzy
spis słów kluczowych charakteryzujących
znalezione strony



Index – to posortowana lista wszystkich
unikalnych słów, wraz z odnośnikami do adresów
dokumentów w których wystapiły


Slide 7

Reguły pracy robota
• praca metodą wędrówki po odsyłaczach
• filtrowanie treści stron
• unikanie dokumentów generowanych





dynamicznie
nie wolno mu blokować serwerów bezustannymi
zapytaniami
dokonywanie wyborów jakimi odsyłaczami
podążać
honorowanie zakazów dostępu do pewnych
zasobów (zapisanych w pliku „robots.txt”)


Slide 8

Wady wyszukiwarek
• trudność w skonstruowaniu adekwatnego

zapytania, współcześnie wyszukiwarka
automatycznie rozważa pewne modyfikacje
frazy wpisanej przez użytkownika

• brak oceny merytorycznej zwracanych zasobów
(wyszukiwarki są automatami)

• podatność na sztuczne zawyżanie pozycji
rankingowej wybranej strony, czergo
przykłądem są tzw. farmy treści


Slide 9

Niewidzialna sieć
(ang. Hidden Web, Deep Web)
Niewidzialna sieć to ogólnie strony internetowe
wyłączone z procesu indeksacji (np. ze względów
prawnych lub z powodu zablokowania dostępu
do nich)

Roboty nie mają do nich dostępu, żadna
z wyszukiwarek nie indeksuje tekiej strony
Szacuje się, że niewidzialna sieć jest nawet trzy razy
większa aniżeli ogół stron zaindeksowanych przez
wyszukiwarki


Slide 10

Niewidzialna sieć
(ang. Hidden Web)
Przeszukiwanie ukrytego
internetu wymaga
specjalnych strategii
wyszukiwawczych

http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.htmlhtt
p://www.lib.lsu.edu/instruction/deepweb/deepweb-print.html


Slide 11

Niewidzialna sieć
(ang. Hidden Web)
Sposób na ukryty internet
to:
wyszukiwarki specjalne:
www.pkn.pl

katalogi prasowe
www.witryna.czasopism.pl

bazy informacji branżowej
www.pf.pl


Slide 12

Serwisy Subject Gateways
To dziedzinowe przewodniki po zasobach internetowych uporządkowane
według kategorii.
Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez
bibliotekarzy lub ekspertów z danej dziedziny
Zobacz wykaz na stronie:
http://ebib.oss.wroc.pl/2004/57/wykaz.php


Slide 13

DIRECT SEARCH
To serwis autorstwa Gary’ego Price’a — bibliotekarza amerykańskiego
zajmującego się porządkowaniem informacji w internecie,
wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu
Direct Search to stale rosnący zbiór odsyłaczy do serwisów i narzędzi
wyszukiwawczych, ułatwiających dostęp do zasobów „ukrytych”
Na stronie dostępny jest interface wyszukiwawczy oraz ogromny zbiór
zasobów elektronicznych
http://www.abc-directory.com/site/942710


Slide 14

Wyszukiwarki naukowe
Oparta o zasoby biblioteki wirtualnej:
http://infomine.ucr.edu

Wyszukiwarka zasobów naukowych, także płatnych
http://ww.scirus.com
Wyszukiwarka zasobów naukowych, oparta na
mechanizmach i interface Google
http://scholar.google.com


Slide 15

Katalogi naukowe
Academic Info
http://www.academicinfo.net
SciCentral
http://www.scicentral.com
BUBL Information Service
http://bubl.ac.uk


Slide 16

Wyszukiwarka
schemat działania


Slide 17

Multiwyszukiwarki
Powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż 30 40% stron w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko
częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy
dają odmienne rezultaty nawet dla tej samej bazy danych
To serwisy internetowe lub instalowane na dysku programy, które przekazują
zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie
wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej
spójnej listy
Nie dysponują one własnymi indeksami
W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria
wyszukiwania
Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych
opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych
wyszukiwarkach


Slide 18

Typu multiwyszukiwarek
• serwisy

typu „lista” – są to strony, na których zgromadzone zostały
odnośniki do wybranych, standardowych wyszukiwarek, użytkownik
może dokonywać poszukiwań przy jednoczesnym wykorzystywaniu wielu
serwisów, pełnią rolę puntów informacyjnych o nowych, bądź mało
znanych wyszukiwarkach i katalogach

• serwisy

poszukujące pojedyńczo – oferują przeważnie jedno pole
do wpisania zapytania, a użytkownik ma możliwość wyboru narzędzi,
które zostaną kolejno pojedynczo odpytane, uzyskane wyniki zwykle
wyświetlane są przy zachowaniu podziału na poszczególne narzędzia

• serwisy

poszukujące równolegle – łączą się jednocześnie z wieloma
(wybranymi przez użytkownika) narzędziami


Slide 19

Kryteria w rankingu
wyszukiwarki




tytuł strony: czy dane słowo kluczowe występuje w tytule



gęstość: jak wiele razy dane słowo kluczowe powtarza się
na stronie (liczba słów kluczowych w stosunku
do zawartości tekstu na stronie nazywamy gęstością słowa
kluczowego)



metainformacja: większość wyszukiwarek bierze pod
uwagę teksty zapisane w meta znacznikach



odsyłacze na stronie: silnik sprawdza do ilu i jakich stron
prowadzą linki zawarte na stronie (strony, do których
prowadzi więcej odsyłaczy ze świata są wyżej w rankingu)

adres: czy dane słowo kluczowe występuje w adresie

styl: czy dane słowo kluczowe występuje jako tekst
nagłówka, pogrubiony, ukośny (wyróżniony)


Slide 20

Metainformacja
znaczniki META w nagłówku stronu
— zadaniem tego elementu jest
instruowanie wyszukiwarek, jak mają indeksować stronę, przy pomocy kilku
parametrów można określić, gdzie chcemy wpuścić robota i co może on
indeksować:

•NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki;
•INDEX – pozwala robotom indeksować dokument;
•NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki
z indeksowanej strony;

•FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze
przez odsyłacze z danej strony;

•NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być
indeksowany);
— pozwala na umieszczenie krótkiego
opisu merytorycznego dotyczącego zawartości strony, opis ten jest wyświetlany przy adresie
strony w rankingu wyszukanych stron, powinien krótko informować użytkowników o treści
witryny


Slide 21

Metawyszukiwarki


Slide 22

Metawyszukiwarki


Slide 23

Metawyszukiwarki


Slide 24

Metawyszukiwarki


Slide 25

www.altavista.com.pl
Jedna z największych wyszukiwarek globalnych. Umożliwia nie
tylko wyszukiwanie stron tekstowych, ale również zdjęć, nazwisk,
plików muzycznych, nagrań wideo, bieżących wiadomości itp.
Wprowadzone słowa są domyślnie łączone spójnikiem logicznym
LUB (OR)


Slide 26

szukaj.onet.pl
Bazuje na dwóch wyszukiwarkach — doprzeszukiwania polskich zasobów
Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma
zaindeksowanych 8 mln stron polskich, a do wyszukiwania informacji w
zasobach światowych używa wyszukiwarki AltaVista, która ma również w bazie
zasoby polskich stron około 2,5 mln.
Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW,
zasobów polskich i światowych, ale również encyklopedii, baz danych
dostępnych na portalu oraz plików w wielu formatach.


Slide 27

Przykłady innych wyszukiwarek:
Anglojęzyczne wyszukiwarki naukowe:

Wyszukiwarki plików:

http://science.first-search.com

http://plikoskop.internauci.pl

http://www.scirus.comwww.search4science.com

http://pliki.onet.pl

Polskojęzyczneczne serwisy naukowe

Wyszukiwarki plików programów:

http://science.eu.org

http://icm.tucows.comhttp://download.chip
.pl

http://www.wiw.pl


Slide 28

Lider wśród wyszukiwarek

Google


Slide 29

Google

29


Slide 30

Arytmetyka wyszukiwania
na przykładzie Google


jeśli podamy wyszukiwarce szereg słów, wyszuka ona
dokumenty zawierające którekolwiek z nich



wielkość liter nie odgrywa roli



Google ignoruje występujące w zapytaniu pojedyncze litery lub
cyfry



zapytanie może zawierać wyłącznie litery i cyfry (wyjątek
stanowią tzw. znaki specjalne)



z zapytania automatycznie eliminowane „słowa nieznaczące”
tj. występujące w danym języku tak często, że można je znaleźć
praktycznie, w każdym dokumencie (np. do, i , jak, już)


Slide 31

Znaki specjalne
Znak

Działanie

Umożliwia poszukiwanie kompletnych
cudzysłów („”) fraz, czyli słów występujących
bezpośrednio po sobie

Przykład
"jan sobieski"
szukanie informacji o Janie
Sobieskim, ale już nie
o Janie III Sobieskim

minus (–)

Jeżeli występuje przed słowem
kluczowym powoduje wyświetlenie
stron, które go nie zawierają

sobieski –jan
Szukanie stron dotyczących
osób o nazwisku Sobieski
z pominięciem Janów

minus(–)
ukośnik (/)
kropka (.)
równość (=)
apostrof (')

Jeżeli występuje miedzy słowami
oznacza frazę, czyli działa analogicznie
do zastosowania cudzysłowu

jan–sobieski
Równoznaczne
z "jan sobieski"

plus (+)

Wymuszenie uwzględnienia słowa
w zapytaniu (na przykład przed słowem
jednoznakowym)

"grupa krwi" +a
Szukanie stron na temat grupy
krwi A


Slide 32

Operatory logiczne
- operator OR (lub) – w odpowiedzi zostaną
uwzględnione dokumenty zawierające
przynajmniej jedno ze słów nim rozdzielonych
np. laptop (dell or asus)

- nawiasy – grupowanie wszelkiego rodzaju
warunków wyszukiwania

- maksymalna liczba słów w zapytaniu wynosi 10
- * (gwiazdka) – zastępowanie całych słów
np. stół z * nogami


Slide 33

Składniki odpowiedzi

1. Tytuł dokumentu
2. Kontekst
3. Opis wprowadzony przez redaktora i nazwa kategorii
(w przypadku Katalogu)
4. Adres
5. Rozmiar strony
6. Kopia
7. Odsyłacze
8. Podpowiedzi Google…


Slide 34

Otwieranie odnalezionej strony
w nowym oknie


Slide 35

Specjalne dyrektywy
wyszukiwania w Google
Zapytanie może zawierać jedną lub kilka
specjalnych dyrektyw, umożliwiających
nakładanie dodatkowych warunków
dotyczących poszukiwanych informacji oraz
uzyskanie dodatkowych informacji
o stronach przechowywanych w bazie
danych wyszukiwarki.


Slide 36

Specjalne dyrektywy
wyszukiwania w Google
 w tytule strony intitle:
 wszystkie słowa w tytule allintitle:
 tylko w tekście strony intext: lub allintext:
 w nazwach odsyłaczy inanchor:
 w adresach inurl: lub allinurl:
 w konkretnym serwisie site:

 w określonych typach plików filetype:
 wykluczenie określonego typu pliku -filetype:


Slide 37

Specjalne dyrektywy
wyszukiwania w Google


Slide 38

Szukanie zaawansowane

38


Slide 39

Wyszukiwanie obrazów
Podczas wyszukiwania możesz określić:
• żądany rozmiar w pikselach,
• format pliku (GIF lub JPEG),

• kolor,
• lokalizacja (domena),
• można także wykorzystywać dyrektywy:
intitle:, filetype:, inurl:, site:

39


Slide 40

Wyszukiwanie graficzne
images.google.pl
Google wprowadził też wyszukiwanie niejako odwrotne —
masz grafikę, dowiedz się, co wie o niej sieć
• Sposób 1
przeciągnij posiadany plik na pole wyszukiwania w serwisie
• Sposób 2
kliknij ikonkę aparatu i „Prześlij obraz”
• Sposób 3
kliknij ikonkę aparatu i „Wklej adres URL obrazu”


Slide 41

Wyszukiwanie graficzne


Slide 42

Najpopularniejsze
serwisy wyszukiwawcze


Slide 43

Ocena wyszukiwarek
Kryteria
• wielkość bazy
• aktualność danych
• „ręczny” czy „automatyczny” sposób tworzenia bazy
• mechanizmy dopasowania wyników do zapytań
użytkowników
• jakość interfejsu (czytelność wyników, dodatkowe opcje
• popularność mierzona liczbą bieżących zapytań


Slide 44

Skracanie adresów
internetowych
 Pozwala skrócić długie linki zanim je komuś
podasz, dzięki czemu będą łatwiejsze
do zapamiętania i odporne na zniekształcenia
np. podczas przesyłania w listach
elektronicznych.
 Skracanie adresu przez serwis polega na
utworzeniu na serwerze tzw. aliasu, który działa
tak samo jak skróty tworzone w systemie
operacyjnym. Zwykle takie aliasy nie są nigdy
usuwane, działają zawsze póki działa serwis.


Slide 45

Zalety skracania długich adresów


pozwala wpisać adresu w miejscu, gdzie liczba znaków
jest ograniczona, czyli np. w wiadomość SMS-ie lub opisie
komunikatora;



długie adresy często są ucinane we wpisach na forach
internetowych, w programach pocztowych itp.;



odsyłacze wygenerowane np. przez wyszukiwarkę czy
skrypt php na stronie internetowej jest wręcz niemożliwy
do zapamiętania, a można go skrócić do minimum;



wiele serwisów daje możliwość wyboru własnej nazwy
dla skrótu;



Jeden skrót może odnosić się do wielu podstron serwisu.


Slide 46

Skracanie
adresu internetowego


przed skróceniem:




http://www.jakis.dlugi.trudny.do.zapamietania.adres.com.pl/

po skróceniu:


http://mini.org/zobacz/



http://mini.org/zobacz/katalog/strona1.html



http://mini.org/zobacz/folder/strona2.html



http://mini.org/zobacz/teczka/strona3.html


Slide 47

Jak to działa


Slide 48