Transcript home.zcu.cz

Rešeršní činnost
aneb
Jak najít potřebné informace
Mgr. Miluše Mírková
Univerzitní knihovna ZČU
URL: http://www.knihovna.zcu.cz
Kompendium
http://home.zcu.cz/~mirkova/vyuka.html
e-mail: [email protected]
tel. 377637754
Obsah
Rešeršní činnost
Typologie rešerší
Postup rešerše
Závěr rešeršní činnosti
Vyhledávání na internetu
Rešeršní činnost
Motto:
"Když jsem chtěl něco vynalézat, začal jsem
studovat vše, co se v dané otázce udělalo
v minulosti."
(Thomas Alva Edison,1847-1931,
americký vynálezce a podnikatel)
Rešeršní činnost
ve 2. polovině minulého století byla nastolena cesta
k informační společnosti:






ročně vychází kolem 70 tis. odborných vědeckých časopisů
denně je publikováno 6-7 tis. vědeckých článků
ročně vychází asi 300 tis. odborných monografií (knih celkem
přes 800 tis. titulů)
denně se přihlašuje asi 1000 patentů
v současnosti žije 80-90% z celkového počtu vědců v dějinách
lidstva
90% všech nových informací je obsaženo v pouhých 5%
celkově publikovaných prací
Rešeršní činnost
základní součástí informační přípravy jako výchozího bodu řešení
úkolů je rešerše
význam termínu rešerše:
odvozuje se od francouzského „recherche“, což znamená

hledání, vyhledávání, pátrání

šetření, vyšetřování

výzkum, průzkum, bádání, rešerše
rešerší se nazývá vyhledávání informací z dostupných zdrojů (z
katalogů, z databází, z internetu apod.)
rešerše je:
1.
proces vyhledávání
2.
produkt vyhledávání
Základy vyhledávání
rešeršní logika:
logické postupy používané při rešeršní činnosti, zejména ve fázi
sestavení rešeršního dotazu a jeho úprav
Základy vyhledávání
základem rešeršní logiky jsou booleovské operátory (logické
operátory)
logický součin
logický součet
logická negace
Základy vyhledávání
logický součin
operátor AND – univerzita AND Plzeň
univerzita
Plzeň
Základy vyhledávání
logický součet
operátor OR – vysoká škola OR univerzita
vysoká
škola
univerzita
Základy vyhledávání
logická negace
operátor NOT – univerzita NOT Plzeň
univerzita
Plzeň
Základy vyhledávání
distanční operátory (proximitní operátory, operátory kontextové
nebo operátory blízkosti)
specifikují posloupnost a vzdálenost mezi dvěma vyhledávacími
výrazy



near - blízký
adjacent (ADJ) - sousední
followed by
Základy vyhledávání
krácení podle slovních kořenů (truncation, stemming)



hvězdička: * (asterisk)
otazník: ?
aj.
může nahrazovat
– předpony
– zakončení slov
například knihovn*
Základy vyhledávání
používání zástupných znaků pro maskování (wild cards)
 hvězdička: *
 otazník: ?
 aj.
může nahrazovat znaky uprostřed slova
například filo?ofie
velká a malá písmena – většina vyhledávačů je nerozlišuje
Typologie rešerší
rešerše lze členit podle různých hledisek do mnoha typů
příklady používaných třídicích hledisek:
hledisko úplnosti zahrnutých dokumentů:
 úplné rešerše (zachycují všechny zdroje)
 výběrové rešerše (zachycují zdroje výběrově podle zadaných
kritérií)
Typologie rešerší
hledisko časové:
 jednorázové rešerše
 doplňkové rešerše (doplněk k dříve uskutečněné rešerši)
 průběžné rešerše (prováděné s určenou periodicitou – případně
i s jednorázovou retrospektivou)
hledisko typu zahrnutých informací:
 dokumentografické (obsahují záznamy dokumentů)
 faktografické (obsahují přímo informace – fakta – například
statistické údaje)
Postup rešerše
základní etapy rešerše:
příprava rešerše
informační průzkum nebo-li vyhledávání
zpracování rešerše
Příprava rešerše
příprava rešerše






formulace rešeršního požadavku,
analýza rešeršního požadavku
volba zdroje či zdrojů informací
volba rešeršní strategie
vyjádření pojmů rešeršního požadavku v selekčních jazycích
zvolených informačních souborů
formulace rešeršního dotazu
Formulace rešeršního požadavku
vyjádření tématu, ke kterému je zapotřebí vyhledat informace
formulování rešeršního tématu v optimální podobě
Analýza rešeršního požadavku


identifikace klíčových pojmů rešeršního požadavku
stanovení jejich vzájemných vztahů
příklad:
téma:
informace o vysokých školách v Plzni
klíčové pojmy:

vysoká škola, univerzita (synonymum)

Plzeň
vzájemné vztahy:

vysoká škola nebo univerzita a zároveň Plzeň
Problémy v etapě přípravy rešerše
pozor na jazykové problémy
– jazykové problémy
 transliterace jmen např. v angličtině
Shcherbinin (v češtině Ščerbinin), Leontiev (Leontěv),
Minaev (Minajev), Khalimullin (Chalimulin),
Shimanskii
(Šimanskij), Chembartsev (Čembarcev),
Derevschikov
(Děrevščikov) apod.
 odlišná terminologie
 pravopisné rozdíly v terminologii (např. defectoscopy x
flaw detection)
– př. computerised x computerized
– modelling x modeling
Volba zdroje informací

volíme jeden osvědčený zdroj nebo vhodnou kombinaci několika
zdrojů (databáze, katalogy, internet apod.)

je vhodné seznámit se s obsahem zdrojů, které máme k dispozici
(šetříme čas, vliv na výsledek rešerše)
pomocná dokumentace – nápověda příslušných zdrojů,
informace na serverech producentů informačních zdrojů,
články na internetu i v časopisech apod.)
Volba rešeršní strategie
rešeršní strategie = postup rešerše, způsob, jak efektivně získat
co možná nejpřesn ohlas relevantních dokumentů
základní strategie
 strategie stavebních kamenů
 strategie rostoucí perly
 strategie osekávání
--------------------------------------------- strategie vyhledávání nejdříve podle nejužší fasety
 strategie vyhledávání nejdříve podle nejmenší četnosti
výskytu
Volba rešeršní strategie
strategie stavebních kamenů
přeformulování dotazu do několika dotazů dílčích
průběh rešerše se rozpadá do několika dílčích rešerší
příklad:
aplikace autorského zákona v oblasti elektronických dokumentů
a kopírování
klíčové pojmy:
autorský zákon
kopírování
elektronické dokumenty
dotazy:
autorský zákon AND kopírování
autorský zákon AND elektronické dokumenty
konečný výsledek:
spojení výsledků jednotlivých vyhledávání
Volba rešeršní strategie
strategie rostoucí perly
začíná vyhledáváním záznamu k nejužšímu možnému pojmu
v požadavku s cílem nalézt alespoň jeden relevantní záznam
příklad: aplikace autorského zákona v oblasti elektronických
dokumentů a kopírování
klíčové pojmy:
aplikace autorského zákona
kopírování
elektronické dokumenty
dotaz:
aplikace autorského zákona AND kopírování AND
elektronické dokumenty
pokud málo dokumentů – rozšíření tématu:
autorský zákon AND kopírování AND (elektronické
dokumenty OR elektronické knihy OR elektronické
časopisy)
případně můžeme začít jménem odborníka z dané oblasti a postupně dotaz
rozšiřovat
Volba rešeršní strategie

strategie osekávání
postupné omezování dotazu
aplikace autorského zákona AND kopírování AND
elektronické dokumenty
pokud mnoho dokumentů, pak omezíme například pomocí
vyloučení určitého druhu dokumentů:
(aplikace autorského zákona AND kopírování AND
elektronické dokumenty) NOT knihy
další způsoby omezení – použitím proximitních operátorů,
časově, jazykově apod.
Závěr přípravy rešerše

vyjádření pojmů rešeršního požadavku v selekčních jazycích
zvolených informačních souborů

formulace rešeršního dotazu
dotaz:
 („vysoká škola“ OR univerzita) AND Plzeň
Informační průzkum

strojově (prostřednictvím počítače)

ručně (v katalogu, v kartotéce)
Zpracování výsledků
vyhledané záznamy o informačních zdrojích je třeba upravit do
podoby dokumentu, který představuje písemný výsledek
rešerše
struktura a formální úprava rešerše
dříve norma ČSN 01 0198 - Formální úprava rešerší
byla zrušena, má pouze informativní význam
Zpracování výsledků
povinné části rešerše podle normy ČSN 01 0198



titulní list
analytický list
základní část
příklad rešerše
(pozor – citace v ukázce jsou podle již neplatné normy –
dnes se řídí ČSN ISO 690:2011)
Zpracování výsledků
základní část rešerše



zahrnuje textovou část, kterou tvoří soupis záznamů
dokumentů nebo jejich částí
pravidla platná pro tvorbu základní části lze aplikovat na
úpravu seznamů literatury jako součásti různých
studentských prací, bakalářských, diplomových aj.
záznamy zpracovat podle normy
ČSN ISO 690:2011
Zpracování výsledků
příklady citací:

kniha
MEŠKO, Dušan aj. Akademická příručka. Martin: Osveta, ©2006. 481 s. ISBN 808063-219-7..
článek
z tištěného periodika
VAŘEKA, Pavel. Příspěvek ke studiu žijících vsí středověkého původu. Pozůstatky
zástavby z pozdního středověku na parcele č.p. 121 v Mikulčicích. Přehled výzkumů,
2010, 51(1-2), 249-265. ISSN 1211-7250.
článek
z elektronického periodika
BITUŠÍKOVÁ, Alexandra a LUTHER, Daniel. Sustainable diversity and public space
in the city of Bratislava, Slovakia. Anthropological Notebooks [online]. Ljubljana
(Slovenia): Slovene Anthropological Society, 2010, 16(2) [cit. 13.6.2011]. ISSN 1408032X. Dostupné z: http://www.drustvo-antropologov.si/AN/PDF/2010_2/
Anthropological _Notebooks_XVI_2_Bitusikova.pdf
Závěr rešeršní činnosti
vyhodnocení rešerše
na základě toho, kolik dokumentů systém nalezl, posoudíme, zda
je třeba dotaz upravit
 velké množství – příliš obecný dotaz
 žádný výsledek – špatná klíčová slova nebo příliš
komplikovaný dotaz


relevance informací
pertinence informací
Závěr rešeršní činnosti
negativní rešerše
případ, kdy vyčerpáme všechny zdroje a nedostaneme žádné
výsledky
i negativní rešerše může přinést závažnou informaci - že nebylo
o dané problematice nic publikováno
Závěr rešeršní činnosti
zásady pro dosažení optimálního počtu záznamů
chceme-li získat více záznamů:
co nejméně zpřesňovat dotaz
používat jen nezbytná pole a nejdůležitější termíny
neomezovat vyhledávání časově apod.
nepoužívat logický operátor NOT
ověřit správnost pravopisu
použít zástupné znaky (pokud to vyhledávací nástroj
umožňuje)
použít synonyma a příbuzná slova – spojit operátorem OR
Závěr rešeršní činnosti
chceme-li dotaz zpřesnit (zmenšit vyhledanou množinu):
používat více slov vyjadřujících hledané téma spojených
logickým operátorem AND
nepoužívat obecné nebo abstraktní výrazy
používat jen významová slova
využít další nabídky vyhledávacího nástroje, například
omezit prohledávání časově nebo jazykově
Vyhledávání na internetu
internet - nepostradatelný zdroj informací nejen z oblasti zábavy,
praktických záležitostí života, ale i odborných informací
poskytuje nepřeberné množství nástrojů pro vyhledávání informací
pro úspěšné vyhledávání informací je třeba porozumět internetu
a jeho možnostem
Vyhledávání na internetu
–
–
uvádí se, že na internetu 1 bilion stran obsahu
v tištěné podobě vychází jen 0,003% celého obsahu
publikovaného ve světě
velikost internetu se údajně každých 5 let zdvojnásobuje
využívání internetu
další statistiky
Vyhledávání na internetu
–
zdroje na internetu z hlediska přístupnosti:

veřejné

neveřejné (např. komerční databáze, periodika apod.)
Vyhledávání na internetu
internet x komerční zdroje informací
–
internet
 distribuovaný (bez centrální autority) – otázka kvality a
důvěryhodnosti informací
 dynamický (neustálá aktualizace) – rozdílná aktuálnost
stránek
–
komerční zdroje (bibliografické databáze apod.)
 propracovanější vyhledávací nástroje (pracují se
strukturovanou databází – exaktnější vyhledávání)
 hlavní důraz ne na množství, ale kvalitu zdrojů zařazovaných
do databází (recenzované zdroje, autoritativní zdroje atd.)
 komerční – tedy placené
Vyhledávání na internetu
zásady pro vyhledávání na internetu
– uvědomit si, že internet není knihovna (v knihovně jsou zdroje
zpracovány a organizovány) – internet je neuspořádaný
a chaotický
– dokázat odhadnout, co má smysl hledat na internetu
– vybrat správná místa, kde s hledáním začít
– osvojit si práci s vyhledávacími nástroji
 přečíst si nápovědu
– správně formulovat dotaz
 použít synonyma a příbuzné výrazy
 zkontrolovat pravopis
– nenechat se odradit počátečním neúspěchem
– nespokojit se jen s jedním hledáním
Vyhledávání na internetu
faktory, které mají vliv na uspořádání výsledků
– četnost výskytu slov
– počet výrazů v dotazu, jež se shodují s nalezeným dokumentem
– váha podle pole
– blízkost slov
– výskyt příbuzných slov a různých pravopisných variant
– pořadí slov v dotazu uživatele apod.
Vyhledávání na internetu
problém kvality zdrojů
– snadnost zveřejňování dokumentů → velké množství informací
– informační zdroje nejsou odborně editovány → otázka kvality
– autoři často zůstávají v anonymitě
– chybějí data zveřejnění
– je těžké určit, jedná-li se o informaci původní
– obtížné rozlišování skutečných seriózních informací od
reklamních textů
Vyhledávání na internetu
zásady pro hodnocení dokumentů
kvalifikace autora:
– v které instituci autor pracuje – lze to poznat i z URL, zda se
jeho jméno vyskytuje v tištěných zdrojích, v Science Citation
Indexu (Web of Science), ve Scopusu
struktura informačního zdroje:
– respektuje stránka nejnovější doporučení pro tvorbu WWW
– jsou na stránce odkazy a další citace
– je způsob navigace na stránce srozumitelný
– je stránka registrovaná ve vyhledávacích nástrojích internetu,
adresářích a virtuálních knihovnách
Vyhledávání na internetu
zásady pro hodnocení dokumentů – pokračování
jaký je obsah informačního zdroje:
– kdo je cílovou skupinou stránky
– jaká je hodnota stránky v porovnáním s dalšími zdroji
relevantními k tématu
– úroveň pokrytí dané problematiky
– srozumitelnost a přehlednost textu
– objektivita předkládaných informací
– aktuálnost předkládaných informací
– byla stránka recenzovaní nebo hodnocená
Vyhledávání na internetu
zásady pro hodnocení dokumentů – pokračování
datum vydání stránky:
– kdy byla vytvořena
– kdy byla naposledy aktualizována
– jsou odkazy aktuální
– apod.
Vyhledávání na internetu
booleovská logika se v současných vyhledávacích nástrojích
používá třemi způsoby
 úplné booleovské vyhledávání s použitím logických operátorů
 implicitní booleovské vyhledávání
 předdefinovaná terminologie ve formulářích
Vyhledávací nástroje
vyhledávání na internetu umožňují různé druhy vyhledávacích
nástrojů
volba vyhledávacího nástroje
 použít několik vyhledávačů – každý z nich může nalézt
unikátní dokumenty
 strategie volby zdroje
– odhad webové adresy
– použití předmětového adresáře (klasifikace zdrojů podle
předmětových kategorií)
– použití internetového vyhledávače (vyhledávácí služby
nepostihují celý obsah webu – tzv. neviditelný web mnohdy
nedokážou běžné nástroje prohledat)
Vyhledávací nástroje
základní zásady výběru vyhledávacího nástroje




vyčerpávající průzkum → nástroj s velkou databází
nejznámější a nejvíce navštěvované zdroje → nástroj
budovaný na základě ručního sběru dat
máme jasnou představu o hledaném tématu → vyhledávací
stroj
výběr se bude lišit i podle toho, zda chceme vyhledávat
nebo prohledávat
příklad
- budeme-li chtít prohledávat klíčovými slovy např. české
zdroje, použijeme raději Google – kvalitnější výsledky než třeba
český Seznam (Google – větší databáze)
- budeme-li chtít použít pro hledání českých zdrojů předmětový
katalog, obrátíme se na Centrum.cz, nikoliv třeba na službu
Yahoo!.
Vyhledávací nástroje
druhy:
– internetové vyhledávače, služby typu „search engines“,
vyhledávací systémy
– předmětové adresáře a virtuální knihovny
internetové vyhledávače obvykle disponují vyhledáváním
i předmětovými adresáři
–
metavyhledávací nástroje
Internetové vyhledávače
internetový vyhledávač, vyhledávací stroj, search engine,
fultextový vyhledávač
systém, který na základě klíčového slova formulovaného
uživatelem hledá v databázi nebo v indexu a oznámí uživateli
výsledek
Internetové vyhledávače
základní rozdíly mezi vyhledávacími stroji:
- jaký prostor internetu nástroj prohledává (jen WWW nebo také
Usenet (o něm), Gopher (o něm), FTP – Archie, Snoopie
(o FTP) aj.)
- velikost indexu (seznam slov a jim odpovídajících dokumentů
ve kterých se dané slovo vyskytuje )
- způsob indexování webových stránek
frekvence výskytu, počet termínů vyhovujících požadavku, váha podle polí,
proximita, pořadí slov v dotazu apod.
- způsob řazení výsledků
- možnosti vyhledávání
- jaké typy dokumentů pokrývá vyhledávací nástroj
- uživatelská podpora a přívětivost
- možnost personalizace
Internetové vyhledávače
při výběru vyhledávacího nástroje bereme v úvahu

velikost jeho indexu

způsob indexování

aktuálnost informací (update)
žádný internetový vyhledávač neumí prohledat celý internet
žádný vyhledávač není ideální
Internetové vyhledávače
katalogy a rozcestníky internetových vyhledávačů:

Hotsheet – http://www.hotsheet.com/
tematicky uspořádané, velké množství kategorií

Beaucoup - http://www.beaucoup.com/
tematicky uspořádané

SearchengineCollossus - http://www.searchenginecolossus.com/
seznam vyhledávačů uspořádaný teritoriálně
Internetové vyhledávače
informace o internetových vyhledávačích :
například
SearchengineShowDown - http://searchengineshowdown.com/
Světové internetové vyhledávače
Google
– založ. v r. 1998
– jeden z nejpopulárnějších a největších vyhledávacích nástrojů
– poskytuje řadu dalších služeb
– systém denně aktualizuje 260 zaměstnanců z nichž více než 50
má titul PhD.
Světové internetové vyhledávače
Google
výhody:
 veliká databáze
 možnost nastavení jazyka podle volby uživatele
 hledané termíny jsou zvýrazněné
 lišta nástrojů s mnoha funkcemi
 propracované vyhledávání v mnoha speciálních zdrojích
 zobrazuje stránky, které už zanikly, ale jsou v paměti (archiv/
cached) - s udáním data, kdy byly indexovány
Světové internetové vyhledávače
Světové internetové vyhledávače
Světové internetové vyhledávače
Google
nevýhody:
indexuje pouze prvních 101 KB u webových stránek a 120 KB
u pdf souborů
 nepoužívá rozšíření
 v jednoduchém vyhledávání neumožňuje plné použití
booleovských operátorů (např. NOT)
 neumožňuje použití závorek k seskupování klíčových slov
v dotazu (v obou uvedených případech - stejný výsledek)
např.

pizza AND (žampiony OR šunka) AND olivy
nebo

(pizza AND žampiony) OR (šunka AND olivy)
Světové internetové vyhledávače
způsoby vyhledávání

jednoduché vyhledávání
implicitně AND
vyhledávání podle polí
„Zkusím štěstí“ zobrazí první vyhledaný výsledek

rozšířené vyhledávání
předdefinovaný formulář
Světové internetové vyhledávače
prohledávání podle polí
příklady
 allintitle:text
 allinurl:text
 allintext:text
vyhledávání podle obrázků (ikona fotoaparátu)
zkratky pro vyhledávání
define:library
a řada dalších
Světové internetové vyhledávače
fráze
uvozovky
rozšíření
hledá automaticky jednotné a množné číslo
maskování
možné uvnitř frází – např. „pizza se šunkou a *“
Světové internetové vyhledávače
nerozlišuje malá a velká písmena
př.
Brno – totéž co brno
vyhledání synonym pomocí ~
př.
šumava ~cesty najde i trasy apod.
Světové internetové vyhledávače
řada dalších služeb

přehled dalších možností

co všechno Google umí
Světové internetové vyhledávače
nejhledanější slova na Googlu
2011
http://www.googlezeitgeist.com/en
http://computerworld.cz/internet-a-komunikace/googlezeitgeist- nejvyhledavanejsi-slova-v-roce-2011-44274
2012
http://www.google.com/zeitgeist/2012/#the-world
http://www.zive.cz/clanky/nejhledanejsi-slova-roku-2012-naceskem-seznamu/sc-3-a-167107/default.aspx
Světové internetové vyhledávače
specializované služby Googlu


Scholar
Books (Knihy)
Světové internetové vyhledávače
Google Scholar
 specializovaný vyhledávač vědeckých informací recenzovaných článků, disertací, knih, preprintů, abstrakt,
technických zpráv ze všech oborů výzkumu, vysokoškolských
kvalifikačních prácí
 umožňuje
– vyhledání dokumentu
– zobrazení abstraktu
– vyhledání citací dokumentu

http://scholar.google.com/
Světové internetové vyhledávače

řazení článků
podle relevance (hodnocení textu, váha autora, reputace
zdroje, ve kterém je zveřejněn)

hledání podle autora
(př. einstein - pokud mnoho výsledků lze zúžit –
autor:einstein)
Světové internetové vyhledávače

struktura záznamu
– název
– začátek textu
– citace
– podobné články
– různé verze článku
příklad:
http://scholar.google.cz/scholar?hl=cs&q=sokrates&btnG=Hledat
Světové internetové
vyhledávače
Google knihy





nabízí ke stažení ve formátu pdf některé knihy, které již nejsou
chráněné autorským zákonem
původní plán – převést na internet 4 mil. knih z vybraných
amerických univerzitních a veřejných knihoven, z knihovny
britské Oxfordské univerzity a z Bavorské státní knihovny
nový plán - převést všechny existující knihy
u knih které jsou chráněny copyrightem zobrazuje pouze
základní bibliografické údaje, eventuálně krátké ukázky textu
http://books.google.cz/
Světové internetové vyhledávače
jednoduché vyhledávání
pokročilé vyhledávání
možno různých upřesnění
příklad: Sokrates
Světové internetové vyhledávače
služby Google knihy
příklad:
odkazy na stránce:
Najít v knihovně
Všichni prodejci
Světové internetové vyhledávače
Altavista
 vyhledávač vytvořen v r. 1995
 dnes ve vlastnictví Yahoo! – používá jeho databázi
a předmětový katalog
 indexuje všechna slova dokumentu (kromě poznámek),
využívá i slova z URL, ze jmen obrázků, metaprvky
 při posuzování relevance stránek se bere v úvahu řada
faktorů
např.
kde se nachází termín – největší váhu má titul, frekvence
výskytu, popularita stránky aj.
Světové internetové vyhledávače
Altavista
Silné stránky
velká škála funkcí
velká databáze
hledané termíny jsou zvýrazněné
používá proximitní operátory
Světové internetové vyhledávače
způsoby vyhledávání
 jednoduché vyhledávání
implicitně AND
vyhledávání podle polí

rozšířené vyhledávání
předdefinovaný formulář
Světové internetové vyhledávače
booleovské operátory (musí být velkými písmeny)
 AND implicitně
 OR
 NOT
 distanční operátory NEAR, ADJACENT (ADJ), FOLLOWED
BY
např. Karel NEAR Borovský
Světové internetové vyhledávače
fráze
uvozovky
vyloučení nežádoucích termínů
pomocí –
zabránění vyloučení obecných slov
pomocí +
Světové internetové vyhledávače
prohledávání podle polí
 domain:domainame



domain:cz +knihovna +katalog
like:URLtext
like:http://www.knihovna.czu.cz/
title:text
inurl:text
Světové internetové vyhledávače
další možnosti vyhledávání
 obrázky
 videa
 mapy
 news a řada dalších služeb

Světové internetové vyhledávače
omezení vyhledávače
v zájmu rychlého vyhledávání Altavista zastaví vyhledávací
proces po určitém časovém limitu, takže v závislosti na
momentální rychlosti zpracování úlohy můžeme při
opakovaném vyhledávání dostat rozdílný počet výsledků
Světové internetové vyhledávače
Lycos
velmi rychlé vyhledávání, personalizace
HotBot
jednoduché, komfortní a rychlé vyhledávání s pozoruhodnými
výsledky
Světové internetové vyhledávače
Ask
nabízí podobná vyhledávání
odpovědi na otázky uživatelů již nejen strojově dohledávány na
základě existujících webových zdrojů
v nové veřejné betaverzi vyhledávače Ask.com se dostává ke
slovu uživatelská komunita (Q&A Community)
na otázky uživatelů odpovídají jiní vybraní uživatelé na základě
svých znalostí a zkušeností
odpovědi rovněž indexovány, zobrazí se při dalším výskytu
stejného nebo podobného dotazu
České internetové vyhledávače
Seznam
Atlas
Centrum
vyhledavace.unas.cz
nebo
http://vyhledavace.webnode.cz/ceske-vyhledavace/
Předmětové adresáře
předmětový adresář – služba odkazující na zdroje, které do ní
dodali tvůrci webových stánek nebo informační pracovníci
předmětový adresář je organizovaný do předmětových
kategorií, podkategorií apod. (příklad)
do předmětových vyhledávačů řadíme i digitální knihovny,
které jsou sestavené profesionály, zdroje jsou často
anotované, hodnocené
z více hledisek
digitální knihovna - spravovaná sbírka informací, spolu se
službami
informace jsou v digitální podobě a dostupné
prostřednictvím sítě
Předmětové adresáře
výhody předmětových vyhledávačů
 anotování a hodnocení zdrojů
nevýhody
 použití různých klasifikačních schémat
 méně častá aktualizace
 subjektivita hodnocení daná lidským faktorem
Předmětové adresáře
kdy použijeme předmětový adresář
 okruh vyhledávaného tématu je příliš široký
 chceme-li získat relevantnější obsah než prostřednictvím
vyhledávačů
 chceme-li získat přehled webových sídel, které doporučili
experti
většina adresářů používá způsob prohlížení i vyhledávání podle
klíčových slov
vyhledávání neprobíhá na celém webu jako u vyhledávačů, ale jen
v záznamech adresáře
Předmětové adresáře
druhy adresářů
 akademické a profesionální
jsou vytvořeny experty na danou problematiku, využívají se
hlavně pro výzkumné účely
 komerční portály
určeny nejširší veřejnosti, cílem je co největší návštěvnost
Předmětové adresáře
Yahoo!
výhody
 jeden z prvních systémů, 1994 – univerzita ve Stanfordu
 jeden z největších adresářů
 denně aktualizovaný
 automatické spojení na Altavistu a Google
 hledaná slova jsou zvýrazněna
 podobně jako Google ukládá do paměti starší verze stránek
– Casched
Předmětové adresáře
Yahoo!
nevýhody - vyhledávání
 nedostatek pokročilých vyhledávacích možností – např.
rozšíření
 minimální využití booleovských operátorů
 indexuje pouze prvních 500 Kb z webové stránky
Předmětové adresáře
dmoz
vznikl 1998
představuje nový přístup k organizování informací na internetu
využívá princip externích redaktorů, kteří se starají o určitou
tematickou oblast
přispívat může každý, kdo má zájem
na každé stránce je uveden zodpovědný redaktor nebo výzva
„tato kategorie potřebuje redaktora“
česká verze
kategorie má editora
kategorie hledá editora
Předmětové adresáře
příklady virtuálních knihoven
Infomine
ipl2
(viz Neviditelný web)
Světové metavyhledávače
umožňují současné vyhledávání ve více než jednom
vyhledávacím nástroji nebo adresáři
zastřešují vybrané vyhledávače a jejich prostřednictvím získávají
výsledky
Světové metavyhledávače
výhody
 vyhledávání z jednoho místa
 pouze jednou zadáváme rešeršní dotaz
 výsledkem rešerše je jednotný seznam záznamů
nevýhody
 většinou limitují počet záznamů z jednoho zdroje (zpravidla
10)
 nevyužívají všechny možnosti formulování rešeršního
požadavku
Světové metavyhledávače
Federated Query Server (Open Text Corporation)
výkonný metavyhledávač od firmy Open Text
Yippy!
seskupování výsledků do klastrů
Metacrawler
DogPile
Excite
funguje od r. 1996, přináší poměrně kvalitní výsledky
Neviditelný web
neviditelný web, skrytý web, hlubinný web
invisible web, hidden web, deep web
kolem r. 1999, se zjistilo, že vyhledávací stroje neindexují stále
více webovského prostoru
některé vyhledavače mohou najít pouze zlomek informací
z webové stránky nebo vstupní bránu k databázi, ale další
obsah již nemohou prohledat
proto jsou takové stránky označována jako stránky neviditelné
Neviditelný web
Michael K. Bergman
Neviditelný web
Michael
K. Bergman
Neviditelný web
Obsah neviditelného webu
podle tematických oblastí
Neviditelný web
důvody







vyhledávací stroje nedokážou vyhledávat v databázích
vyhledávací stroje nedokážou indexovat dynamicky se
měnící stránky (informace se generují z databáze)
omezená přístupová práva (na některé stránky je přístup
chráněn heslem - katalogy knihoven, databáze apod.) –
stránky s neveřejným obsahem
pro mnoho vyhledávačů jsou jiné typy souborů než html
nečitelné
k řadě stránek nevedou odkazy z jiných stránek – odpojené
stránky (až 22% webu)
mnoho vyhledávacích strojů má omezení na počet
indexovaných stránek z určité domény
apod.
Neviditelný web
neviditelný web je až 500krát větší než tzv. povrchový web
obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v
povrchovém webu)
je to nejrychleji rostoucí část webu
až 95% informací v neviditelném webu patří k veřejně přístupným
informacím, které jsou přístupné bez poplatků
Neviditelný web
jak funguje běžný vyhledávací stroj
na základě klíčového slova hledá ve své databázi nebo indexu
důležitou součástí je robot
jestli-že na některé stránky nevedou spojení, robot je nenajde
„odpojené“ stránky představují až 22% současného internetu
a tvoří tzv. skutečně neviditelný web
běžné vyhledávací stroje - zpravidla optimalizované na textové
dokumenty
nevyhledávají v databázích
Neviditelný web
typy obsahu v neviditelném webu a důvody neviditelnosti





odpojené stránky
robot nemůže sledovat spojení na stránku
stránka obsahuje hlavně obrázky, video, audio
nedostatek textu, aby robot porozuměl obsahu
stránka obsahuje hlavně soubory pdf, postscript, flash apod.
stránka se většinou neindexuje z ekonomických důvodů
obsah v relačních databázích
roboty nedokážou vyplnit požadovaná pole v interaktivních
formulářích
obsah se mění v reálném čase
obrovské množství dat, které se neustále mění
Neviditelný web
příklad rozdílu mezi „viditelným“ a „neviditelným“ webem
viditelný:
iCivil Engineering - http://www.icivilengineer.com/
neviditelný:
Civil Engineering database - http://cedb.asce.org/
Neviditelný web
brány pro neviditelný web
Complete Planet
umožňuje vyhledávání ve více než 100 000 databází
a specializovaných vyhledávacích nástrojích - zdarma
vyhledávání nebo prohlížení
využití booleovských operátorů
u záznamů je uvedená míra relevance
Neviditelný web
brány pro neviditelný web
Scirus – www.scirus.com
vyhledávací stroj Elsevieru – vyhledává ve viditelném
i neviditelném webu
specifický vyhledávací nástroj pro odborné informace (záměrná
filtrace nevědeckých obsahů, hluboká indexace www,
vědeckých databází)
Neviditelný web
ipl2 – dříve Librarians‘ Index to the Internet
digitální knihovna, ale zahrnuje zdroje ze skrytého webu
předmětový anotovaný adresář s více než 8000 internetových
zdrojů
vybrali a anotovali odborníci z oblasti organizace vědění
systém udržuje přes 100 specialistů
každodenní aktualizace
Neviditelný web
Infomine
digitální knihovna, ale zahrnuje zdroje ze skrytého webu
od r. 1994 jako systém University of California
vytvářejí ho informační profesionálové
přístup k více než 23 000 databází
zdroj především pro akademickou komunitu
propracované možnosti vyhledávání
u každého záznamu seznam předmětových hesel a klíčových
slov (More info… )
Archiv webu
Internet Archive
Wayback Machine
http://www.archive.org
asi 10 miliard stránek v rozsahu 1Pbyte (7/2004)
Archiv webu
WebArchiv - archiv českého webu
uchování digitálních dokumentů volně dostupných na webu
co lze nalézt ve WebArchivu:
 publikace odborného, uměleckého a zpravodajskopublicistického zaměření
 periodika, monografie, konferenční příspěvky, výzkumné a
jiné zprávy, akademické práce
 textové a do jisté míry i obrazové a zvukové dokumenty
existující pouze v digitální podobě
Problémy současného internetu
–
–
–
–
–
–
–
neustálý nárůst hostitelských počítačů
nové typy dokumentů, které nejsou dostatečně indexované
množství vyhledávacích nástrojů různé kvality
žádný nástroj nepokrývá celý web
obsah a lokalizace dokumentů se často mění
málo vyhledávacích nástrojů hodnotí dokumenty
současná verze html neumožňuje dostatečně popisovat obsah
dokumentu (podává informaci o grafickém uspořádání
dokumentu) – o postižení obsahu dokumentu se snaží tzv.
„sémantický web“
Závěr
Literatura:
MAKULOVÁ, SOŇA Vyhľadávanie informácií v internete : problémy,
východiská, postupy. Bratislava : EL&T, 2002.
BOLDIŠ, PETR. Jak oddělit zrno od plev: Ověřování informací v prostředí
internetu [online]. 2003 [citováno 7.10.2010].
<http://www.boldis.cz/doc/overovani2003.pdf >.
BOLDIŠ, PETR. Vyhledávání na internetu [online]. 2001 [citováno 7.10.2010].
<http://boldis.cz/index.php?iweb>.
Kompendium
http://home.zcu.cz/~mirkova/vyuka.html
Těšíme se na shledanou v knihovně