Přednáška Vyhledávání
Download
Report
Transcript Přednáška Vyhledávání
Barbora Poláková ; Martin Kozel
Osnova přednášky
Co se děje?
změny v přístupu a práci s informacemi
Co s tím ?
Struktura informací na webu – teorie a praxe
Jak na to ?
Strategie vyhledávání a postupy
Informace
Komunikovatelný popis jevu, jehož přijetím
dochází ke změnám v informačním systému.
Odstraněná ENTROPIE
Vyšší míra uspořádanosti
Čím více neurčitosti odstraní tím větší má
informace hodnotu.
(Shannon,1948)
○ popsatelná
○ kontextově nezávislá
○ organizovatelná
informační zdroj/pramen
Informační společnost
je taková společnost, ve které je věnována pozornost
informační činnosti natolik, že dojde ke snížení zájmu o
zemědělskou a průmyslovou výrobu (Vlasák, 2000)
Marc Uri Porat (1976). Information economy : definition
and measurement
70.léta – postindustriální společnost
○ průmysl ----- > služby
agro
průmysl
služby
80.léta – informační společnost
propojení počítačového průmyslu s ostatními průmyslovými
odvětvími
rozvoj informační a počítačové GRAMOTNOSTI
INFORMAČNÍ SEKTOR – profese tvorby, sběru, zpracovávání,
uchovávání, zpětného vyhledávání a dalšího šíření informací
(Vlasák, 2000)
Průmysl
Služby
Agro
Informační
sektor
Informační exploze
Informace = Moc = Peníze !!!
Prudký rozvoj informačních technologií a
jejich dostupnost
KVANTITATIVNÍ nárůst informací a
informačních zdrojů
Redundance ; relevance ; pertinence
Mrtvá data – long tail effect
Informační smog
(Shenk 1997)
lidstvo se nevyvíjí dost rychle aby
zvládalo množství informací
Exformace - informace existující za
hranicemi našeho vědomí (Gore, 1994)
Zahlcení
snížení citlivosti k obsahu - mozková
kapacita je stále stejná (Černohlávková, 2006)
Znalostní společnost
nadstavba informační společnosti
založená na kolaboraci a interakci mezi
uživateli
Web 2.0 - Tim Bernards-Lee (2000)
Znalost
kontextově závislá ; pragmatický obraz
informace reprezentovaný intelektuálním
kapitálem jednotlivce (Bukh, 2001)
Terminologické vyjasnění
Základní abstraktní pojmy :
INFORMACE
ZNALOSTI
Základní konkrétní pojmy :
Informační / elektronický zdroj
digitální / informační objekt / entita
Publikační procesy
Publikační proces
informačního zdroje - původní
autor
producent
distributor
uživatel
Nakladatelství, časopisy, databáze,
databázová centra
Publikační proces
informačního zdroje – nyní
Autor
Uživatel
Web 2.0 – sociální sítě, wiki, blog
Hodnocení
+
Aktuálnost
Rychlost
Kooperace
Kontrola kvality, relevance
Korektura
Odborný dohled
Distribuce a popis jsou na autorovi –
NEDOHLEDATELNOST
KDE TO VŠECHNO MŮŽEME
NAJÍT ?
World Wide Web
Viditelný / povrchový web
informační entity volně přístupné a snadno
dostupné pomocí vyhledávacích strojů
Neviditelný / hluboký web
neviditelný pro běžné vyhledavače
○ databáze, adresáře, rejstříky, dokumenty v
nepodporovaných formátech, licencované
stránky
○ 500x větší než povrchový web
Web povrchový a hluboký
(Bergman,2001)
Obsahové rozvrstvení
hlubokého webu (Bergman, 2001)
CO TAM MŮŽEME NAJÍT ?
Digitální objekt (DO)
základní entita
Hledisko původu:
digitalizované informační zdroje
○ E-book ; postprinty
born digital
○ Webové stránky, fóra, komunity, blogy, wiki
Hledisko typů DO
MIME - Multipurpose Internet Mail Extension
Specifikuje charakter obsahu oficiálně
komunikovaných DO na internetu
Typy:
○ Text
○ Obraz
○ Video
○ Zvuk
○ Software
○ Trojrozměrné digitální objekty
Digitální objekt
Hlavička /
Metadata
Obsah
Podpis
Metadata – Velká a mocná
„Data o datech“
Strukturované informace, které popisují,
osvětlují, lokalizují a usnadňují
vyhledávání a využívání informačního
zdroje. (Guidlines for Digitalization, 2007)
Popis DO
Předobraz metadatového popisu je v
popisu tradičních zdrojů.
strojem čitelný X stroji srozumitelný
Dvě úrovně popisu:
věcná – obsah, anotace, abstrakt, klíčová
slova, kódy systematického třídění …
popisná –popis dokumentu podle formálních
znaků ; autor, název, vydavatel, rok vyd. …
Tradiční bbg. Záznam MARC 21
Dublin Core Metadata Initiative DCMI
Dublin Core
Soubor 15 metadatových kvalifikovatelných
prvků
Původně popis zdrojů na WWW ; současně popis
jakéhokoli objektu
Garant popisu - autor user-friendly
Dublin Core Czech
DCMI homepage
Prvky DC
Název
Tvůrce
Předmět
Popis
Vydavatel
Přispěvatel
Datum
Typ zdroje
Formát
Identifikátor
Zdroj
Jazyk
Vztah
Pokrytí
Práva
Identifikátory
URL
Adresa DO; určuje pozici DO v prostředí
webu
URN
Znakový řetězec nebo číslo, které
jednoznačně identifikuje dokument
Trvalé, nepřenosné
Generátory metadat
XML soubory
Metadata - DC
TAK JSME TO HEZKY POPSALI
…
A JAK TO NAJDEM?
Vyhledávací nástroje
„HLAVORUČNÍ“
Předmětové katalogy - directories Seznam katalog, Yahoo katalog
třídění a organizace DO podle předem
dané taxonomie nebo předmětové
klasifikace
Nejpodobnější tradičním knihovnám
Lidský faktor
Malé pokrytí, úplnost taxonomie
Vyhledávací nástroje
AUTOMATICKÉ
Vyhledavače - search engine
Altavista
Metavyhledavače
víc indexů najednou
Open Text
Sekvenční analýza
Automatická INDEXACE digitálních objektů za
pomoci speciálního softwaru
Robot ; crawler ; spiders ; bot
Index – reprezentace fondu úplných textů - metadata
Vyhledavač – obecné schéma
Vyhledavač
Prostředí webu
(Poláková, 2009)
Google Schéma (Brin & Page, 2000)
Uživatelské rozhraní – 1/2
Textové
Textový vyhledávací dotaz
Textová reprezentace výsledku
Index – zkrácená informace o příslušném
zdroji
odkaz na fulltext
○ Google
Question answering
2/2
Uživatelské rozhraní –
1/3
Clustry
Vektorová logika –
Vážení podobnosti dokumentů s dotazy –
relevance
Informační prostor – soubor prvku a
vztahů mezi nimi udržovaných
informačním systémem (Ingwersen 1996)
Clustry
v informačním prostoru
2/3
(Traykovski &Sosisk, 2007)
Clusty.com
3/3
Uživatelské rozhraní –
1/3
Vizuální
Carrot2
2/3
Searchme
3/3
CO, KDE, a JAK
Základní princip
CO?
KDE?
JAK?
Co chci najít?
Informační potřeba
to co vím mi nestačí
Požadavek
konkretizovaná představa o informační
potřebě
Dotaz
Kladu přímo zdroji, ve kterém hledám
Ve vyhledávačích obecně:
navigační, informační, transakční (např. co,
kdy, kde atd.)
Informační potřeba
V 80-90 letech se rozvíjí věda nazvaná
„informační chování uživatele“
Posun v přístupu
computer-centred => user-centred
Tři základní přístupy
Kognitivní
Sociální
Sociokognitivní (nejvíc in, kombinace
individualismu s kontextualitou prostředí)
KDE
Typ zdroje
Primární zdroje
Sekundární zdroje
Terciální zdroje
Vyhledavače, katalogy, databáze,
encyklopedie
Globální / lokální charakter,
Gatekeeping
JAK
Vychytávky
Boolean logika (AND, OR, NOT )
Proximitní operátory (NEAR,
WITHIN, SAME, „…“)
Lematizace (skloňování, ?, * atd.)
Typy vyhledávání
Fulltextové
Faktografické
Atd.
Rešeršní strategie
JAK
ANALYTICKÉ VYHLEDÁVÁNÍ
Systematická strategie
Příprava, promýšlení problému,
předdotazy
PROHLÍŽENÍ (browsing)
Intuitivní vyhledávání
ZPĚTNÁ VAZBA
Co
Povedlo
se?
Jak
Kde
REŠERŠNÍ STRATEGIE
Základní kameny
Rostoucí perla
Osekávání
Literatura
GORE, Albert. Země na misce vah. 1.vyd. Praha: Argo, 1994, ISBN 8085794-21-7. str.186.
ČERNOHLÁVKOVÁ, Kateřina. Informační hygiena. Brno : Masarykova
Univerzita, 2006.
SHENK, David. Data Smog : Surviving the Information Glut. 1 st ed. San
Francisco : Harper Edge,1997. 250 s. ISBN 0060187018.
ARMS, W. Key Concepts in the Architecture of the Digital Library. D-Lib
Magazine [online]. July 1995 [cit. 2007-10-22]. Dostupný z WWW: <
http://www.dlib.org/dlib/July95/07arms.html>. ISSN 1082-9873.
Brin S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search
Engine. Stanford University [online] 2000 [cit. 2010-03-22]. Dostupný z
WWW: http://infolab.stanford.edu/~backrub/google.html
SKLENÁK (2000). Data informace znalosti
BUKH, P.N. Larsen H.T., Mouritsen J. (2001) Constructing intellectual capital
statements. Scandinavian Journal of managemennt roč. 17, s. 87-108
Literatura
VLASÁK, R. (2000). Informační povolání a informační společnost
PILECKÁ, Věra Kognitivní aspekty vyhledávání. Dostupný z WWW:
<http://www.ikaros.cz/node/3592>.
Pilecká, Věra (2010) Kognitivní přístupy k vyhledávání informací. Praha :
Univerzita Karlova.
Mírková, Miluše (2009) Bibliografická a rešeršní činnost. Dostupný z WWW:
http://home.czu.cz/~mirkova/
Portál pro podporu informační gramotnosti – www.inforgram.cz