Přednáška Vyhledávání

Download Report

Transcript Přednáška Vyhledávání

Barbora Poláková ; Martin Kozel
Osnova přednášky

Co se děje?
 změny v přístupu a práci s informacemi

Co s tím ?
 Struktura informací na webu – teorie a praxe

Jak na to ?
 Strategie vyhledávání a postupy
Informace


Komunikovatelný popis jevu, jehož přijetím
dochází ke změnám v informačním systému.
Odstraněná ENTROPIE
Vyšší míra uspořádanosti

Čím více neurčitosti odstraní tím větší má
informace hodnotu.
(Shannon,1948)
○ popsatelná
○ kontextově nezávislá
○ organizovatelná

informační zdroj/pramen
Informační společnost

je taková společnost, ve které je věnována pozornost
informační činnosti natolik, že dojde ke snížení zájmu o
zemědělskou a průmyslovou výrobu (Vlasák, 2000)

Marc Uri Porat (1976). Information economy : definition
and measurement

70.léta – postindustriální společnost
○ průmysl ----- > služby
agro
průmysl
služby

80.léta – informační společnost
 propojení počítačového průmyslu s ostatními průmyslovými
odvětvími
 rozvoj informační a počítačové GRAMOTNOSTI
 INFORMAČNÍ SEKTOR – profese tvorby, sběru, zpracovávání,
uchovávání, zpětného vyhledávání a dalšího šíření informací
(Vlasák, 2000)
Průmysl
Služby
Agro
Informační
sektor
Informační exploze

Informace = Moc = Peníze !!!
Prudký rozvoj informačních technologií a
jejich dostupnost
 KVANTITATIVNÍ nárůst informací a
informačních zdrojů

 Redundance ; relevance ; pertinence
 Mrtvá data – long tail effect
Informační smog

(Shenk 1997)
lidstvo se nevyvíjí dost rychle aby
zvládalo množství informací
Exformace - informace existující za
hranicemi našeho vědomí (Gore, 1994)
 Zahlcení

 snížení citlivosti k obsahu - mozková
kapacita je stále stejná (Černohlávková, 2006)
Znalostní společnost
nadstavba informační společnosti
založená na kolaboraci a interakci mezi
uživateli
 Web 2.0 - Tim Bernards-Lee (2000)

 Znalost
 kontextově závislá ; pragmatický obraz
informace reprezentovaný intelektuálním
kapitálem jednotlivce (Bukh, 2001)
Terminologické vyjasnění

Základní abstraktní pojmy :
 INFORMACE
 ZNALOSTI

Základní konkrétní pojmy :
 Informační / elektronický zdroj
 digitální / informační objekt / entita
Publikační procesy
Publikační proces
informačního zdroje - původní
autor
producent
distributor
uživatel
Nakladatelství, časopisy, databáze,
databázová centra
Publikační proces
informačního zdroje – nyní
Autor
Uživatel
Web 2.0 – sociální sítě, wiki, blog
Hodnocení

+
 Aktuálnost
 Rychlost
 Kooperace

 Kontrola kvality, relevance
 Korektura
 Odborný dohled
 Distribuce a popis jsou na autorovi –
NEDOHLEDATELNOST
KDE TO VŠECHNO MŮŽEME
NAJÍT ?
World Wide Web

Viditelný / povrchový web
 informační entity volně přístupné a snadno
dostupné pomocí vyhledávacích strojů

Neviditelný / hluboký web
 neviditelný pro běžné vyhledavače
○ databáze, adresáře, rejstříky, dokumenty v
nepodporovaných formátech, licencované
stránky
○ 500x větší než povrchový web
Web povrchový a hluboký
(Bergman,2001)
Obsahové rozvrstvení
hlubokého webu (Bergman, 2001)
CO TAM MŮŽEME NAJÍT ?
Digitální objekt (DO)

základní entita

Hledisko původu:
 digitalizované informační zdroje
○ E-book ; postprinty
 born digital
○ Webové stránky, fóra, komunity, blogy, wiki
Hledisko typů DO

MIME - Multipurpose Internet Mail Extension


Specifikuje charakter obsahu oficiálně
komunikovaných DO na internetu
Typy:
○ Text
○ Obraz
○ Video
○ Zvuk
○ Software
○ Trojrozměrné digitální objekty
Digitální objekt
Hlavička /
Metadata
Obsah
Podpis
Metadata – Velká a mocná

„Data o datech“

Strukturované informace, které popisují,
osvětlují, lokalizují a usnadňují
vyhledávání a využívání informačního
zdroje. (Guidlines for Digitalization, 2007)
Popis DO

Předobraz metadatového popisu je v
popisu tradičních zdrojů.
 strojem čitelný X stroji srozumitelný

Dvě úrovně popisu:
 věcná – obsah, anotace, abstrakt, klíčová
slova, kódy systematického třídění …
 popisná –popis dokumentu podle formálních
znaků ; autor, název, vydavatel, rok vyd. …
Tradiční bbg. Záznam MARC 21
Dublin Core Metadata Initiative DCMI

Dublin Core
 Soubor 15 metadatových kvalifikovatelných
prvků

Původně popis zdrojů na WWW ; současně popis
jakéhokoli objektu

Garant popisu - autor  user-friendly
Dublin Core Czech
 DCMI homepage

Prvky DC
Název
 Tvůrce
 Předmět
 Popis
 Vydavatel
 Přispěvatel
 Datum
 Typ zdroje

Formát
 Identifikátor
 Zdroj
 Jazyk
 Vztah
 Pokrytí
 Práva

Identifikátory

URL
 Adresa DO; určuje pozici DO v prostředí
webu

URN
 Znakový řetězec nebo číslo, které
jednoznačně identifikuje dokument
 Trvalé, nepřenosné


Generátory metadat
XML soubory
Metadata - DC
TAK JSME TO HEZKY POPSALI
…
A JAK TO NAJDEM?
Vyhledávací nástroje
„HLAVORUČNÍ“

Předmětové katalogy - directories Seznam katalog, Yahoo katalog

třídění a organizace DO podle předem
dané taxonomie nebo předmětové
klasifikace
 Nejpodobnější tradičním knihovnám
 Lidský faktor
 Malé pokrytí, úplnost taxonomie
Vyhledávací nástroje
AUTOMATICKÉ

Vyhledavače - search engine
 Altavista

Metavyhledavače
 víc indexů najednou
 Open Text


Sekvenční analýza
Automatická INDEXACE digitálních objektů za
pomoci speciálního softwaru
 Robot ; crawler ; spiders ; bot
 Index – reprezentace fondu úplných textů - metadata
Vyhledavač – obecné schéma
Vyhledavač
Prostředí webu
(Poláková, 2009)
Google Schéma (Brin & Page, 2000)
Uživatelské rozhraní – 1/2
Textové

Textový vyhledávací dotaz

Textová reprezentace výsledku
 Index – zkrácená informace o příslušném
zdroji
 odkaz na fulltext
○ Google
Question answering
2/2
Uživatelské rozhraní –

1/3
Clustry
Vektorová logika –
 Vážení podobnosti dokumentů s dotazy –
relevance

Informační prostor – soubor prvku a
vztahů mezi nimi udržovaných
informačním systémem (Ingwersen 1996)
Clustry
v informačním prostoru
2/3
(Traykovski &Sosisk, 2007)
Clusty.com
3/3
Uživatelské rozhraní –
1/3
Vizuální
Carrot2
2/3
Searchme
3/3
CO, KDE, a JAK
Základní princip
CO?
KDE?
JAK?
Co chci najít?

Informační potřeba
 to co vím mi nestačí

Požadavek
 konkretizovaná představa o informační
potřebě

Dotaz
 Kladu přímo zdroji, ve kterém hledám
 Ve vyhledávačích obecně:
navigační, informační, transakční (např. co,
kdy, kde atd.)
Informační potřeba
V 80-90 letech se rozvíjí věda nazvaná
„informační chování uživatele“
 Posun v přístupu
computer-centred => user-centred
 Tři základní přístupy

 Kognitivní
 Sociální
 Sociokognitivní (nejvíc in, kombinace
individualismu s kontextualitou prostředí)
KDE

Typ zdroje
 Primární zdroje
 Sekundární zdroje
 Terciální zdroje

Vyhledavače, katalogy, databáze,
encyklopedie

Globální / lokální charakter,
Gatekeeping
JAK

Vychytávky
 Boolean logika (AND, OR, NOT )
 Proximitní operátory (NEAR,
WITHIN, SAME, „…“)
 Lematizace (skloňování, ?, * atd.)

Typy vyhledávání
 Fulltextové
 Faktografické
 Atd.

Rešeršní strategie
JAK

ANALYTICKÉ VYHLEDÁVÁNÍ
 Systematická strategie
 Příprava, promýšlení problému,
předdotazy

PROHLÍŽENÍ (browsing)
 Intuitivní vyhledávání
ZPĚTNÁ VAZBA
Co
Povedlo
se?
Jak
Kde
REŠERŠNÍ STRATEGIE
Základní kameny
 Rostoucí perla
 Osekávání

Literatura







GORE, Albert. Země na misce vah. 1.vyd. Praha: Argo, 1994, ISBN 8085794-21-7. str.186.
ČERNOHLÁVKOVÁ, Kateřina. Informační hygiena. Brno : Masarykova
Univerzita, 2006.
SHENK, David. Data Smog : Surviving the Information Glut. 1 st ed. San
Francisco : Harper Edge,1997. 250 s. ISBN 0060187018.
ARMS, W. Key Concepts in the Architecture of the Digital Library. D-Lib
Magazine [online]. July 1995 [cit. 2007-10-22]. Dostupný z WWW: <
http://www.dlib.org/dlib/July95/07arms.html>. ISSN 1082-9873.
Brin S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search
Engine. Stanford University [online] 2000 [cit. 2010-03-22]. Dostupný z
WWW: http://infolab.stanford.edu/~backrub/google.html
SKLENÁK (2000). Data informace znalosti
BUKH, P.N. Larsen H.T., Mouritsen J. (2001) Constructing intellectual capital
statements. Scandinavian Journal of managemennt roč. 17, s. 87-108
Literatura

VLASÁK, R. (2000). Informační povolání a informační společnost

PILECKÁ, Věra Kognitivní aspekty vyhledávání. Dostupný z WWW:
<http://www.ikaros.cz/node/3592>.
Pilecká, Věra (2010) Kognitivní přístupy k vyhledávání informací. Praha :
Univerzita Karlova.
Mírková, Miluše (2009) Bibliografická a rešeršní činnost. Dostupný z WWW:
http://home.czu.cz/~mirkova/
Portál pro podporu informační gramotnosti – www.inforgram.cz


