Organizacija informacija

Download Report

Transcript Organizacija informacija

Filološki fakultet Univerziteta u Beogradu

Organizacija informacija

Ružica Petrović

Beograd, mart 2010.

Tradicionalne metode organizacije informacija

 Organizacija informacionih izvora u cilju obezbeđivanja lakšeg i bržeg pristupa kolekcijama je jedan od osnovnih bibliotečkih zadataka;  Dve metode koje se koriste u tu svrhu u tradicionalnim bibliotekama: 1. Bibliografska klasifikacija (identifikacijom sadržine neke bibliotečke jedinice određuje se njeno mesto na polici, odnosno u sistemu naučnih i stručnih oblasti).

Najpoznatije klasifikacione šeme: - Univerzalna decimalna klasifikacija (UDK/UDC); - Djuieva decimalna klasifikacija (DDK/DDC); - Klasifikacija Kongresne biblioteke (LCC).

2. Katalogizacija (sistematizacija građe prema formalnim principima, tj. opisnim elementima, ne zalazeći u sadržinsku analizu); kataloški opis obično obuhvata 8 područja (naslov i podaci o odgovornosti, izdanje, vrsta građe, izdavanje, materijalni opis, izdavačka celina, napomene, standardni broj i dostupnost).

2

Da li ove tradicionalne metode mogu biti od koristi i u organizaciji informacija u digitalnim bibliotekama?

 Mnogi istraživački projekti su pokazali da primena tradicionalnih klasifikacionih šema i organizacija web informacionih izvora prema disciplinama i temama može pomoći pri traženju potrebnih informacija jer se korisnici relativno lako snalaze u pretraživanju po izvorima organizovanim na ovaj način;  S druge strane, pokazalo se da primena tradicionalnih kataloških šema i bibliografskih formata kao što su Anglo-američka kataloška pravila i MARC (mašinski čitljiva katalogizacija) nije od koristi za digitalne izvore zbog toga što: - kataloški sistemi i MARC formati nemaju odredbe za opisivanje svih korisnih karakteristika različitih vrsta digitalnih informacionih izvora, posebno web stranica; - digitalni, posebno internet izvori su toliko brojni, a njihov broj i dalje raste velikom brzinom tako da je praktično nemoguće ići u korak sa time i katalogizirati svaki izvor ručno.

3

Klasifikacija digitalnih informacija

Primeri projekata i servisa koji koriste tradicionalne klasifikacione šeme i liste predmetnih odrednica u organizaciji web informacionih izvora:  BUBL LINK - klasifikacija prema DDK;  CYBERDEWEY - takođe koristi DDK klase, ali pruža i mogućnost izbora termina iz alfabetskog indeksa;  SCORPION – projekat organizacije OCLC Office of Research koja se bavi istraživanjem indeksiranja i katalogizacije internet izvora;  CYBERSTACKS – kolekcija odabranih digitalnih izvora kategorizovanih prema klasifikacionoj šemi Kongresne biblioteke;  INFOMINE – servis koji je nastao u januaru 1994. g. kao projekat Kalifornijske Univerzitetske biblioteke; koristi sistem predmetnih odrednica Kongresne biblioteke za indeksiranje informacionih izvora;  SCOUT REPORT – istraživački projekat kojeg je pokrenula US National Science Foundation i trajao je od 1996. – 2000. g.; cilj je bio pokazati da internet izvori mogu biti klasifikovani upotrebom postojećih kontrolisanih rečnika poput LCSH (Library of Congress Subject Headings), u saglasnosti sa Dublin Core standardom za metapodatke.

4

BUBL LINK (http://bubl.ac.uk/)

 Obezbeđuje pristup katalogu sa preko 11 000 odabranih internet izvora koji su sređeni prema DDK; korisnici mogu vršiti pretraživanje izborom jedne od DDK klasa ili izborom odgovarajućeg termina iz alfabetskog indeksa.

5

Primeri organizacije informacija u nekim digitalnim bibliotekama

California Digital Library

– ima minimalnu organizaciju; korisnik može prvo odabrati neku određenu kolekciju, a potom izvršiti pretraživanje; postoji i mogućnost unakrsnog pretraživanja kroz više kolekcija; jedinice nisu klasifikovane nekim sistemom, već je umesto toga izvršena podela kolekcija prema disciplinama ili širim oblastima; 

ACM Portal: the ACM digital library

– ovde su jedinice klasifikovane prema CCS (ACM Computing Classification System); 

THOMAS

– digitalna biblioteka Kongresne biblioteke koja okuplja informacione izvore iz oblasti prava; dokumenti su klasifikovani prema širokim kategorijama, a u okviru njih prema specifičnim podgrupama.

6

American Memory (http://memory.loc.gov/)

Sadrži preko 7 miliona dokumenata iz oblasti američke istorije i kulture.

7

Metapodaci: pojam i definicije

 U bibliotečkoj literaturi termin metapodatak se pojavljuje sredinom 1990-tih godina i za kratko vreme je postao veoma popularan.

 Najjednostavnija definicija: informaciji);

podatak o podatku

(ili informacija o  Složenije definicije: - Podatak koji opisuje karakteristike (atribute) nekog izvora; - Skup podataka koji opisuju, objašnjavaju, lociraju ili na drugi način čine lakšim pretraživanje, korišćenje ili upravljanje nekim izvorom informacija; - Značajan podatak koji opisuje i daje informacije o drugom podatku; - Podatak čija je osnovna funkcija da olakša identifikaciju, pronalaženje, manipulaciju i upotrebu digitalnih objekata u mrežnom okruženju.

8

Vrste metapodataka

Postoji 5 kategorija metapodataka klasifikovanih na osnovu njihove upotrebe:  Administrativni – uključuju detalje o broju zapisa, datumu kreiranja, modifikacije, identifikatoru kreatora zapisa, jeziku zapisa, odnosu prema drugim zapisima (informacije o upravljanju i administraciji resursa);  Opisni (deskriptivni) – koriste se da opišu ili identifikuju izvor (uključuju naslov, datum, izdavača, kreatora, rezime, jezik jedinice);  Metapodaci o očuvanosti – podaci kojima se proverava očuvanost informacionih izvora (npr. datoteke slika na elektronskom mediju mogu da se proveravaju u određenim intervalima; film treba proveriti radi kvaliteta, i sl.);  Tehnički – daju informacije o tome kako sistem funkcioniše (npr. specifikacije o opremi za digitalizaciju, softver za prepoznavanje glasa ili skeniranje);  Metapodaci o korišćenju – odnose se na nivo i vrstu upotrebe informacionih izvora (danas je sve više potrebno da se zna ko je video jednu jedinicu, npr. ko su korisnici neke teze što može biti od koristi radi otkrivanja plagijata).

9

Standardi za metapodatke

 Usled nemogućnosti tradicionalnih kataloških formata da zadovolje potrebe opisivanja različitih vrsta digitalnih informacionih izvora, razvili su se novi standardi za metapodatke.

 Postoje dve različite škole mišljenja koje utiču na razvoj standarda za metapodatke:  Minimalistički pogled – ističe potrebu za držanjem broja elemenata na minimumu, kao i potrebu za jednostavnom semantikom i sintaksom;  Strukturalistički pogled – zalaže se za finije semantičke razlike i za veće mogućnosti proširenja šeme, za potrebe pojedinih interesnih zajednica.

 Razlikuju se:   Opšti standardi (kao što su MARC i Dublin Core) koji se mogu prilagoditi opisivanju digitalnih informacionih izvora različitih vrsta iz različitih disciplina; Specijalizovani (kao što su EAD i FGDC – Federal Geographic Data Committee, koji se primenjuju u specifičnim disciplinama i oblastima).

10

Dublin Core (Dablinsko jezgro)

 Ovaj standard je nastao 1995. god. kao rezultat radionice održane u Dablinu, Ohajo (po čemu je i dobio ime) sa ciljem da se definiše skup elemenata koji bi koristili autori web izvora za opis svojih dela.

 Karakteristike:   Postojeći skup elemenata može biti proširen ukoliko je to neophodno za pojedine oblasti; Svi elementi su neobavezni;    Svi elementi su ponovljivi; Svi elementi mogu biti dodatno modifikovani; Elementi mogu biti poređani u proizvoljnom redosledu.

11

Elementi Dublin Core-a

 To je jednostavna, široko prihvaćena šema koja sadrži 15 elemenata podeljenih u 3 podgrupe zavisno od vrste i cilja informacije koje pružaju: 2. Elementi kojima se opisuje izvor sa gledišta intelektualne svojine: 1. Elementi koji služe za opis sadržaja izvora:     kreator (osoba odgovorna za sadržaj); izdavač; saradnik (koji je doprineo sadržaju izvora); prava (autorska).

       naslov (ime izvora); predmet (tema); opis sadržaja izvora; vrsta izvora; izvor (iz koga je eventualno nastao predmet opisa); veza (ka srodnim izvorima); pokrivenost (obuhvatnost).

3. Elementi za rad sa apstraktnim digitalnim objektima:     datum; format; identifikator; jezik.

12

EAD (Encoded Archival Description – Kodirani arhivski opis)

  EAD je standard za opis arhivskih dokumenata.

Osnova za razvoj ovog standarda bio je SGML, a od verzije EAD 1.0 iz 1998. g. standard je kompatibilan sa XML formatom.

 EAD DTD (definicija tipa dokumenta) sadrži 3 elementa na najvišem nivou: - koristi se da dokumentuje arhivsko opisivanje i obavezan je za uključenje u opis; sastoji se od 4 podelementa; - nije ga obavezno popuniti; predviđen je za određivanje specifičnosti u vezi sa izradom naslovnih stranica arhivskih dokumenata (tako npr. u sastav ovog elementa ulaze tekstualno-grafičke informacije kao što su logotip arhivske institucije, posvete i zahvalnice, ilustracije i sl.); - sadrži sam arhivski opis i kao takav predstavlja srž standarda; pomoću njega i njegovih podelemenata daju se informacije koje se odnose na kontekst i sadržaj dokumenta, te administrativni i slični podaci.

13

Jezici za obeležavanje teksta

 Dok nam standardi za metapodatke pomažu u kreiranju zapisa koji služe u svrhu otkrivanja digitalnih dokumenata, oni ne omogućavaju pristup samom sadržaju zapisa ( na primer, zapis članka iz časopisa koji je kreiran u skladu sa nekim standardom za metapodatke nam ne govori gde se u okviru celog dokumenta počinje i završava sažetak članka, koliko tabela ili grafičkih prikaza postoji u članku, gde se oni pojavljuju, i sl.).

 U tu svrhu koriste se jezici za obeležavanje teksta koji obezbeđuju sintaksu za obeležavanje specifičnih delova dokumenta upotrebom standardnih kodova.

 Obeležavanje teksta je proces pridruživanja dodatnih kodova (etiketa) elektronskom tekstu u cilju definisanja njegove strukture ili formata u kojem će se pojaviti.

 Razvijeno je nekoliko jezika za obeležavanje teksta koji služe različitim svrhama, kao što su SGML, HTML i XML.

14

SGML (Standard Generalized Markup Language – standardni opšti jezik za obeležavanje)

 Ovaj standard je razvila međunarodna organizacija ISO ( International Organization for Standardization jezika GML ( ) 1986. g. pod oznakom ISO 8879 na osnovu Generalized Markup Language ) kojeg su krajem 60-tih godina razvili u firmi IBM.

 Omogućavao je opis logičke strukture teksta nezavisno od raspoložive programske podrške i operativnog sistema.

Bio je u širokoj upotrebi u oblasti izdavaštva i iz njega su se razvile neke nove primene i jezici, posebno TEI ( Text Encoding Initiative – podsticaj kodiranju teksta ), EAD ( kodirani arhivski opis ) i XML ( Extended Markup Language – proširivi jezik za obeležavanje ).

 Standard zahteva definisanje DTD specifikacije kojom se posebnim sintaksnim pravilima opisuju elementi i atributi jezika, njihove moguće vrednosti i identifikuju veze između različitih elemenata u dokumentu.

 - SGML dokument se sastoji iz 3 dela:  SGML deklaracije kojom se definiše karakterski skup, dužina imena elemenata i drugi osnovni parametri ;   Definicije tipa dokumenta (DTD); Dokumenta samog po sebi – stvarnog dokumenta.

15

Elementi i atributi

           Elementi su delovi dokumenta koji se opisuju (kao što su naslov, sažetak i sl.); Atributi pružaju dodatne informacije o elementu; Svaki element je određen početnom i završnom etiketom; Etikete se navode između uglastih zagrada (< >); npr. , <body>; Završna etiketa se označava pomoću kose crte ispred imena elementa ( / ); npr. , ; Između početne i završne etikete navodi se sadržaj elementa; U okviru početne etikete jednog elementa mogu postojati atributi; Atribut je određen nazivom i vrednošću; Vrednost se dodeljuje atributu preko znaka = (jednako) i mora biti navedena između navodnika; Između početne i završne etikete jednog elementa mogu se navoditi drugi elementi; Svi elementi moraju biti u okviru jednog “opšteg” elementa koji se naziva koreni element.

16

HTML (Hypertext Markup Language – jezik za označavanje hiperteksta)

 Proces obeležavanja teksta pomoću SGML-a se pokazao suviše kompleksnim i opširnim, tj. nepotrebno je opterećen izvesnim elementima koji otežavaju njegovu primenu;  HTML se kao jezik za označavanje hiperteksta razvio pre svega za pripremu web stranica i kao takav leži u osnovi WWW-a kao preporuka World Wide Web konzorcijuma (W3C);  Zasniva se na obeležavanju logičke strukture dokumenta što znači da opisuje organizaciju sadržaja teksta;  Obeležavanje se vrši pomoću etiketa koje se umeću u dokument i na taj način specifikuju kako će se prikazati sadržaj web stranice (tekst, slike i sl.) uz pomoć web pretraživača;  HTML etikete su slične onim u SGML-u, pa se i ovde početne i završne etikete navode između uglastih zagrada < i > koje sadrže opis elemenata.

17

HTML etikete

Obavezne etikete u HTML dokumentu su:     , - ukazuju web pretraživaču da je u pitanju jedan HTML dokument; , - predstavlja zaglavlje dokumenta; , - naziv HTML dokumenta; , - u okviru kojih sledi sam tekst obeleženog dokumenta, odnosno sadržaj web stranice.

 Neobavezne etikete koje se koriste u HTML-u su:        - naslov nivoa;

- odeljak (sa atributom za pozicioniranje Align čije vrednosti mogu biti: center, right ili left);

- pasus (takođe može imati atribut Align);
- novi red;
- podvlaka;
 
- unapred formatiran tekst;
- duži navodi  Postoje i etikete za označavanje raznih vrsta lista, hiper – veza, slika, tabela, okvira, formulara...

18

XML (Extensible Markup Language - proširiv jezik za označavanje)

 Dok je SGML kompleksan, HTML je suviše jednostavan i jedino ukazuje pretraživaču na to kako da prikaže elemente ili kako da ostvari vezu sa drugom jedinicom;  Zbog toga je 1996. god. pod nadzorom W3 konzorcijuma otpočeo rad na XML-u sa ciljem da se izostave suvišni, zbunjujući i nekorisni elementi SGML-a, kao i svojstva koja se teško implementiraju, a zadrži veliki deo njegove funkcionalnosti;  Cilj XML-a je da olakša automatsku obradu dokumenata i podataka;  XML predstavlja meta-jezik jer se i sam može koristiti za obeležavanje podataka, a istovremeno služi i za kreiranje drugih jezika za obeležavanje, tj. određuje skup pravila koja moraju da se poštuju prilikom opisa novog jezika;  XML služi za opis delova dokumenata pomoću etiketa koje razbijaju dokument na delove i identifikuju ih; ti delovi dokumenta predstavljaju elemente XML dokumenta.

19

Razlike između XML-a i HTML-a

 Bitna razlika je u tome što je HTML jezik sa fiksiranim skupom etiketa koje imaju unapred definisano značenje, dok je XML proširiv jezik kojeg odlikuju fleksibilnost i čija je svrha da generiše sopstvene etikete, njihovo značenje i prikaz; XML daje slobodu korisniku/programeru da etiketama dodeli proizvoljan naziv ( uz neka ograničenja po pitanju karaktera koji se mogu koristiti etikete bude identičan; ); pri tome se mora strogo voditi računa o tome da naziv otvorene i zatvorene  XML je "osetljiv" na veličinu slova (etiketa koja u HTML-u počinje sa

može se zatvoriti sa

, što kod XML-a nije slučaj); XML nije tolerantan na greške kao što su npr. izostavljena završna etiketa ili atribut bez navodnika;  Za razliku od HTML-a koji je isključivo namenjen kreiranju web-sadržaja, XML obezbeđuje i prikaz podataka i njihovu čitljivost na web-u, ali istovremeno pruža i mogućnost njihove automatske obrade.

20

XML moduli

XML familija je stalno rastući niz modula koji nudi brojne korisne usluge kako bi se izvršili važni i često zahtevani zadaci, na primer:        XML 1.0 je specifikacija koja definiše elemente i atribute; Xlink služi za formiranje hiper-veza u XML dokumentu; XPointer i XFragments su sintakse koje ukazuju na delove nekog XML dokumenta, a ne na dokument kao celinu; može se reći da XPointer pomalo liči na URL, s tim da on ne ukazuje na neki dokument na web-u već na deo podataka unutar samog XML dokumenta; CSS kao jezik kaskadnih stilskih listova, primenjiv je i na XML kao i na HTML; XSL - proširivi jezik stilskih listova (Extensible Stylesheet Language)- napredni jezik za izražavanje stilskih listova; zasnovan je na XSLT-u koji predstavlja XML aplikaciju kojom se specifikuju pravila po kojima se jedan XML dokument transformiše u drugi; DOM – objektni model jezika koji preko skupa poziva standardnih funkcija obezbeđuje programskim jezicima da dinamički pristupaju i menjaju sadržaj, strukturu i stil dokumenta; XML Schemas 1 i 2 (XML sheme) pomažu kreatoru u preciznom definisanju strukture njihovih sopstvenih XML zasnovanih formata.

21

HVALA!