HINA 2007 MEDIJI I DEMOKRACIJA baza podataka, dubinsko pretraživanje, izravni pristup – digitalizacija novinskog arhiva i organizacija znanja u bazu podataka MEDIA AND DEMOCRACY Databasing, Datamining,

Download Report

Transcript HINA 2007 MEDIJI I DEMOKRACIJA baza podataka, dubinsko pretraživanje, izravni pristup – digitalizacija novinskog arhiva i organizacija znanja u bazu podataka MEDIA AND DEMOCRACY Databasing, Datamining,

HINA 2007

MEDIJI I DEMOKRACIJA baza podataka, dubinsko pretraživanje, izravni pristup – digitalizacija novinskog arhiva i organizacija znanja u bazu podataka MEDIA AND DEMOCRACY Databasing, Datamining, On Line access – Digitalization of Newspaper - based Archive and Organization of Knowledge in Database Željko Hodonj

Hrvatska izvještajna novinska agencija HINA HINA informacijska baza / HIB Croatian News Agency HINA HINA Information Data base / HIB E-mail: [email protected]

[email protected]

Lana Žaja

Hrvatska izvještajna novinska agencija HINA HINA informacijska baza / HIB Croatian News Agency HINA HINA Information Data base / HIB

Prijedlog Vlade RH

 2006. godine Hrvatski sabor je potvrdio zaštitu najveće novinske baze podataka u papirnatom i elektroničkom formatu – Vjesnikovu novinsku dokumentaciju / VND online. Tako su stvoreni preduvjeti da se VND proglasi razvojnim projektom HINA-e; te da se financira zaštita i razvoj baze podataka sredstvima državnog proračuna.

The Government's proposition

 in 2006, the Croatian Parliament ratified the preservation of the largest newspaper database of paper and electronic formats – Vjesnik's Newspaper Documentation / VND online. This formed the prerequisites for VND to become HINA's development project, and for the database preservation and development to be financed from the national budget.

Ciljevi projekta Project objectives

    očuvanje primarne, recentne dokumentacijsko-informacijske vrijednosti gradiva Hinine baze EVA i VND kao baze podataka i kao povijesno-kulturnog dobra potpuna digitalizacija baze podataka stvaranje i razvoj novih, samostalnih i međusobno povezanih informacijskih usluga za različite skupine korisnika (media monitoring, online novinska dokumentacija i posebni projekti)     preservation of primary, recent documentation-information value of EVA and VND records as database and as historical and cultural heritage complete digitalization of database creation and development of new, independent and interrelated information services for various user groups (media monitoring, online news documentation, and special projects)

 HINA se u svom strateškom opredjeljenju odlučila da sve svoje sadržaje i sadržaje drugih; i u dogovoru s njima; generira kao baze podataka  Cilj:  “podržavajti umreženje svakog pojedinog građanina Hrvatske”  HINA, in its strategic planning, has decided to generate its own material and material of others, with their consent, as databases  The Goal:  “support network connection for every Croatian citizen”

Iz rasprave u Hrvatskom saboru lipanj 2007

Pismohrana, citat:

 »Vjesnikova novinska dokumentacija godine.

– VND online« novinski je dokumentacijski centar organiziran u računalnom mediju i jedini je u Hrvatskoj. Nastao je na temeljima Vjesnikove novinske dokumentacije koja je ustrojena 1964.

From Croatian Parliament's session June 2007:

Archive, citation:

 »Vjesnik's Nespaper Documentation – VND online« is a news documentation center organized in computer media and the only one in Croatia. It developed from Vjesnik's Newspaper Documentation established in 1964.

Pismohrana, citati:

 Od tada do 2005. godine kreirano je više od 6000 zbirki dokumenata / izrezaka, članaka / tekstova iz novina s približno 12 milijuna pojedinačnih zapisa, a uza sve to je i posebna zbirka članaka za približno 100.000 domaćih i inozemnih javnih osoba. Baza podataka u izrescima članaka, mjereno smještajem na policama, iznosi približno 480 dužnih metara. Baza podataka u računalnom mediju broji 600.000 dokumenata.

Archive, citation:

 Since then until 2005, more than 6000 collections of documents / clippings of newspaper articles / texts had been created, with approximately 12 million entries. Moreover, it is a special collection of articles on approximately 100.000 domestic and foreign public figures. The size of the database of newspaper clippings, measured by its layout on shelves, is approximately 480 meters. The database in computer media has 600.000 documents.

Pismohrana, citat:

 VND je projektirana za pohranu i organizaciju poveznica starjih i novih podataka. Tako su ostvarene, kao jedine u Hrvatskoj, posebne eksportne baze podataka tiskanih glasila na DVD nosačima.

Archive, citation:

 VND was designed to store and organize links between old and new data. This generated specially exported databases of print media on DVD, unique in Croatia.

Pismohrana, citat:

 VND je projektirana za pohranu i organizaciju poveznica starjih i novih podataka. Tako su ostvarene, kao jedine u Hrvatskoj, posebne eksportne baze podataka tiskanih glasila na DVD nosačima.

Archive, citation:

 VND was designed to store and organize links between old and new data. This generated specially exported databases of print media on DVD, unique in Croatia.

Pismohrana, citat:

 Sustav je ustrojen kao pouzdana informacijska paradigma za pretraživanje i razvrstavanje dokumenata na zahtjev korisnika dokumentacijske građe. (…) 

Archive, citation:

 The system is structured as reliable information paradigm for retrieval and categorization of documents upon request of documentation users. (...)

HINA Struktura organizacije baze HINA Structure of Organization of Database

 HINA informacijska baza  HINA Information Base  Hina informacijsko dokumentacijski centar  HIB/IDC  HINA Information Documentation Center  HIB/IDC

HIB / IDC

 HINA informacijska baza je alat kojim se služi HINA u vlastitom organiziranju  HIB Informacijsko dokumentacijski centar povezuje interese korisnika sadržaja  HINA Information Data base is one of the tools used by HINA in its own organization  HIB Information Documentation Center links the interests of clients using content generated by HINA

Opredjeljenja

     HIB izražava multimedijsku razvojnu ambiciju HINA-e HIB osigurava dostupnost i pretraživost pohranjenog digitalnog zapisa tiskanih i AV sadržaja HIB svojim sustavom podržava umreženje svakog pojedinog građanina Hrvatske osiguravajući dostupnost podataka iz javnih glasila pomažući osviještenu obaviještenost o izabranim razinama javnog znanja u hrvatskom društvu HIB svojim sustavom osigurava dostupnost javnog znanja pomoću svojih 20 predmetno usmjerenih baza podataka HIB je podrška razvoju novih medija

Determinants

     HIB expresses a multimedia development ambition of HINA HIB ensures accessibility and searchability of digitally stored textual and AV data HIB system supports network connection for each individual Croatian citizen, providing accessibility of information from public media and contributing to conscious awareness of chosen levels of public knowledge in Croatian society HIB system provides accessibility of public knowledge, by means of its 20 subject-based databases HIB provides support for developing new media

HIB STRUKTURA:

   EVA – elektronska baza podataka, 1,5 milijun dokumenata dnevne proizvodnje HINA-e od 1991. godine VND – kolekcija 12 milijuna dokumenata u 6700 kolekcija novinskih isječaka predmetno organiziranih dokumenata kroz 15 područja VND – baza podataka s 300 tisuća dokumenata u elektronskom formatu

HIB STRUCTURE:

   EVA – electronic database, 1.5 million documents of HINA’s daily production since 1991 VND – collection of 12 million documents in 6700 collections of newspaper clippings organized according to content into 15 categories VND – database with 300 thousand documents in electronic format

HIB izvori:

HIB obrađuje

1.

2.

3.

4.

produkciju HINA-e devet dnevnih listova 15 tjednih, dvotjednih, mjesečnih revija 12 milijuna dokumenata novinskih isječaka iz baze VND kreirane u razdoblju od 1964/2003. godine

Na godišnjoj razini HIB treba obraditi milijun dokumenata

    dnevna tekstualna proizvodnja HINA-e dnevna AV proizvodnja HINA-e dnevni, tjedni, mjesečni i povremeni tiskani izvori obrada baze novinskih isječaka baze VND prema posebnom programu

HIB sources:

HIB processes

1.

HINA’s production 2.

3.

4.

nine daily papers 15 weekly and monthly magazines 12 million documents of newspaper clippings from the VND database created since 1964 to 2003

On a yearly basis HIB should process a million documents

    daily textual HINA’s production daily AV HINA’s production daily, weekly, monthly and periodical press processing of newspaper clippings from VND database according to a special programme

Linkovi – link veza do medija on-line

BAZE U OKRUŽENJU

Mindmapping

MEDIJI ON-LINE BAZA AV MEDIJA NEWS FAQ OGLAŠAVANJE BAZA OGLASA MEDIJSKA BAZA HINA Homepage BAZA FOTOGRAFIJA SEARCH A-Z PREGLEDNIK PRETPLATA WEB FILTER TOP VIJESTI TJEDNE VIJESTI ARHIVA O NAMA PROJEKTI ANALITIKA KONTAKT LOG IN

Razvojna opredjeljenja

Automatska kategorizacija sustava utemeljena na pojmovnicima i prepoznavanju oblika riječi (lematizacija) Minimalno željene funkcije:

Svrstavanje tekstova u predefinirane kategorije

- pronalaženje kategorija prema unaprijed naučenim pravilima - sposobnost sustava da “uči” pravila prema već napravljenoj kategorizaciji - temeljem pravila sustav samostalno određuje koje od predefiniranih kategorija odgovaraju pojedinom novom tekstu - strojno dobiveni rezultati prijedlozi su za humanog kategorizatora

Pronalaženje imenovanih entiteta

- u obradi sadržaja niz je entiteta koji karakteriziraju tekst i nužno ih je prepoznati, izdvojiti za dalju obradu (osobe, institucije, toponimi...)

Frekvencijska analiza

- služi kao baza podataka za naprednije oblike text mininga

Automatska kategorizacija sustava razvojno je nužna zato što osigurava sposobnost sustava da prati, prepoznaje i donosi podlogu za odlučivanje na temelju realnih pokazatelja i koje je moguće prepoznati

Development objectives

Automatic categorization of the system, based on thesauruses and word-form recognition (lemmatization) Minimal desired functions:

Classifying texts into predefined categories

- finding categories according to previously learned rules - ability of the system to “learn” rules according to predefined categories - according to rules, the system autonomously determines which of the predefined categories apply to a specific new text - mechanically acquired results are suggestions for human categorizer

Finding labeled entities

- content processing includes various entities which characterize the text and it is necessary to recognize them and single them out for further processing (person, institution, toponym...)

Frequency analysis

- serves as database for advanced forms of text mining

Automatic categorization of the system is a developmental necessity because it provides the ability of the system to track, recognize and create a base for decision-making according to realistic and recognizable indexes

Proces obrade VND

 Opis procesa obrade po fazama

Processing VND

 Phase by phase description of processing

Scanning Adobe Photoshop

Workflow

OCR and clipping, initial categorization, ABBYY FineReader (VNDClipper)

Copying (File system) Kopiranje (File system)

Projects, export...

Editorship

Redakcija Skeniranje Adobe Photoshop PDF, Editorial system PDF, Redakcijski sustav OCR i clipping, inicijalna kateg., Abbyy FineReader (VNDClipper) rt p o E ks Ek sp ort NewsCenter Do dj el a Clipping, inicijalna kateg., Adobe Acrobat (PDFClipper)

Clipping, initial categorization, Adobe Acrobat (PDFClipper)

Kategorizacija

Categorization

Preu zim anje Pre uzim anje D od je la Projekti, eksport...

O Kategorizacija za specifične potrebe

Categorization for specific requirements

do br Odobravanje av an za objavu

Publishing approval

Faze procesa obrade

     Ulaz (preuzimanje sadržaja, skeniranje*) Clipping i inicijalna kategorizacija Obrada / kategorizacija Kategorizacija za specifične potrebe** Izlaz i korištenje (projekti / export / statistika / pretraga) * ** samo kod papirnatih materijala još nije kreirana

Processing phases

     Input (collecting material, scanning*) Clipping and initial categorization Processing / categorization Categorization for specific requirements** Output and usage (projects / export / statistics / search) * ** only for paper material not created yet

Ulaz

   Sadržaj ulazi na 2 načina, ovisno o formatu:    Papirnate novine Elektronički format (PDF) Mogući su i drugi načini ulaska sadržaja, poput informacijskih servisa ili redakcijskog sustava Papirnati format   Proces počinje sa pregledom sadržaja i odabirom relevantnih članaka Nastavlja se skeniranjem sadržaja i pripremom za clipping Elektronički format  Osim odabira relevantnih članaka, nije potrebna priprema za daljnju obradu

Input

   2 modes of content input, depending on the format:    Paper format Electronic format (PDF) Other types of input are also possible, such as information service or editorial system Paper format   The process begins with reviewing material and selecting relevant articles It continues with scanning material and preparing for clipping Electronic format  Apart from selecting relevant articles, no preparations are necessary for further processing

Inicijalna obrada

    Uključuje clipping i inicijalnu kategorizaciju Ovisno o formatu ulaza, postoje 2 načina:   VNDClipper – slikovni ulaz, radi se OCR i clipping, uključena je i podrška za inicijalnu kategorizaciju PDFClipper – PDF (elektronički ulaz), radi se samo clipping te inicijalna kategorizacija Inicijalna kategorizacija nastoji automatikom pročitati metapodatke (naslov, autor) iz teksta, nužno je ručno unijeti izvor, datum i područje Oba modula omogućavaju automatski eksport obrađenih sadržaja direktno u centralnu bazu za daljnju obradu, cjelovitih stranica kao i odabranih članaka

Initial processing

    Includes clipping and initial categorization Depending on the input format, there are 2 modes:   VNDClipper – image input, OCR and clipping are performed, including the support for initial categorization PDFClipper – PDF (electronic input), only clipping and initial categorization are performed Initial categorization aims for automatic recognition of metadata (title, author) from the text, manual input of source, date and category is necessary Both modes enable automatic export of processed data directly into the central database for further processing, whole pages as well as selected articles

Obrada / kategorizacija

    Sastoji se u preuzimanju materijala za daljnju obradu, obrade i spremanja obrađenih članaka Preuzimanje je moguće putem zadataka i pregleda po izvoru i datumu, gdje se odabiru neobrađeni članci i članci koji odgovaraju inicijalnim kategorijama.

Preuzeti članci za obradu imaju status u obradi Nakon obrade, članci se u statusu obrađeni nalaze u bazi i spremni su za daljnje korištenje

Processing / categorization

    Consists of collecting material for further processing, processing and storage of processed articles Collection is possible through assignments and view by source and date, where unprocessed articles and those that are attributed to initial categories are selected Collected articles have the status in process After processing, the articles gain status stored in database for further usage processed and are

Kategorizacija za specifične potrebe

  Sljedeći korak u obradi omogućava dodatnu kategorizaciju sadržaja i grupiranje relevantnih sadržaja za pojedine korisnike sa posebno ugovorenim setom kategorija ili zahtjeva. Također se odnosi i na verifikaciju i odobravanje za daljnju objavu.

Ovaj dio funkcionalnosti još nije realiziran u praksi

Categorization for specific requirements

  Next step in processing enables additional categorization of content and grouping of material relevant to individual clients with a specific set of categories or requirements. It also includes verification and approval for further publishing.

This part of functionality is not yet put into practice

Izlaz i korištenje

  Korištenje materijala je moguće na sljedeće načine:     Pretraga sadržaja i grupiranje po metapodacima i punom tekstu sadržaja Projekti – grupiranje članaka pojedinačnim dodavanjem ili na temelju pretraga radi daljnje obrade Statistika – analiza pojavljivanja pojedinih entiteta unutar odabranog seta podataka unutar projekata Export – export seta podataka ili pojedinačnih podataka u Word, HTML ili DVD odgovarajući format Planirana je objava prema Internet korisniku koju tek treba provesti (pressclipping, pristup arhivi…)

Output and usage

  Possible usages of the material are:     Search through content and grouping according to metadata and full text Projects – grouping of articles by individual adding or based on search results for further processing Statistics – analysis of occurence of certain entities within a chosen set of data within projects Export – export of sets of data or individual data into Word, HTML or DVD – suitable format Public access for Internet users is planned and yet to be put into effect (pressclipping, access to archive…)

          

Što i kako What and how

We are giving access to a selection of newspapers and other sources and authors; browsing texts according to the chosen news and date; according to people and subjects in which they appear; according to the selected person and chosen subject; searching by subject and type of article; database overview according to events; database search by keywords; institutions, location and time osoba

osoba

tema

osoba tema

zemljopisna odrednica

osoba tema zemlj. odr.

vremenska odrednica

osoba tema zemlj. odr. vrem. odr.

ključna riječ

osoba tema zemlj. odr vrem. odr. ključna riječ

institucija

osoba tema zemlj. odr vrem. odr. ključna riječ institucija

izvor

osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor

autor

osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor

novinska vrsta

osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor vrsta,

full text search

osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor vrsta, full text search,

medijska analiza

          

Person

Person

subject

Person subject

location

Person subject location

date

Person subject location date

keywords

Person subject location date keywords

institution

Person subject location date keywords institutions

sources

Person subject location date keywords institutions sources

authors

Person subject location date keywords institutions sources authors

journalistic form

Person subject location date keywords institutions sources authors journalistic form

full text search

Person subject location date keywords institutions sources authors journalistic form full text search

media analysis

HRVATSKA REGIJA SVIJET CROATIA THE REGION THE WORD UDRUGE SLOBODNO VRIJEME ORGANIZATIONS LEISURE PRVI TEKST U BAZI FIRST TEXT IN THE DATABASE OBRAZOVANJE intelektualna niša EDUCATION Intellectual niche LOKACIJA LOCATION Rođenje, Birth, datum, place, mjesto date

OSOBNA POVEZANOST PERSONAL CONNECTION

BRAČNO STANJE MARITAL STATUS

SJEDIŠTE/ADRESA LOCATION / ADDRESS OSOBA Ključna osoba PERSON Key person TVRTKA ZAPOSLENJE COMPANY EMPLOYMENT SCIENTIFIC FIELDS: PODRUČJA ZNANOSTI:

JAVNE OSOBE KOMUNIKACIJA / MEDIJI KULTURA I UMJETNO.

MEĐUNARODNI ODNOSI ODGOJ I OBR.

SOCIJALNA SKRB HR VANJSKA POL.

OGLASI PRAVOSUĐE, SUDSTVO, KRIMINAL PROMET RELIGIJA UNUTARNJA POLITIKA ZNANOST DRUŠTVO ZDRAVSTVO EKONOMIJA FINANCIJE SPORT SVIJET DJECA CHILDREN HRVATSKA REGIJA, SVIJET CROATIA THE REGION, THE WORLD OSOBE ISTE RAZINE PERSONS OF EQUAL LEVEL TVRTKE ISTE RAZINE COMPANIES OF EQUAL LEVEL SUPRUGA/SUPRUG WIFE / HUSBAND SRODNIK RELATIVE BRAČNO STANJE MARITAL STATUS

Rezultat

 Stvoreni su uvjeti za online pretraživanje unutar sljedećih definicija: 1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

Društvo/Zdravstvo/Socijalna skrb Ekologija Ekonomija Financije Hrvatska vanjska politika / Svijet / Međunarodni odnosi Komunikacije i mediji Kultura i umjetnost Odgoj i obrazovanje Promet Religija Sport Pravosuđe / Sudstvo/Kriminal Unutarnja politika Znanost

Result

 We created conditions for online search within the following definitions: 6.

7.

8.

9.

10.

11.

12.

1.

2.

3.

4.

5.

13.

14.

Society/Helathcare /Social welfare Ecology Economy Finance Croatian foreign affairs / The World / International relations Communications/Media Culture and art Education Traffic Religion Sports Administration of justice/Judiciary/Crime Internal affairs Science

HIB Informacijsko dokumentacijski centar Information Documentation Center

ORGANIZIRANJE POSEBNE BAZE PODATAKA

ORGANIZATION OF A SPECIAL DATABASE

 posebna baza podataka sadrži organizirani skup podataka određenog sadržaja koji dopušta automatsko pretraživanje  a special database contains an organized set of information of specific content, allowing automatic search

 dokumentacijski centri organiziraju poslove prikupljanja, selekcije, obrade i pohrane građe u bazu kako bi se omogućilo pretraživanje dokumenata, te diseminira dokumente kako bi odgovorila na posebne zahtjeve korisnika za određenim sadržajem  documentation centres organise the work of gathering, selection, processing and storing the material into a database to enable the search of documents, and also disseminate documents to meet special user demands for specific content

 tekst koji se pohranjuje u bazu se organizira pomoću kodiranja i strukturiranja različitih elemenata teksta  a text stored in a database is organised by coding and structuring different text elements

 svaka organizirana baza podataka mora sadržavati strukturirani i kodirani tekst  every organised database must contain structured and coded text

 definirani su osnovni deskriptivni elementi teksta, a njihovo obilježavanje deskriptorima (označiteljima) – atributima (atribuiranje) / znači unošenje vrijednosti potrebno za pretvaranje linearnog teksta u strukturirani ili hipertekst  basic descriptive text elements are defined, and their tagging by descriptors – attributes means input of values necessary to turn a linear text into a structured or hypertext

HIPERTEKST

 se definira kao tekst koji nema ograničenja linearnosti. Možemo ga odrediti kao tekst koji u sebi sadrži veze prema drugim tekstovima ili druge dijelove istog teksta. Takvi dijelovi teksta nazivaju se čvorovima (nodes)

HYPERTEXT

 is a text not limited by linearity. We can define it as a text containing links to other texts or to other parts of the same text. Such parts of texts are called nodes.

ČVOROVI NODES

 su jedinice obavijesti koje mogu biti:  are units of information which can be: a) b) unutarnje – unutar istog teksta vanjske – u nekom vanjskom tekstu koji služi kao poveznica dokumenta koji se trenutno obrađuje a) b) internal – within the same text external – in an external text used as a link to the document currently being processed

Čvor obično sadrži jednu ideju, tj. pojam, a može sadržavati i podatak o vrsti informacije, npr:     zakonski članak ili zakoni saborske rasprave sukob interesa istražna povjerenstva A node usually contains an idea, a concept, but it can also contain data about the type of information, e.g.:     a legislative act or statute parliamentary session conflict of interests investigative committee

 skup čvorova čini bazu podataka, a čvorovi i njihove veze (unutarnje i vanjske) mrežnu strukturu  a collection of nodes make up a database. Nodes and their links (internal and external) make up a network structure

Zašto se tekst strukturira?

   višekratna upotrebljivost teksta neovisnost o programskoj podršci, platformi ili aplikaciji (OCR) omogućuje preciznu definiciju i efikasnu obradu teksta

Why structuring a text?

   multiple usability of a text independence from software, platform or application (OCR) it enables precise definition and efficient processing of a text

Tekst se strukturira pomoću tezaurusa A text is structured by the means of a thesaurus

 tezaurus je indeksiranje kontrolirani rječnik za označivanje i pretraživanje, struktura tezaurusa se sastoji od odnosa među pojmovima: pomoćno sredstvo za  thesaurus is a controlled glossary for tagging and searching. It is structured by relations between concepts: an auxiliary indexing tool

Odnosi ekvivalencije

sinonimi – izrazi čije značenje je isto: računalo – kompjutor kvazi sinonimi – izrazi čije se značenje velikim dijelom preklapa: nadareni – genij

Relations of equivalence

synonyms – words with the same meaning: happy - glad pseudosynonyms – words with largely overlapping meaning: talented - genius

Homonimi Homonyms

   stanica - u biologiji ili u prometu vodič - je metal ili vodič u turizmu kreda - u kemiji ili u obrazovanju    cell - in biology or in jail bank - a financial institution or a bank of a river chase – to pursue or to ornament metal Uz homonime se obavezno upisuju deskriptori koji označavaju dodatnu obavijest In case of homonyms, descriptors must be used to give extra information

Hijerarhijski odnosi

Relations of Hierarchy

pojmovi koji se uključuju samo u okviru iste fundamentalne kategorije pojmova, iskazuje se samo jedan nadređeni pojam, ali jedan ili više podređenih pojmova  concepts that are included only within the frame of the same fundamental concept category – there is only one superior concept, but one or more subordinate concepts

Hijerarhijski odnosi

ZLOČIN – ratni – ubojstvo civila, ubojstvo vojnika ZLOČIN – obiteljski – ubojstvo supruge, ubojstvo brata ZLOČIN – kriminal – ubojstvo iz koristoljublja ILI ZAKON – zdravstvo - Zakon o umjetnoj oplodnji ZAKON – politika – Izborni zakon ZAKON – promet – Zakon o sigurnosti prometa na cestama

Relations of Hierarchy

CRIME – war – killing of civilians, killing of soldiers CRIME – family – killing of wife, killing of brother CRIME – criminal act – killing for profit OR LAW – health – The Law of Artificial Insemination LAW – politics – Electoral Law LAW – traffic – The Law of Road Safety

Asocijativni odnosi Associative relations

 ukazuju na vezu među terminima koje dokumentalisti smatraju važnima, a ne mogu se iskazati nekom drugom vrstom odnosa  show a relationship between terms considered important by documenters, and which cannot be expressed by a different type of relation

Primjer tezaurusa

      1.

2.

3.

Nadređeni pojam Tema: Političari Političari Ključna osoba: Ivo Sanader Sinonim Ključna riječ: dužnosnici Podređeni pojam Ključne riječi: pristupni pregovori, poglavlje o Obrazovanju i kulturi Partitivni pojam Ključne riječi: pregovori s EU Područje: Hrvatska vanjska politika Odgoj i obrazovanje Kultura i umjetnost

Thesaurus example

      1.

2.

3.

Superior concept Theme: Politicians Politicians Key person: Ivo Sanader Synonym Key word: officials Subordinate concept Key words: negotiations on accession, chapter on Education and culture Partitive concept Key word: EU negotiations Fields: Croatian foreign affairs Education Culture and Art

Sastavljanje indeksa

   Indeksiranje bitnih karakteristika sadržaja dokumenta – određivanje Ručno termina – uobičajeno na temelju kontroliranog skupa indeksnih Automatsko – uobičajeno na temelju riječi iz dokumenta i to najčešće uklanjanjem stop riječi i mjerenjem frekvencije termina u dokumentu (stop riječi su zamjenice, veznici i sl., te se riječi zanemaruju na temelju popisa koji ih sadrži)

Index composition

   Indexing – setting relevant characteristics of the document’s content Manual – usually based on a controlled set of index terms Automatic – usually based on words from the document, most often by removing stop words and measuring a word’s frequency in the document (stop words are pronouns, conjunctives, etc., they are disregarded according to a list containing them.)

Kako osigurati da se podatak i podaci podudaraju How to ensure the information matches the data

  Korjenovanje – uporaba skupa pravila za uklanjanje sufiksa, uklanjanje obličnih ili tvorbenih nastavaka (smjen-a, smjen-e, smjen-jivanje) Lematizacija – reduciranje riječi na njihov sintaktički korijen (osnovni oblik je imenica u nominatvu jednine ili glagol u infinitivu)   Stemming – use of a number of rules to remove suffixes, removal of inflectional or formative suffixes (remov-ed, remov-al, remov-ing) Lemmatization – reducing words to their sintactical stem (basic form is a noun in the nominative case singular or the infinitive of a verb)

Organizacija informacija u bazi podataka Organization of information in a database

 pored uobičajenih podataka: autor, naslov, izvor, datum, vrsta, područje, ključne riječi, ključne osobe, institucije, zemljopisne odrednice, za korištenje baze važni su i slijedeći podaci:  Beside the usual information: author, title, source, date, type, field, keywords, key persons, institutions, and location, the following information is also important for using the database:

ORGANIZACIJA

 kako je prikupljena  kome je namijenjena  format u kojem je raspoloživa (pdf, tiff)  uvjeti korištenja

ORGANIZATION

 how it is collected  whom it is intended for  the available format (pdf, tiff)  terms of use

Pretraživanje i pregledavanje baze podataka

  pregledavanje je kretanje “od gdje do što” znači da korisnik zna gdje se nalazi u bazi, ali ga zanima što je na tom mjestu dostupno, odnosno koje su tu sve informacije pohranjene pretraživanje je za razliku od pregledavanja kretanje “od što do gdje” što znači da korisnik točno zna što želi i zanima ga gdje je to u bazi pohranjeno

Searching and browsing the database

  browsing where to what” so that users know where they are in the database, but are interested in what is available there, that is, what information is stored there searching is moving “from is, on the other hand, “from what to where”, meaning the user knows exactly what he/she wants, and wants to know where in the database it is stored

Pretraživanje – opći principi

     analiza zahtjeva za pretraživanje, prijevod pojmova iz tematskog zahtjeva u indeksni jezik baze podataka formuliranje i postavljanje strategije pretraživanja izbor termina, pojmova određivanje odnosa među pojmovima izbor potrebnih naredbi

Search – general principles

     analysis of the request, translation of query terms to the index language of the database formulating and setting a search strategy selection of terms, concepts determining relations between concepts selection of necessary commands

Korisniku se nudi: jednostavno i složeno pretraživanje

Jednostavno pretraživanje  više je prilagođeno krajnjem korisniku jer, na primjer, pod pojmom KLJUČNE RIJEČI zahvaćaju se sve indeksirane riječi i kompletan OCR tekst. Složeno pretraživanje  omogućuje preciznije postavljanje zahtjeva i BOOL-ovo riječi.

kombiniranje

User can choose between simple and advanced search

Simple search  more suitable for the end-user since, for example, the term KEYWORDS encompasses all indexed words and the entire OCRed text Advanced search  enables more precise queries, and Boolean words combinations

Proširenje upita tj. sužavanje pretrage Boolovi operatori – napredna pretraga

AND – odnos presjeka, blizine odnosno udaljenosti, kada su dva pojma strogo logički poredani jedan uz drugoga:

slikarstvo

AND

grafika

 OR – odnos unije:

grafika

OR dodjela

nagrade

AND

hrvatski slikari

 NOT – isključivanje određenog pojma iz zadanog skupa:

slikarstvo

AND

izložba slika

NOT

grafika

Expanding a search or narrowing a search Boolean operators – advanced search

 AND – ratio of overlapping, closeness or distance when two terms are strictly logically placed side by side:  

painting

AND

graphic art

OR – union:

graphic art

OR

award Croatian painters

AND NOT – exclusion of a certain term from the set:

painting

AND

exhibition graphic art

NOT

Prednosti slobodnog teksta (OCR)

    čitav sadržaj pretraživ svaka riječ ima jednaku vrijednost u pretraživanju nema ljudskih pogrešaka nema odgađanja unosa novih riječi

Advantages of a free text (OCR)

    the entire content is searchable every word carries the same weight in the search no human error no delayed input of new words

Nedostaci slobodnog teksta (OCR)

    veće opterećenje korisnika ako informacija nije eksplicitno izražena u tekstu lako se može izgubiti, tj. ako nigdje u slobodnom tekstu nije označena vrsta dokumenta, određeni pojam, ciljano područje i dr., bez kontrolirane dokumentalističke obrade pretraživanje neće biti zadovoljavajuće (npr. intervju s Mesićem) nedostatak logičkih veza između specifičnog i općenitog, tj. nedostaje nodes mora se stručno poznavati rječnik područja koji se pretražuje

Downsides of a free text (OCR)

    overwhelming of the user if the information is not explicitly expressed in the text it can easily get lost, that is, if the type of document, a certain term, or the aimed field, etc. is not tagged in the free text, the search will not be satisfactory without controlled documenting processing (e.g. Interview with Mesić) lack of logical links between specific and general, that is, the lack of nodes an expert knowledge of the searched field’s language is required

Prednosti kontroliranog rječnika Advantages of a controlled glossary

Rješava mnoge semantičke probleme,

npr.

Solves many semantic

problems, e.g.

 ključna riječ ODNOS mora bit pobliže definirana da li je odnos politički, bilateralni, obiteljski, prijateljski......  keyword RELATIONS must be closely defined whether they are political, bilateral, family, friendly…

Prednosti kontroliranog rječnika Advantages of a controlled glossary

Omogućava generičku

povezanost pojmova, npr:      Ključna riječ: mito i korupcija AND antikorupcijski program Novinska vrsta: Izvještaj Tema: Reforma pravosuđa Institucija: Ministarstvo pravosuđa Područje: Pravosuđe, sudstvo i kriminal

Enables a generic connection

of concepts, e.g.

     Keyword: bribe and corruption AND fight against corruption Journalistic form: Report Subject: Judiciary reform Institution: Ministry of Justice Field: Administration of justice / Judiciary / Crime

Prednosti kontroliranog rječnika

Obilježava područje znanja:

Društvo/Zdravstvo/Socijalna skrb Ekologija Ekonomija Financije Hrvatska vanjska politika/Svijet/ Međunarodni odnosi Komunikacije i mediji Kultura i umjetnost Odgoj i obrazovanje Promet Religija Sport Pravosuđe / Sudstvo / Kriminal Unutarnja politika Znanost

Advantages of a controlled glossary

Tags the field of knowledge: Society/Helathcare/Social welfare Ecology Economy Finance Croatian foreign affairs/The World/ International relations Communications/Media Culture and art Education Traffic Religion Sports Administration of justice / Judiciary/Crime Internal affairs Science

Nedostaci kontroliranog rječnika

Poteškoće kod sistematskog povezivanja svih relevantnih veza među pojmovima koje mogu nastati zbog: a) b) moguće nestručnosti u pokrivanju područja ljudske pogreške

Downsides of a controlled glossary

Difficulties with systematic connection of all relevant links between terms which can appear due to: a) b) possible ignorance of the specific field human error

PRVA FAZA RADA – selektiranje i razvrstavanje po područjima

   Svakog dana članci se selektiraju po određenim područjima

Društvo/Zdravstvo/Socijalna skrb, Ekologija, Ekonomija/Gospodarstvo, Financije, Hrvatska vanjska politika/Svijet/Međunarodni odnosi, Komunikacije/Mediji, Kultura i umjetnost, Odgoj i obrazovanje, Promet, Religija, Sport, Pravosuđe/Sudstvo/Kriminal, Unutarnja politika, Znanost

i projektima te dostavljaju timu skenerista koji ih izdvajaju, editiraju i distribuiraju na interna računala

PHASE ONE – selecting and sorting according to fields

   Articles are selected every day according to fields

Society/Helathcare/Social welfare, Ecology, Economy, Finance, Croatian foreign affairs/The World/International relations, Communications/Media, Culture and art, Education, Traffic, Religion, Sports, Judiciary/Crime, Internal affairs, Science

and project’s and delivered to a team of scanner operators who clip, edit and distribute them to internal computers

DRUGA FAZA – skeniranje ili pdf kliping

   skeniranje dnevnog tiska ili – pdf kliping kompresija i editiranje članaka

PHASE TWO – scanning or pdf clipping

   scanning of daily press or – pdf clipping compression and editing of articles

NAČIN RADA TIMA SKENERISTA

   skeniranje cjelokupnog dnevnog tiska spajanje stranica i uređivanje izdvajanje članaka i mrežna distribucija editiranih i kompresiranih tekstova

SCANNING TEAM’S MODE OF ACTION

   scanning the sum of daily press connecting pages and formatting clipping articles and distributing edited and compressed texts over network

TREĆA FAZA RADA OCR

  OCR - Optical Character Recognition predstavlja optičko prepoznavanje znakova pretvaranje teksta koji je u obliku skenirane slikovne datoteke u tekstualnu datoteku, kako to izvode neki specijalizirani softveri za skeniranje

PHASE THREE - OCR

  OCR stands for Optical Character Recognition turning texts from scanned picture file format to a text file format using specialized scanning software

OCR

  u ovoj fazi rada skenirani, editirani i distribuirani članci prolaze kroz OCR softver e-Visiona koji omogućava prepoznavanje skeniranog teksta u ovoj fazi izrađuje se klasifikacijski sustav čijim opisom je moguće kompjutersko pretraživanje članaka   in this phase the scanned, edited and distributed articles go through eVision’s OCR software which enables the scanned text to be recognized in this phase a classification system is made. Its descriptions enable computerized search of articles

Izgled clipa podijeljenog na blokove prije izvršenja akcije čitanja.

A clip divided into blocks before the reading process.

Konačne informacije o clipu prije exporta Final information about the clip before it is exported

ČETVRTA FAZA RADA – završna atribucija

 U toj fazi unosi se:  Tema   Zemljopisna odrednica Institucija     Novinska vrsta Medijska analiza Ključna osoba i ostale osobe koje se pojavljuju Ključne riječi

PHASE FOUR – final attributes setting

 In this phase we import:  Subject   Location Institution     Journalistic form Media analysis Key person and other related persons Keywords

 unošenjem konačnih atributa i snimanjem upisnice završena je dokumentalistička obrada teksta  input of final attributes and saving the file completes the documenting part of processing a text

ZAHVALA CREDITS

 Studentima informacijskih znanosti FF-a u Zagrebu koji su radili s nama i koji će, kad diplomiraju, nastaviti razvijati sustave za podršku novim medijima  To all students from Information Sciences FF in Zagreb that worked with us and who will, after graduation, continue to develop the systems for support of new media Brezović Petra, Bukvić Nenad, Majer Ivana, Miklec Danijela, Nikolić Kristina, Semenić Brankica, Mušan Tihana, Brković Jelena, Hadžić Jelena, Šaronja Vesna