HINA 2007 MEDIJI I DEMOKRACIJA baza podataka, dubinsko pretraživanje, izravni pristup – digitalizacija novinskog arhiva i organizacija znanja u bazu podataka MEDIA AND DEMOCRACY Databasing, Datamining,
Download ReportTranscript HINA 2007 MEDIJI I DEMOKRACIJA baza podataka, dubinsko pretraživanje, izravni pristup – digitalizacija novinskog arhiva i organizacija znanja u bazu podataka MEDIA AND DEMOCRACY Databasing, Datamining,
HINA 2007
MEDIJI I DEMOKRACIJA baza podataka, dubinsko pretraživanje, izravni pristup – digitalizacija novinskog arhiva i organizacija znanja u bazu podataka MEDIA AND DEMOCRACY Databasing, Datamining, On Line access – Digitalization of Newspaper - based Archive and Organization of Knowledge in Database Željko Hodonj
Hrvatska izvještajna novinska agencija HINA HINA informacijska baza / HIB Croatian News Agency HINA HINA Information Data base / HIB E-mail: [email protected]
Lana Žaja
Hrvatska izvještajna novinska agencija HINA HINA informacijska baza / HIB Croatian News Agency HINA HINA Information Data base / HIB
Prijedlog Vlade RH
2006. godine Hrvatski sabor je potvrdio zaštitu najveće novinske baze podataka u papirnatom i elektroničkom formatu – Vjesnikovu novinsku dokumentaciju / VND online. Tako su stvoreni preduvjeti da se VND proglasi razvojnim projektom HINA-e; te da se financira zaštita i razvoj baze podataka sredstvima državnog proračuna.
The Government's proposition
in 2006, the Croatian Parliament ratified the preservation of the largest newspaper database of paper and electronic formats – Vjesnik's Newspaper Documentation / VND online. This formed the prerequisites for VND to become HINA's development project, and for the database preservation and development to be financed from the national budget.
Ciljevi projekta Project objectives
očuvanje primarne, recentne dokumentacijsko-informacijske vrijednosti gradiva Hinine baze EVA i VND kao baze podataka i kao povijesno-kulturnog dobra potpuna digitalizacija baze podataka stvaranje i razvoj novih, samostalnih i međusobno povezanih informacijskih usluga za različite skupine korisnika (media monitoring, online novinska dokumentacija i posebni projekti) preservation of primary, recent documentation-information value of EVA and VND records as database and as historical and cultural heritage complete digitalization of database creation and development of new, independent and interrelated information services for various user groups (media monitoring, online news documentation, and special projects)
HINA se u svom strateškom opredjeljenju odlučila da sve svoje sadržaje i sadržaje drugih; i u dogovoru s njima; generira kao baze podataka Cilj: “podržavajti umreženje svakog pojedinog građanina Hrvatske” HINA, in its strategic planning, has decided to generate its own material and material of others, with their consent, as databases The Goal: “support network connection for every Croatian citizen”
Iz rasprave u Hrvatskom saboru lipanj 2007
Pismohrana, citat:
»Vjesnikova novinska dokumentacija godine.
– VND online« novinski je dokumentacijski centar organiziran u računalnom mediju i jedini je u Hrvatskoj. Nastao je na temeljima Vjesnikove novinske dokumentacije koja je ustrojena 1964.
From Croatian Parliament's session June 2007:
Archive, citation:
»Vjesnik's Nespaper Documentation – VND online« is a news documentation center organized in computer media and the only one in Croatia. It developed from Vjesnik's Newspaper Documentation established in 1964.
Pismohrana, citati:
Od tada do 2005. godine kreirano je više od 6000 zbirki dokumenata / izrezaka, članaka / tekstova iz novina s približno 12 milijuna pojedinačnih zapisa, a uza sve to je i posebna zbirka članaka za približno 100.000 domaćih i inozemnih javnih osoba. Baza podataka u izrescima članaka, mjereno smještajem na policama, iznosi približno 480 dužnih metara. Baza podataka u računalnom mediju broji 600.000 dokumenata.
Archive, citation:
Since then until 2005, more than 6000 collections of documents / clippings of newspaper articles / texts had been created, with approximately 12 million entries. Moreover, it is a special collection of articles on approximately 100.000 domestic and foreign public figures. The size of the database of newspaper clippings, measured by its layout on shelves, is approximately 480 meters. The database in computer media has 600.000 documents.
Pismohrana, citat:
VND je projektirana za pohranu i organizaciju poveznica starjih i novih podataka. Tako su ostvarene, kao jedine u Hrvatskoj, posebne eksportne baze podataka tiskanih glasila na DVD nosačima.
Archive, citation:
VND was designed to store and organize links between old and new data. This generated specially exported databases of print media on DVD, unique in Croatia.
Pismohrana, citat:
VND je projektirana za pohranu i organizaciju poveznica starjih i novih podataka. Tako su ostvarene, kao jedine u Hrvatskoj, posebne eksportne baze podataka tiskanih glasila na DVD nosačima.
Archive, citation:
VND was designed to store and organize links between old and new data. This generated specially exported databases of print media on DVD, unique in Croatia.
Pismohrana, citat:
Sustav je ustrojen kao pouzdana informacijska paradigma za pretraživanje i razvrstavanje dokumenata na zahtjev korisnika dokumentacijske građe. (…)
Archive, citation:
The system is structured as reliable information paradigm for retrieval and categorization of documents upon request of documentation users. (...)
HINA Struktura organizacije baze HINA Structure of Organization of Database
HINA informacijska baza HINA Information Base Hina informacijsko dokumentacijski centar HIB/IDC HINA Information Documentation Center HIB/IDC
HIB / IDC
HINA informacijska baza je alat kojim se služi HINA u vlastitom organiziranju HIB Informacijsko dokumentacijski centar povezuje interese korisnika sadržaja HINA Information Data base is one of the tools used by HINA in its own organization HIB Information Documentation Center links the interests of clients using content generated by HINA
Opredjeljenja
HIB izražava multimedijsku razvojnu ambiciju HINA-e HIB osigurava dostupnost i pretraživost pohranjenog digitalnog zapisa tiskanih i AV sadržaja HIB svojim sustavom podržava umreženje svakog pojedinog građanina Hrvatske osiguravajući dostupnost podataka iz javnih glasila pomažući osviještenu obaviještenost o izabranim razinama javnog znanja u hrvatskom društvu HIB svojim sustavom osigurava dostupnost javnog znanja pomoću svojih 20 predmetno usmjerenih baza podataka HIB je podrška razvoju novih medija
Determinants
HIB expresses a multimedia development ambition of HINA HIB ensures accessibility and searchability of digitally stored textual and AV data HIB system supports network connection for each individual Croatian citizen, providing accessibility of information from public media and contributing to conscious awareness of chosen levels of public knowledge in Croatian society HIB system provides accessibility of public knowledge, by means of its 20 subject-based databases HIB provides support for developing new media
HIB STRUKTURA:
EVA – elektronska baza podataka, 1,5 milijun dokumenata dnevne proizvodnje HINA-e od 1991. godine VND – kolekcija 12 milijuna dokumenata u 6700 kolekcija novinskih isječaka predmetno organiziranih dokumenata kroz 15 područja VND – baza podataka s 300 tisuća dokumenata u elektronskom formatu
HIB STRUCTURE:
EVA – electronic database, 1.5 million documents of HINA’s daily production since 1991 VND – collection of 12 million documents in 6700 collections of newspaper clippings organized according to content into 15 categories VND – database with 300 thousand documents in electronic format
HIB izvori:
HIB obrađuje
1.
2.
3.
4.
produkciju HINA-e devet dnevnih listova 15 tjednih, dvotjednih, mjesečnih revija 12 milijuna dokumenata novinskih isječaka iz baze VND kreirane u razdoblju od 1964/2003. godine
Na godišnjoj razini HIB treba obraditi milijun dokumenata
dnevna tekstualna proizvodnja HINA-e dnevna AV proizvodnja HINA-e dnevni, tjedni, mjesečni i povremeni tiskani izvori obrada baze novinskih isječaka baze VND prema posebnom programu
HIB sources:
HIB processes
1.
HINA’s production 2.
3.
4.
nine daily papers 15 weekly and monthly magazines 12 million documents of newspaper clippings from the VND database created since 1964 to 2003
On a yearly basis HIB should process a million documents
daily textual HINA’s production daily AV HINA’s production daily, weekly, monthly and periodical press processing of newspaper clippings from VND database according to a special programme
Linkovi – link veza do medija on-line
BAZE U OKRUŽENJU
Mindmapping
MEDIJI ON-LINE BAZA AV MEDIJA NEWS FAQ OGLAŠAVANJE BAZA OGLASA MEDIJSKA BAZA HINA Homepage BAZA FOTOGRAFIJA SEARCH A-Z PREGLEDNIK PRETPLATA WEB FILTER TOP VIJESTI TJEDNE VIJESTI ARHIVA O NAMA PROJEKTI ANALITIKA KONTAKT LOG IN
Razvojna opredjeljenja
Automatska kategorizacija sustava utemeljena na pojmovnicima i prepoznavanju oblika riječi (lematizacija) Minimalno željene funkcije:
Svrstavanje tekstova u predefinirane kategorije
- pronalaženje kategorija prema unaprijed naučenim pravilima - sposobnost sustava da “uči” pravila prema već napravljenoj kategorizaciji - temeljem pravila sustav samostalno određuje koje od predefiniranih kategorija odgovaraju pojedinom novom tekstu - strojno dobiveni rezultati prijedlozi su za humanog kategorizatora
Pronalaženje imenovanih entiteta
- u obradi sadržaja niz je entiteta koji karakteriziraju tekst i nužno ih je prepoznati, izdvojiti za dalju obradu (osobe, institucije, toponimi...)
Frekvencijska analiza
- služi kao baza podataka za naprednije oblike text mininga
Automatska kategorizacija sustava razvojno je nužna zato što osigurava sposobnost sustava da prati, prepoznaje i donosi podlogu za odlučivanje na temelju realnih pokazatelja i koje je moguće prepoznati
Development objectives
Automatic categorization of the system, based on thesauruses and word-form recognition (lemmatization) Minimal desired functions:
Classifying texts into predefined categories
- finding categories according to previously learned rules - ability of the system to “learn” rules according to predefined categories - according to rules, the system autonomously determines which of the predefined categories apply to a specific new text - mechanically acquired results are suggestions for human categorizer
Finding labeled entities
- content processing includes various entities which characterize the text and it is necessary to recognize them and single them out for further processing (person, institution, toponym...)
Frequency analysis
- serves as database for advanced forms of text mining
Automatic categorization of the system is a developmental necessity because it provides the ability of the system to track, recognize and create a base for decision-making according to realistic and recognizable indexes
Proces obrade VND
Opis procesa obrade po fazama
Processing VND
Phase by phase description of processing
Scanning Adobe Photoshop
Workflow
OCR and clipping, initial categorization, ABBYY FineReader (VNDClipper)
Copying (File system) Kopiranje (File system)
Projects, export...
Editorship
Redakcija Skeniranje Adobe Photoshop PDF, Editorial system PDF, Redakcijski sustav OCR i clipping, inicijalna kateg., Abbyy FineReader (VNDClipper) rt p o E ks Ek sp ort NewsCenter Do dj el a Clipping, inicijalna kateg., Adobe Acrobat (PDFClipper)
Clipping, initial categorization, Adobe Acrobat (PDFClipper)
Kategorizacija
Categorization
Preu zim anje Pre uzim anje D od je la Projekti, eksport...
O Kategorizacija za specifične potrebe
Categorization for specific requirements
do br Odobravanje av an za objavu
Publishing approval
Faze procesa obrade
Ulaz (preuzimanje sadržaja, skeniranje*) Clipping i inicijalna kategorizacija Obrada / kategorizacija Kategorizacija za specifične potrebe** Izlaz i korištenje (projekti / export / statistika / pretraga) * ** samo kod papirnatih materijala još nije kreirana
Processing phases
Input (collecting material, scanning*) Clipping and initial categorization Processing / categorization Categorization for specific requirements** Output and usage (projects / export / statistics / search) * ** only for paper material not created yet
Ulaz
Sadržaj ulazi na 2 načina, ovisno o formatu: Papirnate novine Elektronički format (PDF) Mogući su i drugi načini ulaska sadržaja, poput informacijskih servisa ili redakcijskog sustava Papirnati format Proces počinje sa pregledom sadržaja i odabirom relevantnih članaka Nastavlja se skeniranjem sadržaja i pripremom za clipping Elektronički format Osim odabira relevantnih članaka, nije potrebna priprema za daljnju obradu
Input
2 modes of content input, depending on the format: Paper format Electronic format (PDF) Other types of input are also possible, such as information service or editorial system Paper format The process begins with reviewing material and selecting relevant articles It continues with scanning material and preparing for clipping Electronic format Apart from selecting relevant articles, no preparations are necessary for further processing
Inicijalna obrada
Uključuje clipping i inicijalnu kategorizaciju Ovisno o formatu ulaza, postoje 2 načina: VNDClipper – slikovni ulaz, radi se OCR i clipping, uključena je i podrška za inicijalnu kategorizaciju PDFClipper – PDF (elektronički ulaz), radi se samo clipping te inicijalna kategorizacija Inicijalna kategorizacija nastoji automatikom pročitati metapodatke (naslov, autor) iz teksta, nužno je ručno unijeti izvor, datum i područje Oba modula omogućavaju automatski eksport obrađenih sadržaja direktno u centralnu bazu za daljnju obradu, cjelovitih stranica kao i odabranih članaka
Initial processing
Includes clipping and initial categorization Depending on the input format, there are 2 modes: VNDClipper – image input, OCR and clipping are performed, including the support for initial categorization PDFClipper – PDF (electronic input), only clipping and initial categorization are performed Initial categorization aims for automatic recognition of metadata (title, author) from the text, manual input of source, date and category is necessary Both modes enable automatic export of processed data directly into the central database for further processing, whole pages as well as selected articles
Obrada / kategorizacija
Sastoji se u preuzimanju materijala za daljnju obradu, obrade i spremanja obrađenih članaka Preuzimanje je moguće putem zadataka i pregleda po izvoru i datumu, gdje se odabiru neobrađeni članci i članci koji odgovaraju inicijalnim kategorijama.
Preuzeti članci za obradu imaju status u obradi Nakon obrade, članci se u statusu obrađeni nalaze u bazi i spremni su za daljnje korištenje
Processing / categorization
Consists of collecting material for further processing, processing and storage of processed articles Collection is possible through assignments and view by source and date, where unprocessed articles and those that are attributed to initial categories are selected Collected articles have the status in process After processing, the articles gain status stored in database for further usage processed and are
Kategorizacija za specifične potrebe
Sljedeći korak u obradi omogućava dodatnu kategorizaciju sadržaja i grupiranje relevantnih sadržaja za pojedine korisnike sa posebno ugovorenim setom kategorija ili zahtjeva. Također se odnosi i na verifikaciju i odobravanje za daljnju objavu.
Ovaj dio funkcionalnosti još nije realiziran u praksi
Categorization for specific requirements
Next step in processing enables additional categorization of content and grouping of material relevant to individual clients with a specific set of categories or requirements. It also includes verification and approval for further publishing.
This part of functionality is not yet put into practice
Izlaz i korištenje
Korištenje materijala je moguće na sljedeće načine: Pretraga sadržaja i grupiranje po metapodacima i punom tekstu sadržaja Projekti – grupiranje članaka pojedinačnim dodavanjem ili na temelju pretraga radi daljnje obrade Statistika – analiza pojavljivanja pojedinih entiteta unutar odabranog seta podataka unutar projekata Export – export seta podataka ili pojedinačnih podataka u Word, HTML ili DVD odgovarajući format Planirana je objava prema Internet korisniku koju tek treba provesti (pressclipping, pristup arhivi…)
Output and usage
Possible usages of the material are: Search through content and grouping according to metadata and full text Projects – grouping of articles by individual adding or based on search results for further processing Statistics – analysis of occurence of certain entities within a chosen set of data within projects Export – export of sets of data or individual data into Word, HTML or DVD – suitable format Public access for Internet users is planned and yet to be put into effect (pressclipping, access to archive…)
Što i kako What and how
We are giving access to a selection of newspapers and other sources and authors; browsing texts according to the chosen news and date; according to people and subjects in which they appear; according to the selected person and chosen subject; searching by subject and type of article; database overview according to events; database search by keywords; institutions, location and time osoba
osoba
tema
osoba tema
zemljopisna odrednica
osoba tema zemlj. odr.
vremenska odrednica
osoba tema zemlj. odr. vrem. odr.
ključna riječ
osoba tema zemlj. odr vrem. odr. ključna riječ
institucija
osoba tema zemlj. odr vrem. odr. ključna riječ institucija
izvor
osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor
autor
osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor
novinska vrsta
osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor vrsta,
full text search
osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor vrsta, full text search,
medijska analiza
Person
Person
subject
Person subject
location
Person subject location
date
Person subject location date
keywords
Person subject location date keywords
institution
Person subject location date keywords institutions
sources
Person subject location date keywords institutions sources
authors
Person subject location date keywords institutions sources authors
journalistic form
Person subject location date keywords institutions sources authors journalistic form
full text search
Person subject location date keywords institutions sources authors journalistic form full text search
media analysis
HRVATSKA REGIJA SVIJET CROATIA THE REGION THE WORD UDRUGE SLOBODNO VRIJEME ORGANIZATIONS LEISURE PRVI TEKST U BAZI FIRST TEXT IN THE DATABASE OBRAZOVANJE intelektualna niša EDUCATION Intellectual niche LOKACIJA LOCATION Rođenje, Birth, datum, place, mjesto date
OSOBNA POVEZANOST PERSONAL CONNECTION
BRAČNO STANJE MARITAL STATUS
SJEDIŠTE/ADRESA LOCATION / ADDRESS OSOBA Ključna osoba PERSON Key person TVRTKA ZAPOSLENJE COMPANY EMPLOYMENT SCIENTIFIC FIELDS: PODRUČJA ZNANOSTI:
JAVNE OSOBE KOMUNIKACIJA / MEDIJI KULTURA I UMJETNO.
MEĐUNARODNI ODNOSI ODGOJ I OBR.
SOCIJALNA SKRB HR VANJSKA POL.
OGLASI PRAVOSUĐE, SUDSTVO, KRIMINAL PROMET RELIGIJA UNUTARNJA POLITIKA ZNANOST DRUŠTVO ZDRAVSTVO EKONOMIJA FINANCIJE SPORT SVIJET DJECA CHILDREN HRVATSKA REGIJA, SVIJET CROATIA THE REGION, THE WORLD OSOBE ISTE RAZINE PERSONS OF EQUAL LEVEL TVRTKE ISTE RAZINE COMPANIES OF EQUAL LEVEL SUPRUGA/SUPRUG WIFE / HUSBAND SRODNIK RELATIVE BRAČNO STANJE MARITAL STATUS
Rezultat
Stvoreni su uvjeti za online pretraživanje unutar sljedećih definicija: 1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Društvo/Zdravstvo/Socijalna skrb Ekologija Ekonomija Financije Hrvatska vanjska politika / Svijet / Međunarodni odnosi Komunikacije i mediji Kultura i umjetnost Odgoj i obrazovanje Promet Religija Sport Pravosuđe / Sudstvo/Kriminal Unutarnja politika Znanost
Result
We created conditions for online search within the following definitions: 6.
7.
8.
9.
10.
11.
12.
1.
2.
3.
4.
5.
13.
14.
Society/Helathcare /Social welfare Ecology Economy Finance Croatian foreign affairs / The World / International relations Communications/Media Culture and art Education Traffic Religion Sports Administration of justice/Judiciary/Crime Internal affairs Science
HIB Informacijsko dokumentacijski centar Information Documentation Center
ORGANIZIRANJE POSEBNE BAZE PODATAKA
ORGANIZATION OF A SPECIAL DATABASE
posebna baza podataka sadrži organizirani skup podataka određenog sadržaja koji dopušta automatsko pretraživanje a special database contains an organized set of information of specific content, allowing automatic search
dokumentacijski centri organiziraju poslove prikupljanja, selekcije, obrade i pohrane građe u bazu kako bi se omogućilo pretraživanje dokumenata, te diseminira dokumente kako bi odgovorila na posebne zahtjeve korisnika za određenim sadržajem documentation centres organise the work of gathering, selection, processing and storing the material into a database to enable the search of documents, and also disseminate documents to meet special user demands for specific content
tekst koji se pohranjuje u bazu se organizira pomoću kodiranja i strukturiranja različitih elemenata teksta a text stored in a database is organised by coding and structuring different text elements
svaka organizirana baza podataka mora sadržavati strukturirani i kodirani tekst every organised database must contain structured and coded text
definirani su osnovni deskriptivni elementi teksta, a njihovo obilježavanje deskriptorima (označiteljima) – atributima (atribuiranje) / znači unošenje vrijednosti potrebno za pretvaranje linearnog teksta u strukturirani ili hipertekst basic descriptive text elements are defined, and their tagging by descriptors – attributes means input of values necessary to turn a linear text into a structured or hypertext
HIPERTEKST
se definira kao tekst koji nema ograničenja linearnosti. Možemo ga odrediti kao tekst koji u sebi sadrži veze prema drugim tekstovima ili druge dijelove istog teksta. Takvi dijelovi teksta nazivaju se čvorovima (nodes)
HYPERTEXT
is a text not limited by linearity. We can define it as a text containing links to other texts or to other parts of the same text. Such parts of texts are called nodes.
ČVOROVI NODES
su jedinice obavijesti koje mogu biti: are units of information which can be: a) b) unutarnje – unutar istog teksta vanjske – u nekom vanjskom tekstu koji služi kao poveznica dokumenta koji se trenutno obrađuje a) b) internal – within the same text external – in an external text used as a link to the document currently being processed
Čvor obično sadrži jednu ideju, tj. pojam, a može sadržavati i podatak o vrsti informacije, npr: zakonski članak ili zakoni saborske rasprave sukob interesa istražna povjerenstva A node usually contains an idea, a concept, but it can also contain data about the type of information, e.g.: a legislative act or statute parliamentary session conflict of interests investigative committee
skup čvorova čini bazu podataka, a čvorovi i njihove veze (unutarnje i vanjske) mrežnu strukturu a collection of nodes make up a database. Nodes and their links (internal and external) make up a network structure
Zašto se tekst strukturira?
višekratna upotrebljivost teksta neovisnost o programskoj podršci, platformi ili aplikaciji (OCR) omogućuje preciznu definiciju i efikasnu obradu teksta
Why structuring a text?
multiple usability of a text independence from software, platform or application (OCR) it enables precise definition and efficient processing of a text
Tekst se strukturira pomoću tezaurusa A text is structured by the means of a thesaurus
tezaurus je indeksiranje kontrolirani rječnik za označivanje i pretraživanje, struktura tezaurusa se sastoji od odnosa među pojmovima: pomoćno sredstvo za thesaurus is a controlled glossary for tagging and searching. It is structured by relations between concepts: an auxiliary indexing tool
Odnosi ekvivalencije
sinonimi – izrazi čije značenje je isto: računalo – kompjutor kvazi sinonimi – izrazi čije se značenje velikim dijelom preklapa: nadareni – genij
Relations of equivalence
synonyms – words with the same meaning: happy - glad pseudosynonyms – words with largely overlapping meaning: talented - genius
Homonimi Homonyms
stanica - u biologiji ili u prometu vodič - je metal ili vodič u turizmu kreda - u kemiji ili u obrazovanju cell - in biology or in jail bank - a financial institution or a bank of a river chase – to pursue or to ornament metal Uz homonime se obavezno upisuju deskriptori koji označavaju dodatnu obavijest In case of homonyms, descriptors must be used to give extra information
Hijerarhijski odnosi
Relations of Hierarchy
pojmovi koji se uključuju samo u okviru iste fundamentalne kategorije pojmova, iskazuje se samo jedan nadređeni pojam, ali jedan ili više podređenih pojmova concepts that are included only within the frame of the same fundamental concept category – there is only one superior concept, but one or more subordinate concepts
Hijerarhijski odnosi
ZLOČIN – ratni – ubojstvo civila, ubojstvo vojnika ZLOČIN – obiteljski – ubojstvo supruge, ubojstvo brata ZLOČIN – kriminal – ubojstvo iz koristoljublja ILI ZAKON – zdravstvo - Zakon o umjetnoj oplodnji ZAKON – politika – Izborni zakon ZAKON – promet – Zakon o sigurnosti prometa na cestama
Relations of Hierarchy
CRIME – war – killing of civilians, killing of soldiers CRIME – family – killing of wife, killing of brother CRIME – criminal act – killing for profit OR LAW – health – The Law of Artificial Insemination LAW – politics – Electoral Law LAW – traffic – The Law of Road Safety
Asocijativni odnosi Associative relations
ukazuju na vezu među terminima koje dokumentalisti smatraju važnima, a ne mogu se iskazati nekom drugom vrstom odnosa show a relationship between terms considered important by documenters, and which cannot be expressed by a different type of relation
Primjer tezaurusa
1.
2.
3.
Nadređeni pojam Tema: Političari Političari Ključna osoba: Ivo Sanader Sinonim Ključna riječ: dužnosnici Podređeni pojam Ključne riječi: pristupni pregovori, poglavlje o Obrazovanju i kulturi Partitivni pojam Ključne riječi: pregovori s EU Područje: Hrvatska vanjska politika Odgoj i obrazovanje Kultura i umjetnost
Thesaurus example
1.
2.
3.
Superior concept Theme: Politicians Politicians Key person: Ivo Sanader Synonym Key word: officials Subordinate concept Key words: negotiations on accession, chapter on Education and culture Partitive concept Key word: EU negotiations Fields: Croatian foreign affairs Education Culture and Art
Sastavljanje indeksa
Indeksiranje bitnih karakteristika sadržaja dokumenta – određivanje Ručno termina – uobičajeno na temelju kontroliranog skupa indeksnih Automatsko – uobičajeno na temelju riječi iz dokumenta i to najčešće uklanjanjem stop riječi i mjerenjem frekvencije termina u dokumentu (stop riječi su zamjenice, veznici i sl., te se riječi zanemaruju na temelju popisa koji ih sadrži)
Index composition
Indexing – setting relevant characteristics of the document’s content Manual – usually based on a controlled set of index terms Automatic – usually based on words from the document, most often by removing stop words and measuring a word’s frequency in the document (stop words are pronouns, conjunctives, etc., they are disregarded according to a list containing them.)
Kako osigurati da se podatak i podaci podudaraju How to ensure the information matches the data
Korjenovanje – uporaba skupa pravila za uklanjanje sufiksa, uklanjanje obličnih ili tvorbenih nastavaka (smjen-a, smjen-e, smjen-jivanje) Lematizacija – reduciranje riječi na njihov sintaktički korijen (osnovni oblik je imenica u nominatvu jednine ili glagol u infinitivu) Stemming – use of a number of rules to remove suffixes, removal of inflectional or formative suffixes (remov-ed, remov-al, remov-ing) Lemmatization – reducing words to their sintactical stem (basic form is a noun in the nominative case singular or the infinitive of a verb)
Organizacija informacija u bazi podataka Organization of information in a database
pored uobičajenih podataka: autor, naslov, izvor, datum, vrsta, područje, ključne riječi, ključne osobe, institucije, zemljopisne odrednice, za korištenje baze važni su i slijedeći podaci: Beside the usual information: author, title, source, date, type, field, keywords, key persons, institutions, and location, the following information is also important for using the database:
ORGANIZACIJA
kako je prikupljena kome je namijenjena format u kojem je raspoloživa (pdf, tiff) uvjeti korištenja
ORGANIZATION
how it is collected whom it is intended for the available format (pdf, tiff) terms of use
Pretraživanje i pregledavanje baze podataka
pregledavanje je kretanje “od gdje do što” znači da korisnik zna gdje se nalazi u bazi, ali ga zanima što je na tom mjestu dostupno, odnosno koje su tu sve informacije pohranjene pretraživanje je za razliku od pregledavanja kretanje “od što do gdje” što znači da korisnik točno zna što želi i zanima ga gdje je to u bazi pohranjeno
Searching and browsing the database
browsing where to what” so that users know where they are in the database, but are interested in what is available there, that is, what information is stored there searching is moving “from is, on the other hand, “from what to where”, meaning the user knows exactly what he/she wants, and wants to know where in the database it is stored
Pretraživanje – opći principi
analiza zahtjeva za pretraživanje, prijevod pojmova iz tematskog zahtjeva u indeksni jezik baze podataka formuliranje i postavljanje strategije pretraživanja izbor termina, pojmova određivanje odnosa među pojmovima izbor potrebnih naredbi
Search – general principles
analysis of the request, translation of query terms to the index language of the database formulating and setting a search strategy selection of terms, concepts determining relations between concepts selection of necessary commands
Korisniku se nudi: jednostavno i složeno pretraživanje
Jednostavno pretraživanje više je prilagođeno krajnjem korisniku jer, na primjer, pod pojmom KLJUČNE RIJEČI zahvaćaju se sve indeksirane riječi i kompletan OCR tekst. Složeno pretraživanje omogućuje preciznije postavljanje zahtjeva i BOOL-ovo riječi.
kombiniranje
User can choose between simple and advanced search
Simple search more suitable for the end-user since, for example, the term KEYWORDS encompasses all indexed words and the entire OCRed text Advanced search enables more precise queries, and Boolean words combinations
Proširenje upita tj. sužavanje pretrage Boolovi operatori – napredna pretraga
AND – odnos presjeka, blizine odnosno udaljenosti, kada su dva pojma strogo logički poredani jedan uz drugoga:
slikarstvo
AND
grafika
OR – odnos unije:
grafika
OR dodjela
nagrade
AND
hrvatski slikari
NOT – isključivanje određenog pojma iz zadanog skupa:
slikarstvo
AND
izložba slika
NOT
grafika
Expanding a search or narrowing a search Boolean operators – advanced search
AND – ratio of overlapping, closeness or distance when two terms are strictly logically placed side by side:
painting
AND
graphic art
OR – union:
graphic art
OR
award Croatian painters
AND NOT – exclusion of a certain term from the set:
painting
AND
exhibition graphic art
NOT
Prednosti slobodnog teksta (OCR)
čitav sadržaj pretraživ svaka riječ ima jednaku vrijednost u pretraživanju nema ljudskih pogrešaka nema odgađanja unosa novih riječi
Advantages of a free text (OCR)
the entire content is searchable every word carries the same weight in the search no human error no delayed input of new words
Nedostaci slobodnog teksta (OCR)
veće opterećenje korisnika ako informacija nije eksplicitno izražena u tekstu lako se može izgubiti, tj. ako nigdje u slobodnom tekstu nije označena vrsta dokumenta, određeni pojam, ciljano područje i dr., bez kontrolirane dokumentalističke obrade pretraživanje neće biti zadovoljavajuće (npr. intervju s Mesićem) nedostatak logičkih veza između specifičnog i općenitog, tj. nedostaje nodes mora se stručno poznavati rječnik područja koji se pretražuje
Downsides of a free text (OCR)
overwhelming of the user if the information is not explicitly expressed in the text it can easily get lost, that is, if the type of document, a certain term, or the aimed field, etc. is not tagged in the free text, the search will not be satisfactory without controlled documenting processing (e.g. Interview with Mesić) lack of logical links between specific and general, that is, the lack of nodes an expert knowledge of the searched field’s language is required
Prednosti kontroliranog rječnika Advantages of a controlled glossary
Rješava mnoge semantičke probleme,
npr.
Solves many semantic
problems, e.g.
ključna riječ ODNOS mora bit pobliže definirana da li je odnos politički, bilateralni, obiteljski, prijateljski...... keyword RELATIONS must be closely defined whether they are political, bilateral, family, friendly…
Prednosti kontroliranog rječnika Advantages of a controlled glossary
Omogućava generičku
povezanost pojmova, npr: Ključna riječ: mito i korupcija AND antikorupcijski program Novinska vrsta: Izvještaj Tema: Reforma pravosuđa Institucija: Ministarstvo pravosuđa Područje: Pravosuđe, sudstvo i kriminal
Enables a generic connection
of concepts, e.g.
Keyword: bribe and corruption AND fight against corruption Journalistic form: Report Subject: Judiciary reform Institution: Ministry of Justice Field: Administration of justice / Judiciary / Crime
Prednosti kontroliranog rječnika
Obilježava područje znanja:
Društvo/Zdravstvo/Socijalna skrb Ekologija Ekonomija Financije Hrvatska vanjska politika/Svijet/ Međunarodni odnosi Komunikacije i mediji Kultura i umjetnost Odgoj i obrazovanje Promet Religija Sport Pravosuđe / Sudstvo / Kriminal Unutarnja politika Znanost
Advantages of a controlled glossary
Tags the field of knowledge: Society/Helathcare/Social welfare Ecology Economy Finance Croatian foreign affairs/The World/ International relations Communications/Media Culture and art Education Traffic Religion Sports Administration of justice / Judiciary/Crime Internal affairs Science
Nedostaci kontroliranog rječnika
Poteškoće kod sistematskog povezivanja svih relevantnih veza među pojmovima koje mogu nastati zbog: a) b) moguće nestručnosti u pokrivanju područja ljudske pogreške
Downsides of a controlled glossary
Difficulties with systematic connection of all relevant links between terms which can appear due to: a) b) possible ignorance of the specific field human error
PRVA FAZA RADA – selektiranje i razvrstavanje po područjima
Svakog dana članci se selektiraju po određenim područjima
Društvo/Zdravstvo/Socijalna skrb, Ekologija, Ekonomija/Gospodarstvo, Financije, Hrvatska vanjska politika/Svijet/Međunarodni odnosi, Komunikacije/Mediji, Kultura i umjetnost, Odgoj i obrazovanje, Promet, Religija, Sport, Pravosuđe/Sudstvo/Kriminal, Unutarnja politika, Znanost
i projektima te dostavljaju timu skenerista koji ih izdvajaju, editiraju i distribuiraju na interna računala
PHASE ONE – selecting and sorting according to fields
Articles are selected every day according to fields
Society/Helathcare/Social welfare, Ecology, Economy, Finance, Croatian foreign affairs/The World/International relations, Communications/Media, Culture and art, Education, Traffic, Religion, Sports, Judiciary/Crime, Internal affairs, Science
and project’s and delivered to a team of scanner operators who clip, edit and distribute them to internal computers
DRUGA FAZA – skeniranje ili pdf kliping
skeniranje dnevnog tiska ili – pdf kliping kompresija i editiranje članaka
PHASE TWO – scanning or pdf clipping
scanning of daily press or – pdf clipping compression and editing of articles
NAČIN RADA TIMA SKENERISTA
skeniranje cjelokupnog dnevnog tiska spajanje stranica i uređivanje izdvajanje članaka i mrežna distribucija editiranih i kompresiranih tekstova
SCANNING TEAM’S MODE OF ACTION
scanning the sum of daily press connecting pages and formatting clipping articles and distributing edited and compressed texts over network
TREĆA FAZA RADA OCR
OCR - Optical Character Recognition predstavlja optičko prepoznavanje znakova pretvaranje teksta koji je u obliku skenirane slikovne datoteke u tekstualnu datoteku, kako to izvode neki specijalizirani softveri za skeniranje
PHASE THREE - OCR
OCR stands for Optical Character Recognition turning texts from scanned picture file format to a text file format using specialized scanning software
OCR
u ovoj fazi rada skenirani, editirani i distribuirani članci prolaze kroz OCR softver e-Visiona koji omogućava prepoznavanje skeniranog teksta u ovoj fazi izrađuje se klasifikacijski sustav čijim opisom je moguće kompjutersko pretraživanje članaka in this phase the scanned, edited and distributed articles go through eVision’s OCR software which enables the scanned text to be recognized in this phase a classification system is made. Its descriptions enable computerized search of articles
Izgled clipa podijeljenog na blokove prije izvršenja akcije čitanja.
A clip divided into blocks before the reading process.
Konačne informacije o clipu prije exporta Final information about the clip before it is exported
ČETVRTA FAZA RADA – završna atribucija
U toj fazi unosi se: Tema Zemljopisna odrednica Institucija Novinska vrsta Medijska analiza Ključna osoba i ostale osobe koje se pojavljuju Ključne riječi
PHASE FOUR – final attributes setting
In this phase we import: Subject Location Institution Journalistic form Media analysis Key person and other related persons Keywords
unošenjem konačnih atributa i snimanjem upisnice završena je dokumentalistička obrada teksta input of final attributes and saving the file completes the documenting part of processing a text
ZAHVALA CREDITS
Studentima informacijskih znanosti FF-a u Zagrebu koji su radili s nama i koji će, kad diplomiraju, nastaviti razvijati sustave za podršku novim medijima To all students from Information Sciences FF in Zagreb that worked with us and who will, after graduation, continue to develop the systems for support of new media Brezović Petra, Bukvić Nenad, Majer Ivana, Miklec Danijela, Nikolić Kristina, Semenić Brankica, Mušan Tihana, Brković Jelena, Hadžić Jelena, Šaronja Vesna