1 Pretrazivanje korpusaFFST

Download Report

Transcript 1 Pretrazivanje korpusaFFST

Hrvatski nacionalni korpus (HNK)
• Sastavljen u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u
Zagrebu
• Rađen po uzoru na BNC (British National Corpus)
• Referentni korpus za hrvatski jezik
• HNK verzija 3.0 - 231 M
• Balansirani korpus suvremenog hrvatskog jezika
• HNK verzija 2.5 – 101 M
• Balansirani korpus suvremenog hrvatskog jezika – stara verzija
Hrvatski nacionalni korpus (HNK)
http://www.hnk.ffzg.hr
HNK – sučelje za pretragu
• Nalazi se na WWW-adresi
http://filip.ffzg.hr/bonito2/run.cgi/first_form
- lakše doći preko stranica HNK-a
HNK – korpusi i potkorpusi
HNK – sučelje za pretragu (polazna)
HNK – sučelje za pretragu
HNK – sučelje za pretragu
• osnovni je cilj alata za konkordancije omogućiti uvid u mnoštvo
primjera određene pojavnice ili fraze u okolinama u kojima se
pojavljuju
• Konkordancija
• KWIC (Key-Word In Context)
• KWAL (Key-Word And Line)
HNK – sučelje za pretragu
HNK – sučelje za pretragu
• Klikom na stožernicu (headword) pojavljuje se širi kontekst
HNK – sučelje za pretragu
• Lijevo/desno razvrstavanje (sort)
HNK – sučelje za pretragu
• Lijevo razvrstavanje
HNK – sučelje za pretragu
• Konfiguriranje željenog prikaza rezultata
HNK – sučelje za pretragu (izvori, rečenice)
HNK – sučelje za pretragu (Save, Sample)
HNK – sučelje za pretragu
HNK – sučelje za pretragu
HNK – sučelje za pretragu
• Korpus je obilježen na više razina
• 1. gramatičko obilježavanje (bit će više riječi kasnije)
• vrste riječi (POS tagging)
• morfosintaktičko obilježavanje (MSD)
• 2. lematizacija (lemmatisation) - svođenje pojavnica iz korpusa na njihove
natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme)
na zajedničku lemu
• lematizacija se na isti način primjenjuje na morfološki supletivne oblike pa bi npr.
jesam, bijah ili bila bili svedeni na leksem biti
• 3. strukturalno obilježavanje
• segmentacija na rečenice <s>
• obilježavanje fizičke strukture teksta (naslov, podnaslov, odlomak itd.)
• već smo vidjeli na prethodnim slajdovima (zelenom bojom)
HNK – sučelje za pretragu (leme)
HNK – sučelje za pretragu
HNK – sučelje za pretragu
• Pretraživanje prema vrstama riječi (CQL= Corpus Query Language)
• Npr. imenice
HNK – sučelje za pretragu
• Rezultat bi trebale biti samo imenice
HNK – sučelje za pretragu
• Spomenuli smo da je jedna od vrsta obilježavanja
• gramatičko obilježavanje
• vrste riječi (POS tagging) – imenice, glagoli, pridjevi …
• ali i potpuno morfosintaktičko obilježavanje (MSD, Morphosyntactic
description)
• MSD = POS + (o|v)rbp (N)
• Pitanje: kako znamo koje oznake koristiti?
• MSD specifikacija (Multex-East V4):
• http://nl.ijs.si/ME/V4/msd/html/msd-hr.html
HNK – sučelje za pretragu
• Alat s pomoću kojega se obavlja automatsko
• POS označavanje naziva se POS označivač (tagger)
• lematiziranje naziva se lematizator
• Treba imati na umu da se taj proces obavlja
automatskom statističkom metodologijom → rez.
nije 100 %
• Ali je prilično (> 90 %) točan!
• [msd="V.*"] – glagol
• [msd="A.*"] – pridjev
• itd.
HNK – sučelje za pretragu
• Kako postaviti upit
• pridjev iza kojega slijedi imenica?
• [msd="A.*"][msd="N.*"] – pridjev za kojim slijedi imenica
HNK – sučelje za pretragu (VJEŽBA)
• Kako postaviti upit
• Imenica ispred koje MOŽE stajati pridjev?
• [msd="A.*"]*[msd="N.*"] – RegEx
HNK – sučelje za pretragu (VJEŽBA)
• Kako postaviti upit
• pridjev iza kojega slijedi lema glava?
• [msd="A.*"][lemma="glava"]
HNK – sučelje za pretragu (VJEŽBA)
• Kako postaviti upit
• lema glava ispred koje MOŽE stajati pridjev?
• [msd="A.*"]*[lemma="glava"]
• Kako postaviti upit
• imenica ispred koje slijedi BAREM JEDAN pridjev?
• [msd="A.*"][msd="A.*"]*[msd="N.*"]
• Kako postaviti upit
• Jednostavne prijedložne fraze (PP)?
• [msd="S.*"][msd="A.*"]*[msd="N.*"]
HNK – sučelje za pretragu
• Uporaba morfosintaktičkih oznaka kod pretrage
MSD = POS + (o|v)rbp (N)
• Ponovo pogledati
MSD specifikaciju (Multex-East V4):
http://nl.ijs.si/ME/V4/msd/html/msd-hr.html
• Npr. prema specifikaciji Ncmsg znači
• Imenica, opća, muškog roda, u jednini, u genitivu
HNK – sučelje za pretragu
• Rezultat za upit
• [msd="Ncmsg"]
HNK – sučelje za pretragu (VJEŽBA)
• Kako postaviti upit
• Opća imenica u nominativu?
• [msd="Nc..n"]
• Kako postaviti upit
• Vlastita imenica ispred koje se nalazi lema pitati?
• [lemma="pitati"][msd="Np.*"]
• Što pronalazi upit
• [lemma="tijek"][msd="A.*"][msd="N.*"]
• Također moguće i
• [lemma="tvrd"][lemma="orah"]
HNK – sučelje za pretragu
• Pretraživanje pojavnica iz korpusa koje se nalaze u blizini (npr.
kombinacija lema ili oblika)
• Na standardan način unijeti prvu pojavnicu
• Potrebno kliknuti na „Context” (na početku ekrana lijevo)
• U tekstni okvir „Lemma(s):” unijeti drugu (treću…)? pojavnicu
• Opcionalno „Query Type:” – ovisno pretražujemo li leme ili oblike riječi
• Opcionalno „Window:”– ovisno želimo li definirati lijevi/desni/oba kontekst
druge pojavnice i prozor u kojem se nalazi
HNK – sučelje za pretragu
• Izgled:
HNK – sučelje za pretragu
HNK – kolokacije
• Što su kolokacije? Zašto su važne?
• Potrebno je nešto šire teorijsko objašnjenje
• Vidjeti novu prezentaciju!
HNK – kolokacije
• 1. Unos prve leme
• 2. Klik na Make Concordance
• 3. Klik na Filter
• 4. Klik na Filter Concordance
HNK – kolokacije
• 5. Klik na Collocations
• 6. Postaviti atribut
na lemma, T, MI
• 7. Klik na Make Candidate List
HNK – kolokacije
• 5. Klik na Collocations
• 6. Postaviti atribut
na lemma, T, MI
• 7. Klik na Make Candidate List
HNK – kolokacije
• Rezultati poredani
prema uzajamnoj
obavijesnosti (MI)
HNK – kolokacije
• Ako nije odabran
atribut lema nego
Word
Frekvencijska lista HNK-a