Hrvatski čestotni rječnik - Hrvatski nacionalni korpus

Download Report

Transcript Hrvatski čestotni rječnik - Hrvatski nacionalni korpus

Hrvatski čestotni rječnik
Marko Tadić
([email protected])
Filozofski fakultet Sveučilišta u Zagrebu, Zavod za
lingvistiku (http://www.ffzg.hr/zzl/zzl-home.htm)
Ljubljana, 1999-10-27
Hrvatski čestotni rječnik

Milan Moguš, Maja Bratanić, Marko Tadić: Hrvatski čestotni
rječnik, Školska knjiga – Zavod za lingvistiku Filozofskoga
fakulteta Sveučilišta u Zagrebu, Zagreb 1999.

projekti MZT RH Korpus suvremenog hrvatskog književnog
jezika i Računalna obrada hrvatskoga književnog jezika
(1976-1996)

sastavljen na temelju jednomilijunskoga korpusa
hrvatskoga književnog jezika tzv. Moguševa korpusa (1M)
Plan izlaganja

korpus
– struktura i sastav
– raspon i opseg
– uzorkovanje

obradba korpusa
–
–
–
–

obilježavanje korpusa
abecedni i frekvencijski rječnici pojavnica
konkordancije
lematizacija
rječnik
– struktura rječnika
– struktura leksikografskih članaka
Korpus 1

početak: 1976. Milan Moguš zamislio i pokrenuo projekt Korpus
suvremenog hrvatskog književnog jezika

prvi pokušaj usustavljivanja hrvatske jezične građe na temeljima
reprezentativnoga korpusa (prvi hrvatski računalno obrađen
korpus = Osman Ivana Gundulića, Bujas 1967)

za ono doba milijun pojavnica = znatan korpus (Brown korpus
1967.)

koliko je poznato: tada (1976) prvi milijunski korpus nekog
slavenskog jezika

danas: veličinom neadekvatan za ozbiljnija leksikografska
istraživanja ali nezaobilazan za usporedbu pred-1990. i poslije1990. hrvatskoga leksika
Korpus 2: struktura

5 potkorpusa:
•
•
•
•
•
Drama
Novine
Proza
Stihovi
Udžbenici
20 uzoraka po 10.000 pojavnica
8 uzoraka po 25.000 pojavnica
20 uzoraka po 10.000 pojavnica
20 uzoraka po 10.000 pojavnica
58 uzoraka po 3450 pojavnica
195052
205816
Novine
Drama
Udzbenici
Stihovi
Proza
203208
201667
202005
Korpus 3: sastav

drama, proza, poezija
– prvih 10.000 pojavnica nekoga djela odabranih hrvatskih
autora
– pravilo: nema ponavljanja autora zbog što bolje disperzije
uzoraka (iznimno: 2 značajna autor u više žanrova)
• Miroslav Krleža: Povratak Filipa Latinovicza i Aretej
• Ranko Marinković: Kiklop i Glorija

novine
– cijeli brojevi dnevnika
• nadregionalni: Vjesnik (travanj, lipanj, rujan, prosinac) 1975.
• regionalni Slobodna Dalmacija, Novi list, Glas Slavonije, Borba
• dopuna do 200.000 iz Vjesnika (ožujak) i Večernjega lista (kolovoz) 1977.

udžbenici
– udžbenici svih predmeta maturalnih razreda u školskoj godini
1977/1978.
Korpus 4: raspon i opseg

vremenski raspon
– tekstovi objavljeni od 1935. do 1978.

opseg
– polazni opseg: 1.007.748 pojavnica
– opseg nakon isključivanja inojezičnih elemenata: 994.049
– opseg nakon isključivanja imena: 952.327 pojavnica

veličina nekomprimiranoga teksta: 6,3 Mb
Korpus 5: postupak uzorkovanja

prethodno istraživanje o veličini uzorka:
– 3 probna uzorka od po 5000, 10000 i 20000 pojavnica
• 5000 premalo
• 10000 dobar prirast novih različnica u odnosu na 5000
• 20000 slabiji prirast novih različnica od prirasta između 5000 i 10000 uz
manje od 10% povećanje broja novih natuknica

drama, proza: prvih 10.000 pojavnica + do kraja rečenice

poezija: 10.000 pojavnica iz cijelih pjesničkih zbirki + do kraja
pjesme

novine: prvih 25.000 pojavnica ili cijeli broj dnevnika

udžbenici: 58 predmeta, sadržaj + prve pojavnice do 3450 + do
kraja rečenice
Obradba korpusa 1

tekst preživio 4-5 generacija računala uz stalne konverzije

čitav je tekst utipkan i višekratno korigiran do 1988. ali 600.000
pojavnica sve velikim slovima (tehničko ograničenje!)

tih 600.000 pojavnica nanovo utipkano i korigirano tijekom 1989.

hardware: primarna obradba na PC-AT (386/25 MHz) sa 4 Mb RAMa i 200 Mb HD

software: posebno napisan programski paket, dBase III+ u kasnijoj
fazi
Obradba korpusa 2: tri faze

primarna obradba
–
–
–
–

obilježavanje korpusa
abecedni rječnik pojavnica
čestotni rječnik pojavnica
konkordancija
lematizacija
– uspostavljanje relacije između pojavnice i leme (s vrstom riječi)

korpus kao baza
– pojavnice s kraćom konkordancijskom okolinom
– lematizirane
– omogućeno pretraživanje po
• pojavnici
• lemi
• vrsti riječi
Obradba korpusa 3: obilježavanje korpusa

1988, kad je obilježavanje počelo, današnji standard za
obilježavanje korpusa — SGML (a kamoli XML) još nije ni bio u
vidokrugu lingvista

odabran sustav obilježavanja koji se mogao preobličiti u tadanji
de facto standard COCOA

struktura oznake:
n
#pxxxggs n
•
•
•
•
p = potkorpus (Drama, Novine, Proza, Stihovi, Udžbenici)
xxx = broj uzorka u potkorpusu
gg = godina izdanja djela (?? za nepoznate)
s = sastavnica tekstovne strukture (G glavni naslov, I nadnaslov, N naslov, P
podnaslov, T tijelo teksta, S sažetak, O potpis, K kazalo/sadržaj, M motto,
posveta)
Obradba korpusa 4: primjer obilježavanja
n#P03050Gn
Luka Perković: Škrinja
n#P03050Nn
Djed
n#P03050Tn
Bile su u djeda Vuje dvije krave. Treba odmah reći: nisu to bile
samo krave, jer su osim vimenom služile gospodaru i jarmom. Njihov
rog nije bio oštar da ubode, kad mu priđeš, već blag i mek, da i
glavu nasloniš na nj, ako ti je umorna. Njihova noga nije bila opaka
da udari, kad s loncem pod vime dođeš, već pitoma i poslušna, da ti
i zadnju kap dopusti izmusti. A kad su u jarmu bile, eh zažmiri
tada, da ti milota suzu ne izmami: njihov hod nije bio ohol da se
svidi, niti mogao da zaplaši, već ustrajan i jednakomjeran da ti
usta sama od sebe šapću: stanite malo, krave, da vas poljubim u to
vaše čelo pametno.
...
n#EODn
Obradba korpusa 5: popisi riječi

abecedni
popis
pojavnica
a
7852
a-1
aa
a-a-a
aaa
aaaa
aaaaa
aaaaaa
aaaan
aaah
aaan
aaann
aarhusa
abada
abadi
abatjouri
abažurom
abbot
abdeselam
abdominalno
abdu
abdula
abdulah
abdul-hamida
abdurahmana
abe
abeba
abebi
abeceda
abecede
abecedi
abecedno
abecednom
abecedu
abesiniji
abesiniju
abesinku
abiogeneza
abnormalni
abnormalnim
abonent
abonman
abrazije
abruceza
absint
absinta
abu
academie
acalno
acedija
acetaldehid
acetat
acetilcelulozne
2
1
2
4
2
1
3
4
1
1
1
1
1
1
1
2
1
1
1
1
2
1
1
1
1
2
2
2
1
1
1
2
3
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
1

frekvencijski
popis
pojavnica
i
41923
u
je
se
da
na
za
a
ne
su
od
to
što
s
kao
sam
o
ja
će
bi
ti
koji
iz
sve
nije
mi
ili
kako
ali
samo
kad
tako
pa
po
još
te
do
ga
ni
sa
koje
me
li
više
već
on
jer
mu
si
koja
bilo
smo
biti
27093
24298
23630
15872
13436
8320
7852
7852
7596
6319
6019
5951
5623
4778
4777
3665
3647
3433
3399
3371
3286
3268
3246
2996
2870
2760
2732
2709
2642
2579
2525
2464
2436
2301
2290
2282
2167
2157
2002
1930
1921
1867
1801
1787
1765
1721
1721
1691
1582
1445
1382
1332
Obradba korpusa 6: konkordancija

KWIC oblik s naznakom uzorka s lijeve strane, sortirana prema
stožernici te desnoj okolini
S01669T
D00853T
P01567T
D004??T
S014??T
S00763T
S01877T
S00647T
S014??T
S00878T
S01262T
U01477T
D020??T
S003??T
S014??T
D00853T
S01262T
D01263T
S02078T
D004??T
S00231T
D00853T
ljubav razilazi se s maglom /Ah ta ljubav sva već istrošena / /Konačno
e sam sažeo svu svoju neizživljenu ljubav, sve ono lijepo što je /čovj
ve ode ... fuć ... ljubav ili nije ljubav, sve vam dođe isto. Dečki /s
tvoj prljavi novac, /prodao svoju ljubav, svoga boga! Ona je moj rasp
jigu rastvorenu /okom u oko /čitaj ljubav svoju. / /Ne treba više noć
gu više spavati, ni sniti, /a nije ljubav što mi srce kida, /ni strah
srce tvoje, /sva snaga vatrena. / ljubav, /što se u ljubav pretvorila
maš dvadeset godina /i djetinjastu ljubav, što tepa noćnoj kiši? /Obla
/Znam vaš san, sastanke ilegalne, / ljubav što u jedno srce ne može da
o gdje su krila koja donose veče, / ljubav što u ledu izgara? / /Tražim
e onda i kroz žile stare; /duša je ljubav što u sreći guče; /ti prsa h
ke /ljudske strasti — ljubomora i ljubav, te zakon i ljubav prema dom
ijek, /I neka se urote vrazi svi, / Ljubav tu imam za lijek. /RATKO I J
s koji sjaji iz bjeline /rasuta je ljubav tvoga višeg sjaja /U njemu s
je bit će pjesme moje, /svrstat ću ljubav u bunu stihova /kad se u pje
no, jedini od svih ljudi, /iskazao ljubav u kojoj nije bilo ni trunka
mnogo čega posrće u hodu; /tako i ljubav — u ljudskome rodu — /sve
tovana /supruga njeguje evanđeosku ljubav u najbanalnijoj psećoj gužvi
/Anđeli, vi ste ruke, /koje bacaju ljubav u nepovrat, /vi ste oči /koj
je patnje, moja krv, moja /vjera u ljubav, u sreću, u čovjeka vape za
nuci — to su slavoluci /Kroz koje ljubav u trijumfu ide! / / /HIMNA Z
aklonost ponižava! /MÜLLER: /Znam, ljubav ubojice... /LINGER: /Nisam r
Obradba korpusa 7: lematizacija

već su postojali programi za prepoznavanje različitih oblika riječi
u hrvatskome (Kržak & Boras 1985; Kržak 1988)
– temeljeni na leksikonu
– bitno određeni do tada »pročitanim« tekstovima

predviđani problemi kod 1M lematizacije
–
–
–

20% korpusa stihovi (otklon od standardnoga leksika)
homografija (čiji opseg uopće nije istraživan na većem korpusu)
onomastički problemi
odabran postupak polu-ručne lematizacije
–
–
–
svaka pojavnica lematizirana izravnim uvidom u okolinu (konkordancija)
podatak o vrsti riječi (m, mpl, f, fpl, n, npl, adj, adv, con, exc, num, par, pre, pro, v,
vr, abb)
podatak o značenju (kad je potrebno za razlikovanje lema)
Obradba korpusa 8: primjer lematizacije

radni zaslon programa za lematizaciju
Obradba korpusa 9: lematizirana baza

baza nakon provedene lematizacije
Obradba korpusa 10: problemi pri lematizaciji

strane riječi i fraze — ne ulaze u hrvatski frekvencijski
rječnik
– u Krleže, Gervaisa itd.
– barricata, nota bene, amice...

morfološki i fonološki adaptirane posuđenice — ulaze
– jahta, pamflet, abažur...

antroponimi, toponimi i ostala vlastita imena te pridjevi
izvedeni iz njih — ne ulaze
– Barrie

problem istopisnica (homografa):
– unutarnja homografija: pojavnice iste leme — nije rješavano
– vanjska homografija: pojavnice više lema — dodavana
područna odrednica i/li značenje i/li naglasak (trX{nja/tré{nja)
Obradba korpusa 11: problemi pri lematizaciji

problem nestandardnih oblika
– grafijske varijacije *babske, *avijon lematizirane su pod
standardnu lemu bapski, avion
– fonološke varijacije *snig/snijeg pod standardnu lemu snijeg
– leksičke varijacije *dišpet, *žnora, *cucek pod nestandardnu
lemu

problem pridjeva i glagolskoga pridjeva
– Cijeli mu je svijet bio uzdrman.  uzdrman je dio glagolske
paradigme i lematizira se pod uzdrmati, v
– Gledao je njegovu uzdignutu ruku.  uzdignut je u pridjevskoj
poziciji i lematizira se pod uzdignut, adj

problem poimeničenih pridjeva
– Debeli ustane.  debeli je poimeničen i lematizira se pod
debeli, m
Rječnik 1

natuknice u rječniku = leme

frekvencija = kumulativno frekvencije svih pojavnica pripadajućih
istoj lemi

3 dijela rječnika
– čestotni rječnik
– abecedni rječnik
– abecedni rječnik s pojavnicama

čestotni rječnik: struktura leksikografskoga članka
lema
vrsta riječi
ruka
već
zemlja
njegov
hiža
kp
lukav
f
adv
f
pro
f
abb
adj
značenje standardnost rang
*
kilopond
55
56
57
58
540
541
541
čestota
apsolutna relativna potkorpusi
1599
1559
1512
1477
30
29
29
0.1597
0.1557
0.1510
0.1475
0.0030
0.0029
0.0029
DNPSU
DNPSU
DNPSU
DNPSU
D-P-----U
D-PS-
Rječnik 2


abecedni rječnik : struktura leksikografskoga članka
lema
vrsta riječi
abeceda
atlas
atlas
cucak
odživjeti
odžak
žvakati
f
m
m
m
v
m
v
značenje standardnost rang
tkanina
zem
*
*
563
567
569
568
568
569
553
čestota
apsolutna relativna potkorpusi
7
3
1
2
2
1
17
0.0007
0.0003
0.0001
0.0002
0.0002
0.0001
0.0017
-N-SU
D--S---SD-P----SD---D-PS-
abecedni rječnik s pojavnicama : struktura leksikografskoga
članka
lema
vrsta riječi
značenje standardnost aps. čestota
rang
potkorpusi
oteti
v
34
539
DNPS(ote 2, oteje* 2, otela 2, otele 1, oteli 1, otelo 1, oteo 8, oteti 10, oteto 1, otme 3,
otmem 1, otmi 1, otmu 1)
oteti se
vr
14
559
DNPS(ote 2, otelo 1, oteo 2, oteti 2, otme 6, otmem 1, otmu 1)
preko
pre
523
174
DNPSU
(preko 509, prek* 8, priko* 6)