Buliding the Croatian Morphological Lexicon

Download Report

Transcript Buliding the Croatian Morphological Lexicon

Hrvatski nacionalni korpus
Marko Tadić
([email protected], hnk.ffzg.hr/mt)
Odsjek za lingvistiku, Filozofski fakultet
Sveučilište u Zagrebu (hnk.ffzg.hr)
Sveučilište u Grazu, 2006-04-04
Plan predavanja

Hrvatski nacionalni korpus (HNK)
– struktura
– obilježavanje
– dostupnost putem Interneta

Hrvatski morfološki leksikon (HML)
– teorijska pozadina
– primjena flektivnoga dijela leksikona

POS/MSD označavanje
– sraz HNK-a i HML-a
– POS/MSD označivač za hrvatski

Hrvatska ovisnosna banka stabala (HOBS)

Perspektive: novoprijavljeni projekti
Hrvatski nacionalni korpus (HNK)

projekti Ministarstva znanosti i tehnologije Republike Hrvatske
– 130718, Računalna obradba hrvatskoga jezika, zapravo započeo
krajem 1998.
– 0130418, Razvitak hrvatskih jezičnih resursa, započeo 2002.

teorijske osnove za HNK još 1995., objavljene u 2 članka:
– Tadić (1996) Računalna obradba hrvatskoga i nacionalni korpus,
Suvremena lingvistika 41-42, 603-612
– Tadić (1998) Raspon, opseg i sastav korpusa suvremenoga hrvatskoga
jezika, Filologija 30-31, 337-347

iskazana potreba za hrvatskim referentnim sin- i dijakronijskim
korpusom

dân je prijedlog za sastav korpusa

razrađen je opseg, vremenski raspon i njegova struktura
predložena je dostupnost putem WWW-a

HNK v 1.0: Struktura

30m
30-milijunski korpus
suvremenoga hrvatskoga jezika
– tekstovi od 1990. do danas
– različita područja i žanrovi
– reprezentativan za suvremeni
hrvatski standard

HETA
Hrvatski elektronički tekstovni
arhiv
– tekstovi stariji od 1990.
– tekstovi čitavih serija
publikacija / autora nakon 1990.
koji bi poremetili ravnotežu i
reprezentativnost 30m-a
HNK v 1.0: 30m tipologija tekstova

nema novijih istraživanja o produkciji / recepciji teksta u
hrvatskom

nema usustavljenih podataka o protoku teksta u društvu
– broj naslova koji se posuđuju u javnim knjižnicama
– broj tjedana koliko neki naslov ostaje na popisu uspješnica
– ukupna naklada novina, revija i časopisa
– ...

kriteriji za odabir tekstova u korpus
– podatci iz komercijalnih marketinških istraživanja o recepciji novina i
revija
– književna kritika o suvremenoj hrvatskoj prozi
– strukture ostalih velikih referentnih korpusa (BNC, CNC...)
HNK v 1.0: 30m tipologija tekstova 2
1. Informativni tekstovi
1.1. novine
1.1.1. dnevnici
1.1.2. tjednici
1.1.3. dvotjednici
1.1.4. sporadičnici
1.2. magazini
1.2.1. tjednici
1.2.2. dvotjednici
1.2.3. mjesečnici
1.2.4. dvo-/tromjesečnici
1.3. knjige
1.3.1. publicistika
1.3.2. vještine itd.
1.3.3. znanost
2. Imaginativni tekstovi (Fiction)
2.1. proza
2.1.1. romani
2.1.2. pripovijetke
2.1.3. ogledi
2.1.4. dnevnici, putopisi...
3. Miješani tekstovi
3.1. imaginativno-faktografska djela
3.3. govori
74
37
22
9
3
3
16
9
1
3
3
21
4
4
13
23
23
13
5
4
1
3
2
1
22200000
11100000
6600000
2700000
900000
900000
4800000
2700000
300000
900000
900000
6300000
1200000
1200000
3900000
6900000
6900000
3900000
1500000
1200000
300000
900000
600000
300000
HNK v 1.0: Prikupljanje tekstova

na početku je doneseno nekoliko tehničkih odluka
– bez utipkavanja
– bez optičkoga prepoznavanja pismena (OCR)
– samo e-tekst

neki su tekstni tipovi / žanrovi lakše dobavljivi
– nema problema s
• novinama
• književnošću
• znanstvenim knjigama (društvene i humanističke znanosti)
– ozbiljan nedostatak građe iz
• prirodnih znanosti (kemija, fizika)
• tehničkih znanosti

do sada skupljeno više od 200 Mw, ali nije uravnoteženo

problemi s autorskim pravima
– pojedinačni sporazumi s nakladnicima
HNK v 1.0: Obilježavanje tekstova

XML
– XCES (XML inačica CES-a = Corpus Encoding Standard) & XML TEI
– Ide, Bonhomme & Romary (2000)
– pridržavajte se standarda! za razmjenu:
• podataka: vaš korpus može na isti način biti čitljiv negdje drugdje
• aplikacija: različiti alati mogu se primijeniti na vaš korpus bez ikakve
potrebe za prilagodbom / preoblikom podataka

XML = UNICODE kompatibilan (bez problema s kodnim stranicama)

obilježavanje
– <DIV>
– <P>
– (<W>

1. razina
1. razina
2. razina)
detekcija rečeničnih granica <S>
– problem: redni brojevi koji se u hrvatskome pišu s točkom,
(npr. VII. ili 2002.) gdje točka može biti i kraj rečenice (28% su oboje!)
HNK v 1.0: Konverzija tekstova

formati ulaznih tekstova
– WWW izvori: HTML, XML
– DTP izvori: RTF, DOC, QXD, WP, TXT itd.

vlastiti software: 2XML
– ulaz: HTML, RTF
– izlaz: XML, bez zaglavlja
– dvostupanjska konverzija s pomoću korisničkih skripata
– omogućuje visoku razinu automatizacije (batch processing)
HNK v 1.0: korpusni format 1
<?xml version="1.0"?>
<!DOCTYPE cesDoc PUBLIC "-//CES//DTD XML cesDoc//EN"
"xcesDoc.dtd" [
]>
<cesDoc version="3.19">
<cesHeader type="text" version="3.19">
<fileDesc>
<titleStmt>
<h.title>Electronic version of Vecernji list, vl990311</h.title>
<respStmt>
<respType>XCES markup prepared by</respType>
<respName>Bosko Bekavac</respName>
</respStmt>
</titleStmt>
<extent>
<wordCount>4456</wordCount>
<byteCount>25385</byteCount>
</extent>
<publicationStmt>
<distributor>Project MZT RH 130718</distributor>
<pubAddress>Institute of linguistics</pubAddress>
<telephone>+385 1 6120-142</telephone>
<fax>+385 1 6856-118</fax>
<eAddress>http://www.ffzg.hr/zzl/zzl-home.htm</eAddress>
<idno>76676665676</idno>
<availability status="free">
</availability>
<pubDate>1999-12-20</pubDate>
</publicationStmt>
<sourceDesc>
<biblStruct>
HNK v 1.0: korpusni format 2
<BODY>
<DIV0 type="article">
<HEAD type="nn">U GORICI SVETOJANSKOJ ODRŽAN 12. FESTIVAL PJEVAČA AMATERA</HEAD>
<HEAD type="na">Ivana osvojila županijski Sanremo</HEAD>
<HEAD type="pn">* Od 20 natjecatelja žiri je najboljom proglasio Ivanu Erdeljac s pjesmom "Crazy", druga
<FIGURE>Publici su se najviše svidjeli Marija Šalić i Petar Puhijera</FIGURE>
<P>Pod medijskim pokroviteljstvom "Večernjeg lista" i Radio Jaske, a uz pomoć DIR "Rubinić" kao generaln
pokraj Jastrebarskog održan je 12. festival pjevača amatera.</P>
<P>Prve festivalske večeri, na kojoj su nastupila 22 izvođača do 15 godina, prvu nagradu stručnog žirija
nagrada pripala je Nikolini Oslaković iz Gornje Reke za pjesmu "Neka mi ne svane", a treća Mariji Jurini
"Mrvice" s pjesmom "Mrvica", dok je drugu nagradu dodijelila Natali Rajnović iz Jaske za pjesmu "Don"t e
debitanta prve večeri proglašena je Irena Kišan iz Zdenčine s pjesmom "Izdali me".</P>
<P>Druga večer - s dvadeset starijih izvođača iz Jaske, Karlovca, Bjelovara, Zagreba i Velike Gorice - b
interpretacije pa nije bilo lako odabrati najbolje.</P>
<P>Nakon poduže stanke tijekom koje su izbrojani glasovi - a koju su publici kratili gost večeri Ivo Pat
pobjednici. Prema ocjeni stručnog žirija, prvu nagradu i zlatnu plaketu "Večernjaka" dobila je Karlovčan
Antoniji Mikiti iz Velike Gorice za pjesmu "To", a treća Kseniji Cvetetić iz Petrovine za pjesmu "Neka m
<P>Publika je najviše glasova dodijelila svetojansko-zagrebačkom duetu Mariji Šalić i Petru Puhijeri za
zlatna plaketa. Na drugo mjesto publika je svrstala "Svetojanske tamburaše" koji su nastupili s pjesmom
ljude".</P>
<P>Najboljom debitanticom završne večeri proglašena je Zagrepčanka Marina Posilović s pjesmom "Piši, piš
lajt" s pjesmom "Oj suseda, suseda". Čini se da su ovogodišnje nagrade - a bilo ih je doista mnogo, od s
poklon-bonova - završile u pravim rukama. Oni koji ih nisu dobili, a možda su ih također zaslužili, neka
Svetojanskog festivala - svojevrsnog Sanrema zagrebačke županije - nastavlja se.</P>
<BYLINE>N. Godrijan-Videc</BYLINE>
</DIV0>
</BODY>
HNK v 1.0: korpusni format 3

opojavničenje (tokenization)
– TOKENIZER: vlastiti
software
• ulaz: XML
• izlaz 1: tab-datoteka kao
ulaz u bazu podataka
(vertikalizirani korpus)
• izlaz 2: opojavničeni XML
<BODY>
<DIV0 type="article">
<HEAD type="nn">
U
GORICI
SVETOJANSKOJ
ODR&#381;AN
12
.
FESTIVAL
PJEVA&#268;A
AMATERA
</HEAD>
<HEAD type="na">
Ivana
osvojila
&#382;upanijski
Sanremo
</HEAD>
<HEAD type="pn">
*
Od
20
natjecatelja
&#382;iri
je
najboljom
proglasio
Ivanu
Erdeljac
s
pjesmom
"
Crazy
"
,
druga
je
Antonija
Mikita
s
pjesmom
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
1
7
28
44
46
53
66
78
80
82
91
104
111
118
134
140
149
165
172
179
195
197
200
203
216
226
229
239
249
255
264
266
275
276
281
282
284
290
293
302
309
311
X
X
X
R
R
R
R
B
I
R
R
R
X
X
R
R
R
R
X
X
I
R
B
R
R
R
R
R
R
R
R
R
I
R
I
I
R
R
R
R
R
R
HNK v 1.0: korpusni format 4

izlaz 2: opojavničeni XML
<BODY>
<DIV0 type="article">
<HEAD type="nn">
<W type="R">U</W>
<W type="R">GORICI</W>
<W type="R">SVETOJANSKOJ</W>
<W type="R">ODRŽAN</W>
<W type="B">12</W>
<W type="I">.</W>
<W type="R">FESTIVAL</W>
<W type="R">PJEVAČA</W>
<W type="R">AMATERA</W>
</HEAD>
<HEAD type="na">
<W type="R">Ivana</W>
<W type="R">osvojila</W>
<W type="R">županijski</W>
<W type="R">Sanremo</W>
</HEAD>
<HEAD type="pn">
<W type="I">*</W>
<W type="R">Od</W>
<W type="B">20</W>
<W type="R">natjecatelja</W>
<W type="R">žiri</W>
<W type="R">je</W>
<W type="R">najboljom</W>
<W type="R">proglasio</W>
<W type="R">Ivanu</W>
<W type="R">Erdeljac</W>
<W type="R">s</W>
<W type="R">pjesmom</W>
<W type="I">"</W>
<W type="I">"</W>
<W type="I">,</W>
<W type="R">druga</W>
<W type="R">je</W>
<W type="R">Antonija</W>
<W type="R">Mikita</W>
<W type="R">s</W>
<W type="R">pjesmom</W>
<W type="I">"</W>
<W type="R">To</W>
<W type="I">"</W>
<W type="I">,</W>
<W type="R">a</W>
<W type="R">treće</W>
<W type="R">je</W>
<W type="R">mjesto</W>
<W type="R">osvojila</W>
<W type="R">Ksenija</W>
<W type="R">Cvetetić</W>
</HEAD>
<FIGURE>
<W type="R">Publici</W>
<W type="R">su</W>
<W type="R">se</W>
<W type="R">najviše</W>
<W type="R">svidjeli</W>
<W type="R">Marija</W>
<W type="R">Šalić</W>
<W type="R">i</W>
<W type="R">Petar</W>
<W type="R">Puhijera</W>
</FIGURE>
<P>
<W type="R">Pod</W>
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
type="R">medijskim</W>
type="R">pokroviteljstvom</W>
type="I">"</W>
type="R">Večernjeg</W>
type="R">lista</W>
type="I">"</W>
type="R">i</W>
type="R">Radio</W>
type="R">Jaske</W>
type="I">,</W>
type="R">a</W>
type="R">uz</W>
type="R">pomoć</W>
type="R">DIR</W>
type="I">"</W>
type="R">Rubinić</W>
type="I">"</W>
type="R">kao</W>
type="R">generalnog</W>
type="R">te</W>
type="R">još</W>
type="R">sedamdesetak</W>
type="R">drugih</W>
type="R">sponzora</W>
type="I">,</W>
type="R">u</W>
type="R">petak</W>
type="R">i</W>
type="R">u</W>
type="R">subotu</W>
type="R">u</W>
type="R">Gorici</W>
type="R">Svetojanskoj</W>
type="R">pokraj</W>
HNK v 1.0: korpus na www-u
http://hnk.ffzg.hr

probna inačica V 1.0: 1998-12-05
– 30m: 3 Mw

probna inačica V 1.1: 1999-02-14 & 1999-07-20
– 30m: 7,67 Mw
– HETA: 2,9 Mw s CD-ROM-a: Klasici hrvatske književnosti, Naklada
Bulaja, Zagreb, 1999.

probna inačica V 1.2 (oko 10 Mw): 2001-10
– tekst format: quasi-HTML, bez XML-a

probna inačica V 1.3 (oko 17 Mw): 2002-06

tehničke pojedinosti
–
–
–
–
WinNT platforma
MS-SQL server 6.5 s ASP/ODBC i vlastitim sučeljem za pretraživanje
jednostavni jedno-rječni upiti bez redanja i bez POS / MSD podataka
konkordancije i čestota
HNK v 2.0: korpus na www-u
http://hnk.ffzg.hr

nova inačica v 2.0ß: 2004-12-20
– napušta se razdioba na 30m i HETA-u
– korpus 3. generacije (John Sinclair: “The bigger, the better”)
– >46 Mw

inačica v 2.0: 2005-12-18
– 101,2 Mw

tehničke pojedinosti
– nova platforma (Linux), sustav Pavela Rychlýa: http://www.textforge.cz
• poslužitelj (“korpusový manažer”): Manatee
• korisnički klijent: Bonito
–
–
–
–
–
–
znatno razrađenije i pristupačnije sučelje
konkordancije (više riječi, regularni izrazi, strukturne oznake itd.)
statistički podatci
pronalaženje kolokacija
upiti po lemama, MSD-ovima

POS/MSD označavanje HNK

POS / MSD podatci u korpusu znatno mu pospješuju uporabivost

hrvatski (poput bilo kojeg drugoga slavenskoga jezika)
– flektivno bogat jezik
•
•
•
•
•
•
imenice: 7 padeža, 2 broja, 3 roda
pridjevi: + 2 lika (određeni i neodređeni), 3 stupnja u komparaciji
prilozi: 3 stupnja u komparaciji
zamjenice: 7 padeža, 2 broja, 3 roda, 3 lica
brojevi: 7 padeža, 3 roda(, 2 broja)
glagoli:
–
–
–
–
–
–

2 broja, 3 lica
3 jednostavna, 3 analitička vremena (s 3 roda i 2 broja u glagolskim pridjevima)
2 dodatna participa (glagolski prilozi)
2 kondicionala
imperativ
iznimno složen sustav glagolskoga vida (svršeni i nesvršeni / iterativni)
većina je sintaktičkih odnosa u rečenici kodirana fleksijom
– POS/MSD označavanje/lematizacija značajno pomaže sintaktičkoj analizi
Hrvatski morfološki leksikon (HML)

model hrvatskoga morfološkoga sustava

sve kombinacije morfema u skladu s morfotaktičkim pravilima
hrvatskoga na 2 razine
– derivacija/kompozicija
– fleksija

ostvarive generiranjem
– osnova riječi
– oblika riječi

pohranjenih u bazu podataka za daljnju primjenu
– leksikon osnova riječi
– leksikon oblika riječi

i-projekt 2002-100 Ministarstva znanosti i tehnologije Republike
Hrvatske
– jednogodišnji projekt usmjeren na primjenu IT u znanosti
Leksikon oblika


flektivni model hrvatskoga tj. flektivni dio HML-a već je ostvaren
već postoje preporuke za flektivne oznake
– MULTEXT East projekt (1995-1997): 6 CEE jezika
– MULTEXT East v 3.0, http://nl.ijs.si/ME/V3
– hrvatska specifikacija dodana još 1998.

Hrvatski flektivni generator: GenOblik (Tadić 1994)
– klasifikacijski utemeljen flektivni model
– 613 flektivnih uzoraka
•
•
•
•
404 imeničnih
42 pridjevskih
12 komparacijskih
155 glagolskih
– jednostavan model, poštuje jezične jedinice, nije računalno
optimiziran
– nastavci i alomorfske preoblike osnova upravljane su flektivnim
uzorkom
Leksikon oblika 2: generiranje

generator uzimlje 3 ulazna popisa
– lema s osnovama (leksikon)
– nastavaka
– preoblika

leksikon
lema
osnova
flektivni uzorak
deklinacija
bacati
baciti
bagatelizirati
bagerirati
bajati
baktati
balansirati
balegati
baliti
balzamirati
baljezgati
bac
bac
bagatelizir
bagerir
baj
bakt
balansir
baleg
bal
balzamir
baljezg
0/501/0
0/511/0
0/501,502/0
0/501,502/0
0/501/0
0/501/0
0/501/0
0/501/0
0/509,510/0
0/501,502/0
0/501/0
konjugacija
komparacija
HML v 1.0

natuknički popis iz Rječnika hrvatskoga jezika (Anić 11991)
– oko 36,000 natuknica
• 18,019 imenica
• 7,735 glagola
• 5,504 pridjeva
• 6,517 priloga
• ...

ručno označeni pripadajućim im brojem flektivnoga uzorka

generirano
imenice
glagoli
pridjevi
prilozi
lema
12,076
7,735
5,504
6,617
oblika
171,380
232,276
1,207,786
11,706
HML v 1.0
= abdikacija Ncfpg
abdikacija abdikacija Ncfsn
abdikacijama abdikacija Ncfpd
abdikacijama abdikacija Ncfpi
abdikacijama abdikacija Ncfpl
abdikacije abdikacija Ncfpa
abdikacije abdikacija Ncfpn
abdikacije abdikacija Ncfpv
abdikacije abdikacija Ncfsg
abdikaciji abdikacija Ncfsd
abdikaciji abdikacija Ncfsl
abdikacijo abdikacija Ncfsv
abdikacijom abdikacija Ncfsi
abdikaciju abdikacija Ncfsa
= abeceda Ncfsn
abecede abeceda Ncfsg
abecedi abeceda Ncfsd
abecedu abeceda Ncfsa
abecedo abeceda Ncfsv
abecedi abeceda Ncfsl
abecedom abeceda Ncfsi
abecede abeceda Ncfpn
abeceda abeceda Ncfpg
abecedama abeceda Ncfpd
abecede abeceda Ncfpa
abecede abeceda Ncfpv
abecedama abeceda Ncfpl
abecedama abeceda Ncfpi
= abolicija Ncfsn
abolicije abolicija Ncfsg
aboliciji abolicija Ncfsd
aboliciju abolicija Ncfsa
abolicijo abolicija Ncfsv
aboliciji abolicija Ncfsl
abolicijom abolicija Ncfsi
abolicije abolicija Ncfpn
abolicija abolicija Ncfpg
abolicijama abolicija Ncfpd
abolicije abolicija Ncfpa
abolicije abolicija Ncfpv
abolicijama abolicija Ncfpl
abolicijama abolicija Ncfpi
= abrazija Ncfsn
abrazija abrazija Ncfpg
abrazijama abrazija Ncfpd
abrazijama abrazija Ncfpi
abrazijama abrazija Ncfpl
abrazije abrazija Ncfpa
abrazije abrazija Ncfpn
abrazije abrazija Ncfpv
abrazije abrazija Ncfsg
abraziji abrazija Ncfsd
abraziji abrazija Ncfsl
abrazijo abrazija Ncfsv
abrazijom abrazija Ncfsi
abraziju abrazija Ncfsa
Hrvatski lematizacijski poslužitelj

HML v 2.0 tj. leksikon oblika pohranjen je u bazu podataka

slobodno pretraživ na http://hml.ffzg.hr
–
–
–
–
–
–
korisničko ime: proba; zaporka: proba
oko 45.000 lema općega jezika
oko 15.000 osobnih muških i ženskih imena
oko 50.000 prezimena registriranih u RH
preko 3.500.000 generiranih oblika riječi
mogućnost pokretranja pretrage preko Googlea s upitom koji
obuhvaća sve oblike hrvatskih riječi
– 
POS / MSD označavanje HNK

ostvareni koraci
– stvaranje potkorpusa HNK od barem 100.000 riječi (CW2000)
– sraz CW2000 s HML-om
– dobivanje svih mogućih MSD/lema interpretacija na unigramskoj razini
(kotekst se ne uzimlje u obzir)
– (polu-)ručno razobličavanje (disambiguation)  MSD označen i
lematiziran CW2000: pretraživ s pomoću Bonita po lemama i
MSD-ovima
– uporaba razobličenoga CW2000 korpusa kao trening korpusa za
označivač (tagger) TnT
– vrjednovanje označavanja (Agić & Tadić, LREC2006)
– označavanje HNK treniranim označivačem
Označavanje HNK

sraz na unigramskoj razini

dobivanje “homografske težine”
svake pojavnice i različnice

homografija izrazito visoka
Označavanje HNK

HML se popunjava s novim
natuknicama
– postupak automatskoga
proširivanja HML-a (Oliver & Tadić,
LREC2004)
– metode automatskoga učenja
paradigmi
– provjeren od prije na ruskome
– primjena na hrvatskome
– preliminarni rezultati dali
ohrabrujuće rezultate
Označavanje HNK: razobličenje

uporaba lokalnih gramatika (regularnih gramatika) za razobličenje u
stanovitim vrstama konstrukcija
– nazivi, brojčani izrazi, izrazi za mjere
– vremenski i prostorni izrazi
– prijedložni izrazi: ((u)P ((bližem)Adj (gradu)N)NP)PP (Bekavac, 2006)

Intex i Unitex sustavi: regularne gramatike, transduktori

statistika POS / MSD kolokacijskih uzoraka
– u pilot-korpusu
AN
NN
NAN
AAN
ANN
40935
21931
10033
5172
5021
Označavanje HNK: treniranje označivača

TNT označivač (Brants 2000), trigramski statistički označivač

dobro se nosi s velikih skupovima oznaka
– očekivana veličina = preko 2000 oznaka

korišten u eksperimentima za slovenski (Džeroski i dr. 2000)

moguć redizajn skupa oznaka: dvo-stupanjsko označavanje (?)
– 1. stupanj: skup oznaka sa širim kategorijama (samo vrsta riječi)
– 2. stupanj: finiji skup oznaka

npr. hrvatski pasivni participi
– dio glagolske paradigme
• Rukavice su bile bačene na stol.
– adjektivizirani participi  dijelovi pridjevske paradigme
• Bačene rukavice ležale su na stolu.
– visoka čestota  mnogo “ručnog” razrješavanja homografa
• rješenje: uvođenje međukategorije (npr. participa) i prepuštanje razrješenja
homografa na sljedećoj razini obradbe
Sintaktičko označavanje HNK: HOBS

izgradnja Hrvatske ovisnosne banke stabala (HOBS)

preuzeta metodologija iz Praške ovisnosne banke stabala (PDT)
– 1. označavanje analitičkoga sloja
– 2. označavanje tektogramatičkoga sloja

ručno označavanje ovisnosnih sintaktičkih funkcija

korpus: CW2000

alat: TrEd (Tree editor) Petra Pajasa (PDT)

na hnk.ffzg.hr/hobs
– opis banke
– primjeri >50 rečenica
– 
Perspektive

HNK
– daljnje povećanje na 200 Mw do 2010.
– uključivanje POS / MSD podataka u korpus (bez razobličenja već 2006.)

HML
– proširiti leksikon oblika novim lemama
– dovršiti model leksikona osnova i generirati osnove (dugoročan plan)

POS / MSD označavanje HNK
– razvitak lokalnih gramatika i njihova primjena u razrješenju homografa
– treniranje označivača na ostalim vrstama tekstova

MZOŠ-u u ožujku prijavljen program Računalnolingvistički modeli i
jezične tehnologije za hrvatski jezik s 5 projekata
–
–
–
–
–
Hrvatski jezični resursi i njihovo označavanje
Hrvatska računalna sintaksa
Leksička semantika u izgradnji hrvatskoga WordNeta
Informacijska tehnologija u prevođenju hrvatskoga i učenju jezika
Otkrivanje znanja u hrvatskim dokumentima
Hrvatski nacionalni korpus
Marko Tadić
([email protected], hnk.ffzg.hr/mt)
Odsjek za lingvistiku, Filozofski fakultet
Sveučilište u Zagrebu (hnk.ffzg.hr)
Sveučilište u Grazu, 2006-04-04