Buliding the Croatian Morphological Lexicon
Download
Report
Transcript Buliding the Croatian Morphological Lexicon
Hrvatski nacionalni korpus
Marko Tadić
([email protected], hnk.ffzg.hr/mt)
Odsjek za lingvistiku, Filozofski fakultet
Sveučilište u Zagrebu (hnk.ffzg.hr)
Sveučilište u Grazu, 2006-04-04
Plan predavanja
Hrvatski nacionalni korpus (HNK)
– struktura
– obilježavanje
– dostupnost putem Interneta
Hrvatski morfološki leksikon (HML)
– teorijska pozadina
– primjena flektivnoga dijela leksikona
POS/MSD označavanje
– sraz HNK-a i HML-a
– POS/MSD označivač za hrvatski
Hrvatska ovisnosna banka stabala (HOBS)
Perspektive: novoprijavljeni projekti
Hrvatski nacionalni korpus (HNK)
projekti Ministarstva znanosti i tehnologije Republike Hrvatske
– 130718, Računalna obradba hrvatskoga jezika, zapravo započeo
krajem 1998.
– 0130418, Razvitak hrvatskih jezičnih resursa, započeo 2002.
teorijske osnove za HNK još 1995., objavljene u 2 članka:
– Tadić (1996) Računalna obradba hrvatskoga i nacionalni korpus,
Suvremena lingvistika 41-42, 603-612
– Tadić (1998) Raspon, opseg i sastav korpusa suvremenoga hrvatskoga
jezika, Filologija 30-31, 337-347
iskazana potreba za hrvatskim referentnim sin- i dijakronijskim
korpusom
dân je prijedlog za sastav korpusa
razrađen je opseg, vremenski raspon i njegova struktura
predložena je dostupnost putem WWW-a
HNK v 1.0: Struktura
30m
30-milijunski korpus
suvremenoga hrvatskoga jezika
– tekstovi od 1990. do danas
– različita područja i žanrovi
– reprezentativan za suvremeni
hrvatski standard
HETA
Hrvatski elektronički tekstovni
arhiv
– tekstovi stariji od 1990.
– tekstovi čitavih serija
publikacija / autora nakon 1990.
koji bi poremetili ravnotežu i
reprezentativnost 30m-a
HNK v 1.0: 30m tipologija tekstova
nema novijih istraživanja o produkciji / recepciji teksta u
hrvatskom
nema usustavljenih podataka o protoku teksta u društvu
– broj naslova koji se posuđuju u javnim knjižnicama
– broj tjedana koliko neki naslov ostaje na popisu uspješnica
– ukupna naklada novina, revija i časopisa
– ...
kriteriji za odabir tekstova u korpus
– podatci iz komercijalnih marketinških istraživanja o recepciji novina i
revija
– književna kritika o suvremenoj hrvatskoj prozi
– strukture ostalih velikih referentnih korpusa (BNC, CNC...)
HNK v 1.0: 30m tipologija tekstova 2
1. Informativni tekstovi
1.1. novine
1.1.1. dnevnici
1.1.2. tjednici
1.1.3. dvotjednici
1.1.4. sporadičnici
1.2. magazini
1.2.1. tjednici
1.2.2. dvotjednici
1.2.3. mjesečnici
1.2.4. dvo-/tromjesečnici
1.3. knjige
1.3.1. publicistika
1.3.2. vještine itd.
1.3.3. znanost
2. Imaginativni tekstovi (Fiction)
2.1. proza
2.1.1. romani
2.1.2. pripovijetke
2.1.3. ogledi
2.1.4. dnevnici, putopisi...
3. Miješani tekstovi
3.1. imaginativno-faktografska djela
3.3. govori
74
37
22
9
3
3
16
9
1
3
3
21
4
4
13
23
23
13
5
4
1
3
2
1
22200000
11100000
6600000
2700000
900000
900000
4800000
2700000
300000
900000
900000
6300000
1200000
1200000
3900000
6900000
6900000
3900000
1500000
1200000
300000
900000
600000
300000
HNK v 1.0: Prikupljanje tekstova
na početku je doneseno nekoliko tehničkih odluka
– bez utipkavanja
– bez optičkoga prepoznavanja pismena (OCR)
– samo e-tekst
neki su tekstni tipovi / žanrovi lakše dobavljivi
– nema problema s
• novinama
• književnošću
• znanstvenim knjigama (društvene i humanističke znanosti)
– ozbiljan nedostatak građe iz
• prirodnih znanosti (kemija, fizika)
• tehničkih znanosti
do sada skupljeno više od 200 Mw, ali nije uravnoteženo
problemi s autorskim pravima
– pojedinačni sporazumi s nakladnicima
HNK v 1.0: Obilježavanje tekstova
XML
– XCES (XML inačica CES-a = Corpus Encoding Standard) & XML TEI
– Ide, Bonhomme & Romary (2000)
– pridržavajte se standarda! za razmjenu:
• podataka: vaš korpus može na isti način biti čitljiv negdje drugdje
• aplikacija: različiti alati mogu se primijeniti na vaš korpus bez ikakve
potrebe za prilagodbom / preoblikom podataka
XML = UNICODE kompatibilan (bez problema s kodnim stranicama)
obilježavanje
– <DIV>
– <P>
– (<W>
1. razina
1. razina
2. razina)
detekcija rečeničnih granica <S>
– problem: redni brojevi koji se u hrvatskome pišu s točkom,
(npr. VII. ili 2002.) gdje točka može biti i kraj rečenice (28% su oboje!)
HNK v 1.0: Konverzija tekstova
formati ulaznih tekstova
– WWW izvori: HTML, XML
– DTP izvori: RTF, DOC, QXD, WP, TXT itd.
vlastiti software: 2XML
– ulaz: HTML, RTF
– izlaz: XML, bez zaglavlja
– dvostupanjska konverzija s pomoću korisničkih skripata
– omogućuje visoku razinu automatizacije (batch processing)
HNK v 1.0: korpusni format 1
<?xml version="1.0"?>
<!DOCTYPE cesDoc PUBLIC "-//CES//DTD XML cesDoc//EN"
"xcesDoc.dtd" [
]>
<cesDoc version="3.19">
<cesHeader type="text" version="3.19">
<fileDesc>
<titleStmt>
<h.title>Electronic version of Vecernji list, vl990311</h.title>
<respStmt>
<respType>XCES markup prepared by</respType>
<respName>Bosko Bekavac</respName>
</respStmt>
</titleStmt>
<extent>
<wordCount>4456</wordCount>
<byteCount>25385</byteCount>
</extent>
<publicationStmt>
<distributor>Project MZT RH 130718</distributor>
<pubAddress>Institute of linguistics</pubAddress>
<telephone>+385 1 6120-142</telephone>
<fax>+385 1 6856-118</fax>
<eAddress>http://www.ffzg.hr/zzl/zzl-home.htm</eAddress>
<idno>76676665676</idno>
<availability status="free">
</availability>
<pubDate>1999-12-20</pubDate>
</publicationStmt>
<sourceDesc>
<biblStruct>
HNK v 1.0: korpusni format 2
<BODY>
<DIV0 type="article">
<HEAD type="nn">U GORICI SVETOJANSKOJ ODRŽAN 12. FESTIVAL PJEVAČA AMATERA</HEAD>
<HEAD type="na">Ivana osvojila županijski Sanremo</HEAD>
<HEAD type="pn">* Od 20 natjecatelja žiri je najboljom proglasio Ivanu Erdeljac s pjesmom "Crazy", druga
<FIGURE>Publici su se najviše svidjeli Marija Šalić i Petar Puhijera</FIGURE>
<P>Pod medijskim pokroviteljstvom "Večernjeg lista" i Radio Jaske, a uz pomoć DIR "Rubinić" kao generaln
pokraj Jastrebarskog održan je 12. festival pjevača amatera.</P>
<P>Prve festivalske večeri, na kojoj su nastupila 22 izvođača do 15 godina, prvu nagradu stručnog žirija
nagrada pripala je Nikolini Oslaković iz Gornje Reke za pjesmu "Neka mi ne svane", a treća Mariji Jurini
"Mrvice" s pjesmom "Mrvica", dok je drugu nagradu dodijelila Natali Rajnović iz Jaske za pjesmu "Don"t e
debitanta prve večeri proglašena je Irena Kišan iz Zdenčine s pjesmom "Izdali me".</P>
<P>Druga večer - s dvadeset starijih izvođača iz Jaske, Karlovca, Bjelovara, Zagreba i Velike Gorice - b
interpretacije pa nije bilo lako odabrati najbolje.</P>
<P>Nakon poduže stanke tijekom koje su izbrojani glasovi - a koju su publici kratili gost večeri Ivo Pat
pobjednici. Prema ocjeni stručnog žirija, prvu nagradu i zlatnu plaketu "Večernjaka" dobila je Karlovčan
Antoniji Mikiti iz Velike Gorice za pjesmu "To", a treća Kseniji Cvetetić iz Petrovine za pjesmu "Neka m
<P>Publika je najviše glasova dodijelila svetojansko-zagrebačkom duetu Mariji Šalić i Petru Puhijeri za
zlatna plaketa. Na drugo mjesto publika je svrstala "Svetojanske tamburaše" koji su nastupili s pjesmom
ljude".</P>
<P>Najboljom debitanticom završne večeri proglašena je Zagrepčanka Marina Posilović s pjesmom "Piši, piš
lajt" s pjesmom "Oj suseda, suseda". Čini se da su ovogodišnje nagrade - a bilo ih je doista mnogo, od s
poklon-bonova - završile u pravim rukama. Oni koji ih nisu dobili, a možda su ih također zaslužili, neka
Svetojanskog festivala - svojevrsnog Sanrema zagrebačke županije - nastavlja se.</P>
<BYLINE>N. Godrijan-Videc</BYLINE>
</DIV0>
</BODY>
HNK v 1.0: korpusni format 3
opojavničenje (tokenization)
– TOKENIZER: vlastiti
software
• ulaz: XML
• izlaz 1: tab-datoteka kao
ulaz u bazu podataka
(vertikalizirani korpus)
• izlaz 2: opojavničeni XML
<BODY>
<DIV0 type="article">
<HEAD type="nn">
U
GORICI
SVETOJANSKOJ
ODRŽAN
12
.
FESTIVAL
PJEVAČA
AMATERA
</HEAD>
<HEAD type="na">
Ivana
osvojila
županijski
Sanremo
</HEAD>
<HEAD type="pn">
*
Od
20
natjecatelja
žiri
je
najboljom
proglasio
Ivanu
Erdeljac
s
pjesmom
"
Crazy
"
,
druga
je
Antonija
Mikita
s
pjesmom
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
vl990301gr01
1
7
28
44
46
53
66
78
80
82
91
104
111
118
134
140
149
165
172
179
195
197
200
203
216
226
229
239
249
255
264
266
275
276
281
282
284
290
293
302
309
311
X
X
X
R
R
R
R
B
I
R
R
R
X
X
R
R
R
R
X
X
I
R
B
R
R
R
R
R
R
R
R
R
I
R
I
I
R
R
R
R
R
R
HNK v 1.0: korpusni format 4
izlaz 2: opojavničeni XML
<BODY>
<DIV0 type="article">
<HEAD type="nn">
<W type="R">U</W>
<W type="R">GORICI</W>
<W type="R">SVETOJANSKOJ</W>
<W type="R">ODRŽAN</W>
<W type="B">12</W>
<W type="I">.</W>
<W type="R">FESTIVAL</W>
<W type="R">PJEVAČA</W>
<W type="R">AMATERA</W>
</HEAD>
<HEAD type="na">
<W type="R">Ivana</W>
<W type="R">osvojila</W>
<W type="R">županijski</W>
<W type="R">Sanremo</W>
</HEAD>
<HEAD type="pn">
<W type="I">*</W>
<W type="R">Od</W>
<W type="B">20</W>
<W type="R">natjecatelja</W>
<W type="R">žiri</W>
<W type="R">je</W>
<W type="R">najboljom</W>
<W type="R">proglasio</W>
<W type="R">Ivanu</W>
<W type="R">Erdeljac</W>
<W type="R">s</W>
<W type="R">pjesmom</W>
<W type="I">"</W>
<W type="I">"</W>
<W type="I">,</W>
<W type="R">druga</W>
<W type="R">je</W>
<W type="R">Antonija</W>
<W type="R">Mikita</W>
<W type="R">s</W>
<W type="R">pjesmom</W>
<W type="I">"</W>
<W type="R">To</W>
<W type="I">"</W>
<W type="I">,</W>
<W type="R">a</W>
<W type="R">treće</W>
<W type="R">je</W>
<W type="R">mjesto</W>
<W type="R">osvojila</W>
<W type="R">Ksenija</W>
<W type="R">Cvetetić</W>
</HEAD>
<FIGURE>
<W type="R">Publici</W>
<W type="R">su</W>
<W type="R">se</W>
<W type="R">najviše</W>
<W type="R">svidjeli</W>
<W type="R">Marija</W>
<W type="R">Šalić</W>
<W type="R">i</W>
<W type="R">Petar</W>
<W type="R">Puhijera</W>
</FIGURE>
<P>
<W type="R">Pod</W>
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
<W
type="R">medijskim</W>
type="R">pokroviteljstvom</W>
type="I">"</W>
type="R">Večernjeg</W>
type="R">lista</W>
type="I">"</W>
type="R">i</W>
type="R">Radio</W>
type="R">Jaske</W>
type="I">,</W>
type="R">a</W>
type="R">uz</W>
type="R">pomoć</W>
type="R">DIR</W>
type="I">"</W>
type="R">Rubinić</W>
type="I">"</W>
type="R">kao</W>
type="R">generalnog</W>
type="R">te</W>
type="R">još</W>
type="R">sedamdesetak</W>
type="R">drugih</W>
type="R">sponzora</W>
type="I">,</W>
type="R">u</W>
type="R">petak</W>
type="R">i</W>
type="R">u</W>
type="R">subotu</W>
type="R">u</W>
type="R">Gorici</W>
type="R">Svetojanskoj</W>
type="R">pokraj</W>
HNK v 1.0: korpus na www-u
http://hnk.ffzg.hr
probna inačica V 1.0: 1998-12-05
– 30m: 3 Mw
probna inačica V 1.1: 1999-02-14 & 1999-07-20
– 30m: 7,67 Mw
– HETA: 2,9 Mw s CD-ROM-a: Klasici hrvatske književnosti, Naklada
Bulaja, Zagreb, 1999.
probna inačica V 1.2 (oko 10 Mw): 2001-10
– tekst format: quasi-HTML, bez XML-a
probna inačica V 1.3 (oko 17 Mw): 2002-06
tehničke pojedinosti
–
–
–
–
WinNT platforma
MS-SQL server 6.5 s ASP/ODBC i vlastitim sučeljem za pretraživanje
jednostavni jedno-rječni upiti bez redanja i bez POS / MSD podataka
konkordancije i čestota
HNK v 2.0: korpus na www-u
http://hnk.ffzg.hr
nova inačica v 2.0ß: 2004-12-20
– napušta se razdioba na 30m i HETA-u
– korpus 3. generacije (John Sinclair: “The bigger, the better”)
– >46 Mw
inačica v 2.0: 2005-12-18
– 101,2 Mw
tehničke pojedinosti
– nova platforma (Linux), sustav Pavela Rychlýa: http://www.textforge.cz
• poslužitelj (“korpusový manažer”): Manatee
• korisnički klijent: Bonito
–
–
–
–
–
–
znatno razrađenije i pristupačnije sučelje
konkordancije (više riječi, regularni izrazi, strukturne oznake itd.)
statistički podatci
pronalaženje kolokacija
upiti po lemama, MSD-ovima
POS/MSD označavanje HNK
POS / MSD podatci u korpusu znatno mu pospješuju uporabivost
hrvatski (poput bilo kojeg drugoga slavenskoga jezika)
– flektivno bogat jezik
•
•
•
•
•
•
imenice: 7 padeža, 2 broja, 3 roda
pridjevi: + 2 lika (određeni i neodređeni), 3 stupnja u komparaciji
prilozi: 3 stupnja u komparaciji
zamjenice: 7 padeža, 2 broja, 3 roda, 3 lica
brojevi: 7 padeža, 3 roda(, 2 broja)
glagoli:
–
–
–
–
–
–
2 broja, 3 lica
3 jednostavna, 3 analitička vremena (s 3 roda i 2 broja u glagolskim pridjevima)
2 dodatna participa (glagolski prilozi)
2 kondicionala
imperativ
iznimno složen sustav glagolskoga vida (svršeni i nesvršeni / iterativni)
većina je sintaktičkih odnosa u rečenici kodirana fleksijom
– POS/MSD označavanje/lematizacija značajno pomaže sintaktičkoj analizi
Hrvatski morfološki leksikon (HML)
model hrvatskoga morfološkoga sustava
sve kombinacije morfema u skladu s morfotaktičkim pravilima
hrvatskoga na 2 razine
– derivacija/kompozicija
– fleksija
ostvarive generiranjem
– osnova riječi
– oblika riječi
pohranjenih u bazu podataka za daljnju primjenu
– leksikon osnova riječi
– leksikon oblika riječi
i-projekt 2002-100 Ministarstva znanosti i tehnologije Republike
Hrvatske
– jednogodišnji projekt usmjeren na primjenu IT u znanosti
Leksikon oblika
flektivni model hrvatskoga tj. flektivni dio HML-a već je ostvaren
već postoje preporuke za flektivne oznake
– MULTEXT East projekt (1995-1997): 6 CEE jezika
– MULTEXT East v 3.0, http://nl.ijs.si/ME/V3
– hrvatska specifikacija dodana još 1998.
Hrvatski flektivni generator: GenOblik (Tadić 1994)
– klasifikacijski utemeljen flektivni model
– 613 flektivnih uzoraka
•
•
•
•
404 imeničnih
42 pridjevskih
12 komparacijskih
155 glagolskih
– jednostavan model, poštuje jezične jedinice, nije računalno
optimiziran
– nastavci i alomorfske preoblike osnova upravljane su flektivnim
uzorkom
Leksikon oblika 2: generiranje
generator uzimlje 3 ulazna popisa
– lema s osnovama (leksikon)
– nastavaka
– preoblika
leksikon
lema
osnova
flektivni uzorak
deklinacija
bacati
baciti
bagatelizirati
bagerirati
bajati
baktati
balansirati
balegati
baliti
balzamirati
baljezgati
bac
bac
bagatelizir
bagerir
baj
bakt
balansir
baleg
bal
balzamir
baljezg
0/501/0
0/511/0
0/501,502/0
0/501,502/0
0/501/0
0/501/0
0/501/0
0/501/0
0/509,510/0
0/501,502/0
0/501/0
konjugacija
komparacija
HML v 1.0
natuknički popis iz Rječnika hrvatskoga jezika (Anić 11991)
– oko 36,000 natuknica
• 18,019 imenica
• 7,735 glagola
• 5,504 pridjeva
• 6,517 priloga
• ...
ručno označeni pripadajućim im brojem flektivnoga uzorka
generirano
imenice
glagoli
pridjevi
prilozi
lema
12,076
7,735
5,504
6,617
oblika
171,380
232,276
1,207,786
11,706
HML v 1.0
= abdikacija Ncfpg
abdikacija abdikacija Ncfsn
abdikacijama abdikacija Ncfpd
abdikacijama abdikacija Ncfpi
abdikacijama abdikacija Ncfpl
abdikacije abdikacija Ncfpa
abdikacije abdikacija Ncfpn
abdikacije abdikacija Ncfpv
abdikacije abdikacija Ncfsg
abdikaciji abdikacija Ncfsd
abdikaciji abdikacija Ncfsl
abdikacijo abdikacija Ncfsv
abdikacijom abdikacija Ncfsi
abdikaciju abdikacija Ncfsa
= abeceda Ncfsn
abecede abeceda Ncfsg
abecedi abeceda Ncfsd
abecedu abeceda Ncfsa
abecedo abeceda Ncfsv
abecedi abeceda Ncfsl
abecedom abeceda Ncfsi
abecede abeceda Ncfpn
abeceda abeceda Ncfpg
abecedama abeceda Ncfpd
abecede abeceda Ncfpa
abecede abeceda Ncfpv
abecedama abeceda Ncfpl
abecedama abeceda Ncfpi
= abolicija Ncfsn
abolicije abolicija Ncfsg
aboliciji abolicija Ncfsd
aboliciju abolicija Ncfsa
abolicijo abolicija Ncfsv
aboliciji abolicija Ncfsl
abolicijom abolicija Ncfsi
abolicije abolicija Ncfpn
abolicija abolicija Ncfpg
abolicijama abolicija Ncfpd
abolicije abolicija Ncfpa
abolicije abolicija Ncfpv
abolicijama abolicija Ncfpl
abolicijama abolicija Ncfpi
= abrazija Ncfsn
abrazija abrazija Ncfpg
abrazijama abrazija Ncfpd
abrazijama abrazija Ncfpi
abrazijama abrazija Ncfpl
abrazije abrazija Ncfpa
abrazije abrazija Ncfpn
abrazije abrazija Ncfpv
abrazije abrazija Ncfsg
abraziji abrazija Ncfsd
abraziji abrazija Ncfsl
abrazijo abrazija Ncfsv
abrazijom abrazija Ncfsi
abraziju abrazija Ncfsa
Hrvatski lematizacijski poslužitelj
HML v 2.0 tj. leksikon oblika pohranjen je u bazu podataka
slobodno pretraživ na http://hml.ffzg.hr
–
–
–
–
–
–
korisničko ime: proba; zaporka: proba
oko 45.000 lema općega jezika
oko 15.000 osobnih muških i ženskih imena
oko 50.000 prezimena registriranih u RH
preko 3.500.000 generiranih oblika riječi
mogućnost pokretranja pretrage preko Googlea s upitom koji
obuhvaća sve oblike hrvatskih riječi
–
POS / MSD označavanje HNK
ostvareni koraci
– stvaranje potkorpusa HNK od barem 100.000 riječi (CW2000)
– sraz CW2000 s HML-om
– dobivanje svih mogućih MSD/lema interpretacija na unigramskoj razini
(kotekst se ne uzimlje u obzir)
– (polu-)ručno razobličavanje (disambiguation) MSD označen i
lematiziran CW2000: pretraživ s pomoću Bonita po lemama i
MSD-ovima
– uporaba razobličenoga CW2000 korpusa kao trening korpusa za
označivač (tagger) TnT
– vrjednovanje označavanja (Agić & Tadić, LREC2006)
– označavanje HNK treniranim označivačem
Označavanje HNK
sraz na unigramskoj razini
dobivanje “homografske težine”
svake pojavnice i različnice
homografija izrazito visoka
Označavanje HNK
HML se popunjava s novim
natuknicama
– postupak automatskoga
proširivanja HML-a (Oliver & Tadić,
LREC2004)
– metode automatskoga učenja
paradigmi
– provjeren od prije na ruskome
– primjena na hrvatskome
– preliminarni rezultati dali
ohrabrujuće rezultate
Označavanje HNK: razobličenje
uporaba lokalnih gramatika (regularnih gramatika) za razobličenje u
stanovitim vrstama konstrukcija
– nazivi, brojčani izrazi, izrazi za mjere
– vremenski i prostorni izrazi
– prijedložni izrazi: ((u)P ((bližem)Adj (gradu)N)NP)PP (Bekavac, 2006)
Intex i Unitex sustavi: regularne gramatike, transduktori
statistika POS / MSD kolokacijskih uzoraka
– u pilot-korpusu
AN
NN
NAN
AAN
ANN
40935
21931
10033
5172
5021
Označavanje HNK: treniranje označivača
TNT označivač (Brants 2000), trigramski statistički označivač
dobro se nosi s velikih skupovima oznaka
– očekivana veličina = preko 2000 oznaka
korišten u eksperimentima za slovenski (Džeroski i dr. 2000)
moguć redizajn skupa oznaka: dvo-stupanjsko označavanje (?)
– 1. stupanj: skup oznaka sa širim kategorijama (samo vrsta riječi)
– 2. stupanj: finiji skup oznaka
npr. hrvatski pasivni participi
– dio glagolske paradigme
• Rukavice su bile bačene na stol.
– adjektivizirani participi dijelovi pridjevske paradigme
• Bačene rukavice ležale su na stolu.
– visoka čestota mnogo “ručnog” razrješavanja homografa
• rješenje: uvođenje međukategorije (npr. participa) i prepuštanje razrješenja
homografa na sljedećoj razini obradbe
Sintaktičko označavanje HNK: HOBS
izgradnja Hrvatske ovisnosne banke stabala (HOBS)
preuzeta metodologija iz Praške ovisnosne banke stabala (PDT)
– 1. označavanje analitičkoga sloja
– 2. označavanje tektogramatičkoga sloja
ručno označavanje ovisnosnih sintaktičkih funkcija
korpus: CW2000
alat: TrEd (Tree editor) Petra Pajasa (PDT)
na hnk.ffzg.hr/hobs
– opis banke
– primjeri >50 rečenica
–
Perspektive
HNK
– daljnje povećanje na 200 Mw do 2010.
– uključivanje POS / MSD podataka u korpus (bez razobličenja već 2006.)
HML
– proširiti leksikon oblika novim lemama
– dovršiti model leksikona osnova i generirati osnove (dugoročan plan)
POS / MSD označavanje HNK
– razvitak lokalnih gramatika i njihova primjena u razrješenju homografa
– treniranje označivača na ostalim vrstama tekstova
MZOŠ-u u ožujku prijavljen program Računalnolingvistički modeli i
jezične tehnologije za hrvatski jezik s 5 projekata
–
–
–
–
–
Hrvatski jezični resursi i njihovo označavanje
Hrvatska računalna sintaksa
Leksička semantika u izgradnji hrvatskoga WordNeta
Informacijska tehnologija u prevođenju hrvatskoga i učenju jezika
Otkrivanje znanja u hrvatskim dokumentima
Hrvatski nacionalni korpus
Marko Tadić
([email protected], hnk.ffzg.hr/mt)
Odsjek za lingvistiku, Filozofski fakultet
Sveučilište u Zagrebu (hnk.ffzg.hr)
Sveučilište u Grazu, 2006-04-04