Transcript Document

Uvod u računalnu metodologiju
za jezično istraživanje
Razine formalnog
opisa i obrada jezika
Materijali sa nastave

http://www.hnk.ffzg.hr/download/urmj/materijali.zip
Obrada jezika – termini




Označavanje (tagging, mark-up) je
pridodavanje eksplicitnih informacija
tekstu za računalnu obradu tamo gdje su
one implicitno prisutne osobi koja čita
tekst
Oznake (tags) – umeću se u tekst
Pri obilježavanju korpusa oznake se umeću
iz određenoga skupa oznaka
Skup oznaka (tagset) je popis svih mogućih
oznaka kojima se može obilježavati tekst
Razine obrade prirodnoga
jezika (bez semantike)
1.
2.
3.
4.
5.
6.

tokenizacija (opojavničenje)
segmentacija na rečenice
lematizacija
POS i MSD označavanje
plitko (shallow) parsanje
dubinsko (deep) parsanje
POGRŠKE SE ČESTO ZBRAJAJU!
Opojavničenje



Postupak identifikacije i ekspliciranja
pojavnica, tj. lingvističkih jedinica kao što
su “riječi”, interpunkcija, znamenke i sl.
Iako izgleda trivijalan problem, promotrimo
slučajeve: 11. travnja 2008., AustroUgarska, daljinski upravljač, npr., SAD-a,
we’ll, isn’t,
Lebensversicherungsgesellschaftsangestell
ter, itd.
O koliko je pojavnica riječ?
Segmentacija na rečenice




Ekspliciranje granica između rečenica
Znakovi interpunkcije (., ?, !) uvijek kraj
rečenice?
Heuristički gledano, oko 90% točaka jesu
krajevi rečenica!
PROBLEMI: titule, kratice, inicijali i sl.


Prof. Ivić, npr. Austrija, Antun B. Šimić, J. K.
itd.
Moguće riješiti ekskluzivnim pravilima
(regularnim), preciznost > 99 %
Lematizacija



Lematizacija (lemmatisation) je svođenje
pojavnica iz korpusa na njihove natukničke
oblike, tj. svođenje različitih pojavnica
(članova iste paradigme) na zajedničku
lemu
Lema je onaj oblik pod kojim bismo tražili
neku riječ u rječniku
Lema predstavlja sve oblike određene
riječi
Lematizacija




Na primjer, pojavnice walked, walks ili
walking bile bi svedene na lemu (to) walk
Na primjer, pojavnice stol, stolova ili stolu
bile bi svedene na lemu stol
Lematizacija se na isti način primjenjuje na
morfološki supletivne oblike, npr. jesam,
bijah ili bila svode se na leksem biti
Nije isto što i stemming: pojavnicu
stemmer→stemm, ali better→tek
lematizator ispravno svodi na good
Označavanje vrsta riječi (Partof-speech (POS) tagging)


Označavanje vrsta riječi (POS
tagging) je postupak pridruživanja
gramatičkih kategorija svakoj
pojavnici u tekstu
Spada u osnovne vrste lingvističkog
označavanja i služi kao osnova za više
razine analize teksta kao što je npr.
sintaktički parsing, chunking
POS označivač (tagger)


Alat s pomoću kojega se obavlja
automatsko POS označavanje naziva
se POS označivač (tagger)
Osnovna podjela prema načinu rada
na:


One koji se zasnivaju na pravilima (Rule
based)
Vjerojatnosne (Probabilistic)
Označavanje vrsta riječi


Točnost automatskog označavanja
danas: do 96-97 %
POS oznake prvi su korak u
razrješavanju istopisnica (homografa),
tj. pojavnica koje imaju isti lik, a
različite gramatičke kategorije i/ili
značenje
Alembic tagger vs. QTAG
Prepoznavanje imena (Name
recognition)




Imena su često nepoznata sustavu za
obradu jezika (nema ih u leksikonu)
Osobe, lokacije, tvrtke itd. čine otvoren
popis jezičnog inventara
U nekim žanrovima teksta pokrivaju čak
jednu desetinu cjelokupnoga teksta
Često se obavlja prije POS označavanja ili
parsinga
Name recognition - eng
<ENAMEX TYPE="LOCATION">Washington</ENAMEX>, <TIMEX
TYPE="DATE">March 7</TIMEX> (<ENAMEX
TYPE="ORGANIZATION">Bloomberg</ENAMEX>) -- <ENAMEX
TYPE="ORGANIZATION">MCI Communications Corp.</ENAMEX> and <ENAMEX
TYPE="ORGANIZATION">News Corp.</ENAMEX> said they will pay <ENAMEX
TYPE="ORGANIZATION">Loral Corp.</ENAMEX> more than <NUMEX
TYPE="MONEY">$400 million</NUMEX> to build two satellites for a direct
television broadcasting venture.
<ENAMEX TYPE="ORGANIZATION">Loral</ENAMEX> said it will launch the first
satellite <TIMEX TYPE="DATE">late next year</TIMEX> and the second in
<TIMEX TYPE="DATE">1998</TIMEX>. <ENAMEX
TYPE="ORGANIZATION">MCI</ENAMEX> said it expects to offer satellite
television in the <ENAMEX TYPE="LOCATION">U.S.</ENAMEX> by the <TIMEX
TYPE="DATE">end of 1997</TIMEX>.
Parsanje (parsing)

Parsanje (ili sintaktička raščlamba,
sintaktička analiza) je postupak
analize nizova pojavnica u rečenici
kako bi se utvrdila njena gramatička
struktura s obzirom na zadanu
formalnu gramatiku
Plitko parsanje


Plitko parsanje (eng. shallow parsing,
light parsing) – je postupak analize
rečenice kod kojeg se prepoznaju
sastavnice (konstituenti), ali se ne
prepoznaje interna struktura
sastavnica, niti njihova uloga u
rečenici
Sastavnice – NP, VP, PP, ADVP
Što je sastavnica?

U nekim slučajevima ne postoji suglasnost
svih lingvista što je točno sastavnica, ali
osnovne prihvaćene značajke su:
Distribucija: sastavnica se ponaša kao jedinica
koja se može pojaviti na različitim mjestima u
rečenici (scrambling)
 Zamjena i proširenje:
I sat [on the box/right on the top of the box/
there]

Dubinsko parsanje



Dubinsko (deep, full parsing) parsanje je
postupak kojim se utvrđuje cjelovita
hijerarhijska struktura rečenice
Drugim riječima, od linearnog ulaza
(rečenice) izgrađuje se hijerarhijska
struktura (stablo)
Struktura rečenice najčešće se definira
nizom beskontekstnih pravila
Dubinsko parsanje

Rezultat obrade je stablo parsanja:
Banke stabala - The Penn
Treebank
( (S
(NP-SBJ (DT The) (NN move))
(VP (VBD followed)
(NP
(NP (DT a) (NN round))
(PP (IN of)
(NP
(NP (JJ similar) (NNS increases))
(PP (IN by)
(NP (JJ other) (NNS lenders)))
(PP (IN against)
(NP (NNP Arizona) (JJ real) (NN estate) (NNS loans))))))
(, ,)
(S-ADV
(NP-SBJ (-NONE- *))
(VP (VBG reflecting)
(NP
(NP (DT a) (VBG continuing) (NN decline))
(PP-LOC (IN in)
(NP (DT that) (NN market)))))))
(. .)))
Drugi pogled na jezičnu
strukturu


Postoje i formalni gramatički opisi koji se
ne zasnivaju na sastavnicama
Npr. ovisnosna gramatika (dependency
grammar) (Tesnière, Mel´čuk) – pokazuje
koje riječi ovise (modificiraju ih ili su
argumenti od) neke druge riječi



Proizvodi stabla ovisnosti, ne konstituentska
stabla
Nema sastavničkih čvorova
Prikladnija za opis jezika sa “slobodnijim
redom riječi”
Ovisnosna (dependency) i
konstituentska struktura
Zašto je prepoznavanje prirodnoga
jezika toliko složeno?



Znanje određenog jezika (tj. njegov
leksikon i gramatika) pruža moguće
interpretacije određenog iskaza
Željena/namjeravana interpretacija ovisi o
kontekstu, diskursu, konvencijama
komunikacije i izvanjezičnom znanju
Na primjer, potrebno je izabrati između
više smislova riječi, više alternativnih
parsinga rečenice itd. koji zahtijevaju
izvanjezično znanje
Zašto je prepoznavanje prirodnoga
jezika toliko složeno? Primjer!


Fed raises interest rates 0.5% in effort to
control inflation. (NYT naslov 17. svibnja. 2000)
Stablo parsanja:
Zašto je prepoznavanje prirodnoga
jezika toliko složeno? Primjer!

Višeznačnost vrsta riječi (POS)
in effort
to control infl.


Višeznačnost sintaktičkog pridruživanja
Skrivene strukture u jeziku često su
iznimno višeznačne!
Oznake







NN - noun, common singular (action)
NNS - noun, common plural (actions)
NNP - noun, proper singular (Thailand)
VBZ - verb, -s (believes)
VB - verb, base (believe)
VBP - verb, non-3rd person singular present
CD - number, cardinal (four)
Stabla parsanja
Stabla parsanja

Ako izradimo pravila formalne gramatike:









S  NP VP
NP  (DT) NN
NP  NN NNS
NP  NNP
VP  V NP
…
NN  interest
NNS  rates
NNS  raises
VBP  interest
VBZ  rates
Najmanja (minimalna) gramatika promatrane
rečenice daje 10 stabala parsanja
Jednostavna gramatika koja se sastoji od 10
pravila daje 592 stabala parsanja
Cjelovita gramatika eng. → više od milijun stabala
Tipičan problem obrade
prirodnoga jezika

Gramatike s velikim ograničenjima nastoje
limitirati manje vjerojatne/željene
parsinge


Gramatike s manjim ograničenjima mogu
parsati više rečenica


To ih čini manje robusnima i mnoge rečenice
nemaju stabla
Čak jednostavne rečenice imaju više stabala
Statističkim metodama pronalaze se
najvjerojatnija rješenja (stabla)!
Ispit



Pismeni ispit
Do 90 minuta
Odgovori na pitanja iz zadane literature
i sa predavanja
Materijali sa nastave:

http://www.hnk.ffzg.hr/materijali.7z