Uporba regularnih gramatika u obradi jezika

Download Report

Transcript Uporba regularnih gramatika u obradi jezika

Osnovni pojmovi
Uvod u računalnu metodologiju za
jezično istraživanje
Božo Bekavac
Osnovne obavijesti




dr. sc. Božo Bekavac
Uvod u računalnu metodologiju za jezično
istraživanje
Računalna učionica, subotom u 11 h
Konzultacije: [email protected]
Literatura - (obavezna)
1.
McEnery, Tony & Wilson, Andrew (1996), Corpus
Linguistics, Edinburgh University Press, na www:
http://www.lancs.ac.uk/fss/courses/ling/corpus/
2. Jurafsky Daniel, James H. Martin (2000), An
Introduction to Natural Language Processing,
Computational Linguistics, and Speech
Recognition, Prentice Hall, drugo izdanje,
poglavlja 2., 12. i 13. na www
Introduction to Natural Language
Processing, Computational
Linguistics, and Speech Recognition
http://www.hnk.ffzg.hr/Jurafsky/11.pdf (sve
do 11.8)
http://www.hnk.ffzg.hr/Jurafsky/12.pdf
(samo Ambiguity 12.2 i 12.5.1. Finite-State
Rule-Based Chunking)
Literatura - (dodatna)
3. Emmanuel Roche, Yves Schabes (ur.) (1997), Finite
State Devices for Natural Language Processing,
MIT Press, Cambridge, Massachusetts
4. Mitkov, Ruslan (ur.) (2003), The Oxford Handbook
of Computational Linguistics, Oxford University
Press
5. Silberztein, Max (2000), INTEX Manual.
ASSTRIL, Pariz
Literatura - (preporuka)


nema na jednom mjestu > dolaziti na
predavanja
Koristiti i WWW!
Materijali sa nastave

http://www.hnk.ffzg.hr/download/urmj/materijali.zip
Gdje se nalazi jezik?




Što je jezik? Gdje se nalazi, u umu
govornika ili negdje drugdje?
Chomsky: “jezik je sustav predstavljen u
umu/mozgu određenog pojedinca”
Chomsky mijenja smjer lingvistike od
empirizma prema racionalizmu
Nastoji odbaciti svaku potrebu za
korpusom
Chomsky: sposobnost/uporaba



Sposobnost (competence) – prešutno,
interno znanje o jeziku; nesvjesno znanje
svih gramatičkih struktura idealiziranog
govornika
Uporaba (performance) – vanjski dokaz
jezične sposobnosti; stvarna proizvodnja i
razumijevanje jezika u konkretnim iskazima
Chomsky: Performance, however, is a poor
mirror of competence.
Chomsky - korpus

1.
2.

Konkretni jezični ostvaraji manje su važni
jer se na njih može utjecati faktorima
koji su izvan jezične kompetencije:
"I live in New York."
"I live in Dayton Ohio.“
Imaju li veze frekvencija pojavljivanja u
korpusu i gramatičnost?
Što je korpus ?




Korpus - zbir tekstova prirodnoga jezika
sastavljen po stanovitu kriteriju
Corpus (plural corpora)
Tekstovi koji čine korpus zasnovani su na
konkretnim jezičnim ostvarajima
Korpusna lingvistika - istraživanje jezika
na osnovi korpusa tekstova, pri čemu se
danas obično podrazumijeva – strojno
(podržanih) izrađenih korpusa.
Evidence/introspection

Fillmore: I don't think there can be any
corpora, however large, that contain
information about all of the areas of
English lexicon and grammar that I want to
explore… [but] every corpus I have had the
chance to examine, however small, has
taught me facts I couldn't imagine finding
out any other way. My conclusion is that
the two types of linguists need one another
Računalna lingvistika


Računalna lingvistika, RL (Computational
Linguistics, CL) je dio znanosti o jeziku koja
koristi računala kao pomoćna sredstva u
istraživanju jezika ili eksperimentiranju
nad njim
RL: interdisciplinarnog karaktera, s
uporištima u lingvistici i informatici
Brown korpus





Prvi je računalno sastavljen i podržan
korpus Brown korpus
dovršen je 1963-4. godine na temelju
tekstova na američkom engleskom jeziku
Kučera i Francis sa Odsjeka za lingvistiku
Sveučilišta Brown
sastoji se od oko milijun pojavnica (1M)
Pojavnica??? - METAJEZIK
Pojavnica - različnica





Riječ? Koliko “riječi” ima rečenica:
I see a cat and a dog.
Pojavnica (token) - sve ono što se nalazi
između dva znaka koja služe kao graničnici
(svako individualno pojavljivanje).
Različnica (type) - jedinstveni oblik
pojavnice iz korpusa.
Pojavnica (tokens) ima 7.
Različnica (types) ima 6.
British National Corpus (BNC)





Prvi nacionalni korpus koji je ponio takav
naziv i postao referentan za neki jezik
100 M pojavnica
Pisani (90 %) i govoreni (10 %) jezik
(written and spoken language)
Gramatički obilježen (part of speech, POS)
http://www.natcorp.ox.ac.uk/
British National Corpus (BNC)
Unos: can
Istopisnost (homography)


VANJSKA ISTOPISNOST – slučaj pripadanja
istog oblika riječi dvjema ili više lema. Npr. can
= limenka i can = moći, hr. šume može pripadati
četirima lemama, dvije imenice (leme šum i
šuma), a dvije glagoli (leme šumiti i šumjeti)
UNUTARNJA ISTOPISNOST - slučaj
postojanja više morfosintaktičkih
interpretacija koje pripadaju istoj lemi:
povijesti,povijest.N:cfpa:cfpg:cfpn:cfpv:cfsd:c
fsg:cfsi:cfsl:cfsv
Unos: "can"=NN1 (Singular common
noun)
Unos: "can"=VM0 (Modal auxiliary
verb)
CQL







CQL (pronounced “sequel”) is short for the
corpus query language
Primjeri upita:
cat _ dog
cat*dog/10
{s[iau]ng}
<head type=main>man
http://www.natcorp.ox.ac.uk/tools/chapt
er4.xml.ID=FIMNU#CQL
Ostali korpusi engleskog jezika





The Bank of English (524 M):
http://www.collins.co.uk/books.aspx?group=
153
http://www.titania.bham.ac.uk/docs/
Oxford Text Archive (kolekcije tekstova)
http://www.ota.ox.ac.uk/
American National Corpus (100 M)
http://americannationalcorpus.org/
Mnogi drugi…
Hrvatski nacionalni korpus (HNK)





101,3 M pojavnica suvremenog HJ
Dijelom POS obilježen
Sastavlja se u Zavodu za lingvistiku FFZG
Pristup s pomoću programa za
pretraživanje Bonito
http://www.hnk.ffzg.hr/default_en.htm
HNK - Homepage
HNK – rezultat pretrage:
[msd="A.*"] [lemma="čovjek"]
Hrvatska jezična mrežna riznica

http://riznica.ihjj.hr/en/
Hrvatska jezična mrežna riznica
Veličina korpusa?




John Sinclair: “The bigger the better.”
Monitor korpus (monitor corpus) - nije
ograničen standardnim korpusnim
parametrima (veličinom i vremenskim
rasponom tekstova u korpusu)
Koji je danas najveći izvor digitaliziranih
tekstova?
WWW!
Web as corpus




Google as corpus: www.google.com
Velika (najveća ?) kolekcija tekstova danas
Nedostatak: kako kontrolirati izvore koje
se pretražuje?
Do određene mjere ipak je moguće!
Google as corpus (1)
Google as corpus (2)
Web as corpus – WebCorp (1)
http://www.webcorp.org.uk/
Web as corpus – WebCorp (2)
http://www.webcorp.org.uk/
Gateway to corpus linguistics

http://www.corpus-linguistics.com/
Konkordancije (1)



današnji korpusi prevelikog su opsega da bi
se mogli pretraživati bez pomoći računala
alat za konkordancije nalazi u samom
središtu korpusne lingvistike i osnovni je
alat korpusnoga jezikoslovca
osnovni je cilj alata za konkordancije
omogućiti uvid u mnoštvo primjera
određene pojavnice ili fraze u okolinama u
kojima se pojavljuju
Konkordancije (2)


KWIC (Key-Word In Context)
KWAL (Key-Word And Line)
Konkordancije - terminali:
irreflective
Konkordancije - neterminali:
<A><man>
Leksikon (lexicon) - 1


sinonim za rječničku bazu koja sadrži
informacije o leksičkim kategorijama riječi
sadrži sve potencijalne interpretacije
leksičkih unosaka (lexical entries), npr.
"pig" N V A

("pig" is familiar as a N, but also occurs as
a verb ("Jane pigged herself on pizza") and
an adjective, in the phrase "pig iron", for
example.)
Leksikon (lexicon): primjer - 2
apart,apart.A
apart,apart.ADV
apartment,apartment.N:s
apartments,apartment.N:p


word-form
lemma
POS
MSD - morfosinataktički opis
(morphosyntactic description)
MSD
Leksikon (lexicon)

U leksikonu se često nalazi širi raspon
informacija o pojedinoj riječi, npr.


koju ulogu riječi ima – podatak o tranzitivnosti
glagola (transitive, intransitive, bitransitive,
etc.)
semantičke osobine – može li se riječ odnositi
na ljudsko:
analysis,analysis.N:s
analysts,analyst.N+Hum:p
Označavanje (tagging)





Označavanje (tagging, mark-up) je pridodavanje
eksplicitnih informacija tekstu za računalnu
obradu tamo gdje su one implicitno prisutne osobi
koja čita tekst
Oznake (tags) – umeću se u tekst
U nekom kontekstu: obilježavanje (annotation)
Pri obilježavanju korpusa oznake se ubacuju iz
određenoga skupa oznaka
Skup oznaka (tagset, tag list) je popis svih
mogućih oznaka kojima se može obilježavati tekst:
http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm
Označavanje vrsta riječi (Part-ofspeech (POS) tagging)


Part-of-speech (POS) označavanje je
postupak pridruživanja gramatičkih
kategorija svakoj pojavnici u tekstu
(ponekad se naziva gramatičko označavanje
ili morfosintaktičko obilježavanje).
spada u osnovne vrsta lingvističkog
označavanja i služi kao osnova za više
razine analize teksta kao što je sintaktički
parsing.
POS tagging (2)


Točnost automatskog označavanja danas:
do 96-97 %
POS oznake prvi su korak u razrješavanju
istopisnica (homografa), tj. pojavnica koje
imaju isti lik a različite gramatičke
kategorije i/ili značenje
POS označivač (tagger)


Alat s pomoću kojega se obavlja
automatsko POS označavanje naziva se
POS označivač (tagger).
Osnovna podjela prema načinu rada na:


One koji se zasnivaju na pravilima (Rule based)
Vjerojatnosne (Probabilistic)
Označivač
Alembic POS Tagger online:
http://complingone.georgetown.edu/%7Elingu
ist/postagger.html
 Qtag (C:\Qtag)
 Qtag TAGSET na:
D:\BBpredavanja\Split\Qtag_tagset\QTA
G 3_0.htm

Vrste korpusa


Opći korpus
Specijalizirani korpus – ponekad postoji
potreba za sastavljanjem vlastitog korpusa,
npr. korpus tekstova iz određene domene