Įvadas į kompiuterinę lingvistiką

Download Report

Transcript Įvadas į kompiuterinę lingvistiką

Tekstų ištekliai ir
apdorojimo priemonės
Doc. Pijus Kasparaitis
[email protected]
2011-2012 m. m. pavasario semestras
Žodynai
Žodynas - žodžių sąrašas su jų
reikšmėmis (apibrėžimais)
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 2
Žodynų rūšys
 Kalbos
 dabartinės lietuvių kalbos žodynas
http://www.lki.lt/dlkz/
 lietuvių kalbos žodynas
http://www.lkz.lt/startas.htm
 Ortografiniai
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 3
Žodynų rūšys
 Dvikalbiai
 anglų-lietuvių kalbų žodynas
http://www.anglu-lietuviu.com/
 lietuvių-anglų kalbų žodynas
http://www.lietuviu-anglu.com/
 vokiečių-lietuvių kalbų žodynas
http://www.vokieciu-lietuviu.com/
 pasaulio kalbų žodynai
http://www.word2word.com/dice.html
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 4
Žodynų rūšys
 Kiti
 Lietuvos Respublikos terminų bankas
http://terminai.vlkk.lt/
 tarptautinių žodžių žodynai:
http://www.terminai.lt/
http://www.zodziai.lt/
 vietovardžių žodynai:
http://vietovardziai.lki.lt/
http://ualgiman.dtiltas.lt/lietuvos_viet.html
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 5
Žodynų sankaupos
 Aiškinamieji žodynai:
http://internet.unib.ktu.lt/www/aisk_zodyn.htm
 DMOZ žodynų sąrašas:
http://www.dmoz.org/World/Lietuvių/Žinynai
/Žodynai/
 Žodynai tinkle:
http://www.zodynai.org/zodynai.html
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 6
Tekstynai
Tekstynu vadinsime pakankamai
didelį tekstų rinkinį, sudarytą
nepriklausomai nuo jo
panaudojimo tikslų
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 7
Dažniniai žodžių sąrašai
 Lemų sąrašai
 Žodžių formų sąrašai
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 8
Dažninis sąrašas
dažnio mažėjimo tvarka
Žodis
Eil. Nr.
1 ir
Eil. Nr.
Žodis
Dažnis
1909
11 tik
233
2 kad
485
12 ar
225
3 į
455
13 ne
216
4 iš
384
14 Lietuvos
216
5 su
334
13 savo
211
6 o
307
16 bet
207
7 buvo
307
17 jis
178
8 tai
296
18 apie
178
9 kaip
290
19 m
172
272
20 nuo
163
10 yra
2012 05 09
Dažnis
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 9
Dažninis sąrašas abėcėlės tvarka
Žodis
filologija
filologiją
filologijai
filologijas
filologijoje
filologijomis
filologijos
2012 05 09
Dažnis
26
43
8
1
10
1
367
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 10
Žodžių pasiskirstymas
dažniniame sąraše
Žodžių dažnumas
Sąrašo dalis
Tekstyno dalis
>10000
0,04%
37,36%
1000-9999
0,47%
27,33%
100-999
3,25%
21,24%
10-99
9,45%
9,94%
2-9
36,08%
3,09%
1
45,54%
1,04%
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 11
Konkordansas
tafizika turi virsti grynąja matematika, o metafizinis - individuali
s gamtotyros metodą. Grynoji matematika irgi yra grynojo santykio pa
ai kokie paradoksai! Grynoji matematika suartėja su poezija ir misti
odis yra "santykis". Grynoji matematika išreiškia santykius, tačiau
, kad mokslas kaip taikomoji matematika išreiškia kiekybinį esinijos
žodžio prasme, yra taikomoji matematika. Todėl ir sakoma, kad moksli
e visi kultūros komponentai. Matematika, fizika, sakysime, yra speci
mą. Dabartinis mokslas, ypač matematika ir fizika, ėmė tyrinėti prob
sitete. Kad domėjosi fizika, matematika ir gamtos mokslais, parašė p
inieriniai dalykai (aukštoji matematika, inžinerinė grafika, fizika,
lavinant protą (specialybė matematika, fizika, chemija ir pan.), j
disciplinų (fizika, chemija, matematika, kalbos, informatika ir pan.
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 12
Tekstynai
 VDU tekstynas
http://tekstynas.vdu.lt/
 VU tekstynas
http://coralit.lt/
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 13
Lemavimo sąvoka
 Lema – antraštinė žodžio forma
 Žodžio formos lemavimas – visų
galimų lemų ir visų galimų gramatinių
apibūdinimų radimas
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 14
V. Zinkevičiaus “Lemuoklis”
http://donelaitis.vdu.lt/~vytas/lemo/liet/lemo_pasiimt.htm
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 15
Sintaksinės analizės sąvoka
Sintaksinė analizė – struktūrinio
aprašymo remiantis tam tikra
formalia gramatika suteikimas
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 16
Sudedamųjų dalių struktūra
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 17
Priklausomybių struktūra
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 18
Sudedamųjų dalių sintaksinio
analizatoriaus pavyzdys
http://www.cl.uni-heidelberg.de/
seminare/studpro01/DemoParser/
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 19
Priklausomybių sintaksinio
analizatoriaus pavyzdys
http://www.mif.vu.lt/~pijus/sintaks/
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 20
Literatūra
 http://lt.wikipedia.org/wiki/Žodynas
 http://www.vlkk.lt/lit/nuorodos/zodynai
.html
 Marcinkevičienė, R. (2000). Tekstynų
lingvistika: Teorija ir praktika. Darbai ir
dienos, 2000.24, VDU, Kaunas, 7-64
 Žilinskienė, V. (1995). Atgalinis
dabartinės lietuvių kalbos žodynas.
Vilnius, MII.
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 21
Literatūra
 Grumadienė, L., V. Žilinskienė (1997),
Dažninis dabartinės rašomosios lietuvių
kalbos žodynas (mažėjančio dažnio
tvarka). Vilnius.
 Zinkevičius, V. (2000). Lemuoklis –
morfologinei analizei. Darbai ir dienos,
2000.24, VDU leidykla, Kaunas, 245-274.
 Hellwig, P., Natural language parsers.
A course in cooking. http://www.cl.uniheidelberg.de/~hellwig/pars03.pdf
2012 05 09
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Tekstų ištekliai ir apdorojimo priem. 22