Uvod v korpusno jezikoslovje

Download Report

Transcript Uvod v korpusno jezikoslovje

O korpusih
Prevajalska orodja, 2004/2005
Kaj je korpus?
A corpus is a collection of pieces of language that
are selected and ordered according to explicit
linguistic criteria in order to be used as a sample
of the language. (EAGLES, 1996)




obsežna zbirka jezikovnega gradiva, tj. besedil, ki
so nastala v pisni ali govorjeni obliki v dejanskem
socialnem kontekstu
elektronska oblika
reprezentativnost za jezik ali jezikovno zvrst, ki
naj bi jo predstavljali -> vzorec
na podlagi korpusov želimo jezik opisovati, ne
predpisovati!
Kako se je vse skupaj začelo...





začetki deskriptivnega jezikoslovja
v 60. letih: korpus BROWN (1 M)
John Sinclair Cobuildova revolucija
Bank of English (470 M)
British National Corpus (100 M)
Zakaj potrebujemo korpuse?






Izdelava slovarjev in drugih jezikovnih
priročnikov
Izdelava slovnic in drugih opisov
jezikovne strukture
Razvoj pripomočkov za prevajanje
Izdelava pripomočkov za učenje jezika
Jezikovne tehnologije
Raziskovanje vseh oblik jezikovnega
vedenja (pripomoček pri vseh ravneh
jezikoslovnih raziskav)
Tipologija korpusov




Medij: pisana in govorjena besedila
Obseg: referenčni korpusi, korpusi
podjezikov (npr. strokovnih jezikov)
Časovni razpon: diahroni in sinhroni
pristop
Jezik: enojezični / večjezični



vzporedni korpusi
primerljivi korpusi
prevodoslovni korpusi
Nekaj pojmov ...




konkordanca
Prikaz vseh delov besedila, kjer se pojavlja iskani
niz
KWIC (Keyword in Context)
Pregledni prikaz konkordanc z usrediščenim nizom
pojavnica / različnica
npr. Korpus X ima 100.000.000 pojavnic,
567.000 različnic.


besedna oblika / lema
kolokacija
Korpusi na internetu

Slovenščina:



Slovensko-angleški vzporedni korpusi:



FIDA [http://www.fida.net]
Nova beseda
[http://bos.zrc-sazu.si/a_beseda.html]
ELAN + TRANS
[http://nl2.ijs.si/corpus/index-bi.html]
EVROKORPUS [http://www.gov.si/evrokorpus/]
Drugi:

Zbirka povezav na več sto korpusov različnih
svetovnih jezikov [http://devoted.to/corpora]
Dodatni viri



Vzporedni korpusi in večjezikovne
tehnologije
[http://www2.arnes.si/~svinta/parallel.ht
m]
Uvod v korpusno jezikoslovje (T. Erjavec)
[http://nl.ijs.si/et/talks/korpus]
Priprava in uporaba vzporednih korpusov
[http://nl.ijs.si/et/talks/solomon02]
Korpusna orodja

poravnava vzporednih besedil
ATRIL DejaVu [http://www.atril.com]

konkordančniki
WordSmith Tools
[http://www.lexically.net/wordsmith/]
Concordance
[http://www.rjcw.freeserve.co.uk/]
MonoConc in ParaConc
[http://www.athel.com/mono.html]
Kaj je vzporedni korpus?




dvo- ali večjezični
vsebuje besedilo v izvirniku in
prevodu
vzporedni  primerljivi korpus
stavčna poravnava
Stavčna poravnava
izvirnik
prevod
Stavčna poravnava
•segmentacija
izvirnik
prevod
Stavčna poravnava
•segmentacija
•poravnava
izvirnik
prevod
Kako nastane vzporedni korpus?

zbiranje besedil

namen korpusa / kriteriji za izbiro besedil

avtorstvo

kakovost prevodov

zagotovitev besedila v elektronski obliki

stavčna poravnava

pretvorba v enoten zapis (npr. SGML, XML)

zagotovitev iskalnika
Zakaj uporabljamo vzporedne korpuse?



prevajanje
izdelava slovarjev
razvoj jezikovnih tehnologij:




strojno prevajanje
avtomatsko iskanje terminologije
spletne tehnologije
...
Vzporedni slovensko-angleški
korpus ELAN






vsebuje 15 vzporednih, stavčno
poravnanih besedil
skupni obseg cca. 1 milijon besed
zgrajen na IJS v sodelovanju s FF v okviru
EU projekta ELAN
dostopen za spletno iskanje
Predstavitev korpusa: nl.ijs.si/elan
Iskanje:
nl2.ijs.si/corpus/index-bi.html
Vzporedni slovensko-angleški
korpus strokovnih besedil TRANS

40 vzporednih besedil, 5 strokovnih
področij:






medicina
turizem
strojništvo
gospodarstvo
geologija
skupni iskalnik:
nl2.ijs.si/corpus/index-bi.html
Vzporedni slovensko-angleški korpus
SVEZ



korpus prevodov pravnega reda EU
in spremnih dokumentov ob
pripravah Slovenije na vstop
8 milijonov besed, besedila v
različnih fazah obdelave (prevod,
pravna redakcija, finalizirano,...)
~~Evrokorpus
Načini iskanja
1.
2.
3.
4.
Iskanje besedne oblike: sožitje, hodi, prihodkov
Iskanje z zvezdico: hrošč*, *hrošč*
Iskanje več besed: dobr* volj*
Napredno iskanje po razredu znakov:
"[bcčdfghjklmnprsštvzž]{5,}"
5. Iskanje z izpisom besednega seznama: *glav*
6. Iskanje izvirnika z določenim prevodom: community in
skupnost*
7. Iskanje izvirnika s prepovedanim prevodom: system in
ne sistem*