Akademiske ordlister – korpus og andre ressurser ved UiO

Download Report

Transcript Akademiske ordlister – korpus og andre ressurser ved UiO

Janne Bondi Johannessen og Kari Kinn
Akademiske ordlister – korpus og
andre ressurser ved UiO
Workshop om akademiske ordlister
Göteborg 06.05.2011
Relevante fagmiljøer ved ILN, UiO
• Enhet for leksikografi:
ordbøker, korpus, ordnett.
F.eks. NO2014
• Tekstlaboratoriet:
språkteknologi, skrift- og
talespråkskorpus.
http://www.hf.uio.no/iln/om/or
ganisasjon/tekstlab/
• Norsk som andrespråk:
Tilegnelse og bruk av
andrespråk. Norskkurs
tilpasset utenlandske
studenter og akademikere.
Eksisterende korpus ved UiO
• Talespråk- og skriftspråkskorpus.
Oversikt:
http://www.hf.uio.no/iln/om/organisasj
on/tekstlab/tjenester/index.html#skrift
• Talespråk: F. eks. ScanDiaSyn,
NoTa, BigBrother-korpuset
• Skriftspråk: F. eks. Leksikografisk
bokmålskorpus, NoWac, Oslokorpuset
• Skriftspråk mest relevant
• Akademisk språk
Leksikografisk bokmålskorpus
•
•
•
•
•
•
Utvikles av Enhet for leksikografi
Foreløpig 50 mill. ord
Bokmålstekster fra 1985 til i dag
Tekster bl.a. merket med sjanger, emne og kildeopplysninger
Særlig relevant kategori: sakprosa (314 tekster),
Relevante underkategorier i sakprosa: lærebøker, fagbøker,
avhandlinger, rapporter, juridiske dokumenter (148 tekster)
• Emner: helse, humaniora, realfag, jus, samfunnsfag …
• http://www.hf.uio.no/iln/tjenester/kunnskap/sprak/korpus/skriftsp
rakskorpus/lbk/index.html
Norwegian Web as Corpus (NoWaC)
• Utviklet ved Tekstlaboratoriet
• 700 mill. ord
• Dokumenter fra .no-domenet lastet ned og
bearbeidet
• Ikke merket for kilde, sjanger etc. i den offisielle
versjonen, men informasjonen finnes tilgjengelig 
mulig å sortere ut akademiske tekster
• http://www.hf.uio.no/iln/om/organisasjon/tekstlab/pro
sjekter/nowac/index.html
Oslo-korpuset av taggede
norske tekster
•
•
•
•
•
Utviklet av Tekstlaboratoriet
Bokmål: 18,5 mill. ord, nynorsk: 3,8 mill. ord
Tekster merket for sjanger
Særlig relevant: sakprosa
Sakprosa bokmål: 77 tekster, 6,9 mill ord.
Nynorsk:17 tekster, 600 000 ord
• Lovtekster og NOU-rapporter, tidsskriftet Syn og
Segn
• http://www.hf.uio.no/iln/tjenester/kunnskap/sprak/kor
pus/skriftsprakskorpus/oslo/index.html
Korpus ved Universitetet i Bergen
• Norsk aviskorpus: http://avis.uib.no/
• ASK-korpuset: Språkbrukere med norsk
som andrespråk.
http://ask.uib.no/index.page
• KIAP-korpuset: akademiske artikler.
Økonomi, medisin og lingvistikk. 50
norske artikler fra hvert fagområde.
Mulig kontaktperson: Kjersti Fløttum.
http://www.kiap.uib.no/KIAPCorpus.htm
Terminologi-ressurser
• Universitets- og høyskolerådet: liste over
administrative termer fra universitets- og
høyskolesektoren (bokmål-engelsk)
http://www.uhr.no/ressurser/temasider/terminologi
• Norsk språkråd: oversikt over termlister og
termbaser (eksterne) http://www.sprakradet.no/nbno/Tema/Terminologi-ogfagspraak/Terminologitenesta-/
Annet relevant materiale
• DUO: digital publisering av akademiske
arbeider ved UiO. Masteroppgaver m.m.,
stadig flere doktoravhandlinger og artikler.
http://www.duo.uio.no/
• NOU-er: Ulike fagområder. En del allerede i
andre korpus (f. eks. Oslo-korpuset).
http://www.regjeringen.no/nb/dok/NOUer.htm
l?id=1767
Annet relevant materiale – forts.
• Meldinger til Stortinget (fra regjeringen)
http://www.regjeringen.no/nb/dok/regpubl/me
ldst.html?id=1754
• Undervisningsmateriale for norsk som
annenspråk (noe tilgjengelig ved UiO)
Opphavsrettigheter
• Hovedregel: Hver forfatter har opphavsrett til egen
tekst. Åndsverkloven § 1: ”Den som skaper et
åndsverk, har opphavsrett til verket.”
•  tekster kan ikke fritt tas inn i korpus uten tillatelse
fra forfatteren
• Åndsverkloven § 40: ”Opphavsretten varer i
opphavsmannens levetid og 70 år etter utløpet av
hans dødsår. […]”
• EU-direktiv 2005  nye forskrifter 2008:
Kulturdepartementet kan gi forskningsinstitusjoner
tillatelse til å bruke tekster til forskningsformål.
Opphavsrettigheter – forts.
•  enklere å skaffe tekster til korpus
• Tekstlaboratoriet har fått slik tillatelse to
ganger: NoWaC + Oslo Parallell Corpus
• UiO foreløpig eneste institusjon som har
brukt muligheten
• Samarbeid med advokat
• http://www.hf.uio.no/foransatte/aktuelt/saker/2011/andsverk.html
Hva bør vi ellers ta hensyn til i en
akademisk ordliste?
• Hva trenger brukerne?
• Innspill fra andrespråksmiljøet, samarbeid nødvendig
• Uttrykk som ikke er rent faglige, men har lav frekvens i
talespråk/andre sjangere, f. eks. ”i henhold til” (T. G. Gedde)
• Metaforiske uttrykk. Se f. eks. Golden, A. (2005). Å gripe
poenget. Forståelse av metaforiske uttrykk fra lærebøker i
samfunnskunnskap hos minoritetselever i ungdomsskolen.
Unipub forlag.
• Undervisningsmateriale for utenlandske studenter kan være
nyttig, f. eks. kompendiet ”Fagspråk, utenlandsmedisinere. Kurs
i norsk språk og kommunikasjon for utenlandske leger.” UiO,
2010.
Oppsummering
• Flere korpus som inneholder akademiske
tekster tilgjengelige ved UiO, noe også ved
UiB
• Annet relevant materiale: bl. a. DUO, NOU-er
• Opphavsrettigheter: mulig å få tillatelse til å
bruke tekster til forskningsformål
• Samarbeid med andrespråksmiljøer