Transcript Inledning
Introduktion till
språkteknologi
Introduktion
Språkteknologi
• Vi studerar vad som krävs för att få
datorer att utföra nyttiga och
intressanta uppgifter med mänskliga
språk.
• Vi är också intresserade av de insikter
som studier av datormodeller ger oss
om det mänskliga språket.
2
Varför bry sig?
1. En enorm mängd kunskap är numera
tillgänglig i form av maskinläsbar text
2. Samtalsagenter håller på att bli en viktig form
av människa-dator-kommunikation
3. En stor del av vår kommunikation med andra
människor förmedlas nu av datorer
3
Näringslivet
• Mycket på gång …
4
Google Translate
5
Google Translate
6
Webbsökning
• Mer och mer språkteknologi …
7
Frågebesvarande system
• Ett steg till …
8
Webb-bevakning
• Informationsextraktion från bloggar,
diskussionsforum och andra former av
användargenererade media
Marknadsföring
Opinionsundersökning
Nätverksanalys
Trendanalys
9
Röststyrning
• Tala med datorn (mobilen, TVn, spisen …)
• Hands free, eyes free
10
Språkstöd
• Skrivstöd:
Stavningskontroll
Grammatikkontroll
• Stöd för funktionshinder:
Talsyntes för synskadade
Stöd och träningsprogram för dyslexi och
afasi
Alternativ och kompletterande kommunikation
• Språkundervisning
11
Tillämpningar
• Vad gör en tillämpning språkteknologisk
(till skillnad från annan programvara)?
• Den kräver att man utnyttjar kunskap om
det mänskliga språket.
Exempel: “Räkna ord” i Word
Sidor?
Ord?
Tecken?
Stycken?
Rader?
12
Vad är problemet?
• Datorer förstår formella språk
Programspråk (C, Java, Python …)
Märkspråk (XML, HTML, …)
• Mänskliga språk har andra egenskaper
Flertydighet
Vaghet
Ofullständighet
Variation
Produktivitet
Redundans
13
Flertydighet
• Lexikal flertydighet
Mellan ordklasser
fiskar – verb eller substantiv?
var – verb, adverb eller substantiv?
Inom ordklass
fil – verktyg, mejeriprodukt, datorterm eller körfält?
• Strukturell flertydighet
Hon träffade killen med flaskan
• Syftningsflertydighet:
Hon tappade glaset på bordet och det gick sönder
14
Vaghet och ofullständighet
• Många uttryck är vaga (oprecisa)
Var går gränsen mellan eftermiddag och kväll?
Vad är en stor respektive liten hund? Häst?
• Mycket lämnas outsagt:
Hunden var glad. Svansen viftade oupphörligt.
En dator som förstår dig som din mamma.
15
Variation
• Synonymi
tjej
flicka
tös
jänta
• Parafras
Pelle bor i Uppsala.
Det är i Uppsala Pelle bor.
Pelle bor i staden med Nordens äldsta universitet.
I Uppsala bor katten utan svans.
16
Produktivitet
• Språket får hela tiden nya ord och (inte
minst) nya betydelser för gamla ord
tjejsamla, tjejlyssna
mus, skrivbord, ikon, papperskorg
• Antalet möjliga meningar är oändligt
Det regnar och det blåser och jag har tandvärk och
cykeln är trasig och …
• Vi uttrycker oss ofta indirekt (ironi,
överdrift, underdrift, metaforer)
Jag kommer att dö av skam.
Hon var verkligen i toppform.
17
Redundans
• Samma betydelse signaleras på flera sätt
Igår sken solen – förfluten tid
En ny cykel – obestämdhet
• Behovet av redundans ökar med yttre
omständigheter (buller, dålig täckning)
18
Vad behöver vi kunna?
• Lingvistik
Kunskap om det mänskliga språket
• Datavetenskap
Kunskap om datorer och formella språk
• Språkteknologi
Specialiserade tekniker som kombinerar
lingvistik och datavetenskap
19
Lingvistik
• Delområden
Fonetik, fonologi, grafonomi – tal och skrift
Morfologi och syntax – ord och meningar
Semantik och pragmatik – betydelse och bruk
• Kurser på programmet
Lingvistik I (1)
Grammatik för språkteknologer (1)
Semantik och pragmatik (2)
Fonetik I (4)
20
Datavetenskap
• Delområden
Programmering
Matematisk modellering
Maskininlärning
• Kurser på programmet
Introduktion till datateknik för språkvetare (1)
Matematik för språkteknologer (2)
Programmering för språkteknologer I (2)
Maskininlärning i språkteknologi (3)
Programmering för språkteknologer II (3)
21
Språkteknologi
• Delområden:
Bastekniker (tal/skrift, morfologi, syntax, semantik)
Praktiska tillämpningar
• Kurser på programmet
Introduktion till språkteknologi (1)
Grundläggande textanalys (2)
Syntaktisk analys i språkteknologi (3)
Semantisk analys i språkteknologi (3)
Talteknologi* (4)
Maskinöversättning (4)
Informationssökning (4)
22
Den här kursen
• Introduktion med fokus på tillämpningar
Skrivstöd
Språkinlärning
Informationssökning
Textklassificering
Dialogsystem
Maskinöversättning
• Språkteknologiska tekniker
Tas upp för relevanta tillämpningar
Övas i praktiska laborationer
23