Transcript Inledning

Introduktion till
språkteknologi
Introduktion
Språkteknologi
• Vi studerar vad som krävs för att få
datorer att utföra nyttiga och
intressanta uppgifter med mänskliga
språk.
• Vi är också intresserade av de insikter
som studier av datormodeller ger oss
om det mänskliga språket.
2
Varför bry sig?
1. En enorm mängd kunskap är numera
tillgänglig i form av maskinläsbar text
2. Samtalsagenter håller på att bli en viktig form
av människa-dator-kommunikation
3. En stor del av vår kommunikation med andra
människor förmedlas nu av datorer
3
Näringslivet
• Mycket på gång …
4
Google Translate
5
Google Translate
6
Webbsökning
• Mer och mer språkteknologi …
7
Frågebesvarande system
• Ett steg till …
8
Webb-bevakning
• Informationsextraktion från bloggar,
diskussionsforum och andra former av
användargenererade media
 Marknadsföring
 Opinionsundersökning
 Nätverksanalys
 Trendanalys
9
Röststyrning
• Tala med datorn (mobilen, TVn, spisen …)
• Hands free, eyes free
10
Språkstöd
• Skrivstöd:
 Stavningskontroll
 Grammatikkontroll
• Stöd för funktionshinder:
 Talsyntes för synskadade
 Stöd och träningsprogram för dyslexi och
afasi
 Alternativ och kompletterande kommunikation
• Språkundervisning
11
Tillämpningar
• Vad gör en tillämpning språkteknologisk
(till skillnad från annan programvara)?
• Den kräver att man utnyttjar kunskap om
det mänskliga språket.






Exempel: “Räkna ord” i Word
Sidor?
Ord?
Tecken?
Stycken?
Rader?
12
Vad är problemet?
• Datorer förstår formella språk
 Programspråk (C, Java, Python …)
 Märkspråk (XML, HTML, …)
• Mänskliga språk har andra egenskaper
 Flertydighet
 Vaghet
 Ofullständighet
 Variation
 Produktivitet
 Redundans
13
Flertydighet
• Lexikal flertydighet
 Mellan ordklasser
 fiskar – verb eller substantiv?
 var – verb, adverb eller substantiv?
 Inom ordklass
 fil – verktyg, mejeriprodukt, datorterm eller körfält?
• Strukturell flertydighet
 Hon träffade killen med flaskan
• Syftningsflertydighet:
 Hon tappade glaset på bordet och det gick sönder
14
Vaghet och ofullständighet
• Många uttryck är vaga (oprecisa)
 Var går gränsen mellan eftermiddag och kväll?
 Vad är en stor respektive liten hund? Häst?
• Mycket lämnas outsagt:
 Hunden var glad. Svansen viftade oupphörligt.
 En dator som förstår dig som din mamma.
15
Variation
• Synonymi
 tjej
 flicka
 tös
 jänta
• Parafras
 Pelle bor i Uppsala.
 Det är i Uppsala Pelle bor.
 Pelle bor i staden med Nordens äldsta universitet.
 I Uppsala bor katten utan svans.
16
Produktivitet
• Språket får hela tiden nya ord och (inte
minst) nya betydelser för gamla ord
 tjejsamla, tjejlyssna
 mus, skrivbord, ikon, papperskorg
• Antalet möjliga meningar är oändligt
 Det regnar och det blåser och jag har tandvärk och
cykeln är trasig och …
• Vi uttrycker oss ofta indirekt (ironi,
överdrift, underdrift, metaforer)
 Jag kommer att dö av skam.
 Hon var verkligen i toppform.
17
Redundans
• Samma betydelse signaleras på flera sätt
 Igår sken solen – förfluten tid
 En ny cykel – obestämdhet
• Behovet av redundans ökar med yttre
omständigheter (buller, dålig täckning)
18
Vad behöver vi kunna?
• Lingvistik
 Kunskap om det mänskliga språket
• Datavetenskap
 Kunskap om datorer och formella språk
• Språkteknologi
 Specialiserade tekniker som kombinerar
lingvistik och datavetenskap
19
Lingvistik
• Delområden
 Fonetik, fonologi, grafonomi – tal och skrift
 Morfologi och syntax – ord och meningar
 Semantik och pragmatik – betydelse och bruk
• Kurser på programmet
 Lingvistik I (1)
 Grammatik för språkteknologer (1)
 Semantik och pragmatik (2)
 Fonetik I (4)
20
Datavetenskap
• Delområden
 Programmering
 Matematisk modellering
 Maskininlärning
• Kurser på programmet
 Introduktion till datateknik för språkvetare (1)
 Matematik för språkteknologer (2)
 Programmering för språkteknologer I (2)
 Maskininlärning i språkteknologi (3)
 Programmering för språkteknologer II (3)
21
Språkteknologi
• Delområden:
 Bastekniker (tal/skrift, morfologi, syntax, semantik)
 Praktiska tillämpningar
• Kurser på programmet







Introduktion till språkteknologi (1)
Grundläggande textanalys (2)
Syntaktisk analys i språkteknologi (3)
Semantisk analys i språkteknologi (3)
Talteknologi* (4)
Maskinöversättning (4)
Informationssökning (4)
22
Den här kursen
• Introduktion med fokus på tillämpningar
 Skrivstöd
 Språkinlärning
 Informationssökning
 Textklassificering
 Dialogsystem
 Maskinöversättning
• Språkteknologiska tekniker
 Tas upp för relevanta tillämpningar
 Övas i praktiska laborationer
23