Transcript Problems

Ordgruppering i talspråkskorpus
Ordgruppering i talad dialog
Leif Grönqvist & Magnus Gunnarsson
Presentation på OFTI 20 (2002)
21/9 - 2002
OFTI 20 - Leif & Magnus
1
Bakgrund




NordTalk and SweDanes:
Jens Allwood, Elisabeth Ahlsén, Peter Juel
Henrichsen, Leif & Magnus
Två jämförbara korpora: en svensk och en dansk
1,3 miljoner ord vardera, naturligt talspråk
Vi är intresserade av talspråk snarare än
skriftspråk
21/9 - 2002
OFTI 20 - Leif & Magnus
2
Peter Juel Henrichsens idéer



Ordtyper som ofta förekommer i liknande
kontext kallas siblings
Några ordpar bestående av ett danskt och ett
svenskt ord med nästan identisk betydelse väljs
ut och kallas cousins
Grupper av siblings tillsammans med de
manuellt utvalda kusinerna används för att
automatiskt generera fler kusiner
21/9 - 2002
OFTI 20 - Leif & Magnus
3
Siblings som ordgrupper





Vi utgår från Peters definition av siblings
Vi vill inte använda traditionella ordklasser
eftersom de är utvecklade för skriftspråk. Vissa
talspråksfenomen saknas helt enkelt.
Som enda indata använder vi korpusen
Vi tittar på en liten kontext: 1+1 ord
Inga lexikon eller morfologisk analys
21/9 - 2002
OFTI 20 - Leif & Magnus
4
Peters formel för Siblings
21/9 - 2002
OFTI 20 - Leif & Magnus
5
Våra justeringar av sibling-måttet


Symmetri: ggsib(x1, x2)= ggsib(x2, x1)
Siblings kan i vissa fall ha annorlunda högerkontex
men nästan identisk vänsterkontext
21/9 - 2002
OFTI 20 - Leif & Magnus
6
Träd istället för grupper

1.
2.
3.
Ggsib-måttet används iterativt:
Räkna ut ggsib mellan samtliga ordpar över en
bestämd frekvenströskel
Ordpar med ggsib-värde över en tröskel Sth
läggs i en lista L
För varje par i L: byt ut alla förekomster av
orden i korpusen mot det vanligare
21/9 - 2002
OFTI 20 - Leif & Magnus
7
Träd istället för grupper (forts)
4.
5.
Om L är tom: minska Sth lite
Kör från steg 1 igen om Sth inte kommit ner till
ett förbestämt slutvärde
Resultatet av detta kan tolkas som träd!
21/9 - 2002
OFTI 20 - Leif & Magnus
8
Ett exempelträd
21/9 - 2002
OFTI 20 - Leif & Magnus
9
Implementation



Egentligen ganska enkelt att implementera: Peter
gjorde ett litet program i Perl
Men… Tyvärr tar ett iterationssteg ca 100
timmar med ett Perlprogram
Vi gjorde därför ett optimerat C-program som
kan köra 100 iterationer på mindre än 100
timmar
21/9 - 2002
OFTI 20 - Leif & Magnus
10
Most important optimizations
Starting point: we have enough memory but
not enough time



A compiled low level language instead of an
interpreted high level
Frequencies for words and word pairs are stored
in letter trees instead of hash tables
Try to move computation and counting out in
the loop hierarchy
21/9 - 2002
OFTI 20 - Leif & Magnus
11
Optimizations (letter trees)



Retrieving information from the letter trees is
done at constant time to the size of the lexicon
(compared to log(n) for hash tables)
But in linear time to the average length of the
words, but this is constant when the lexicon
grows.
Another drawback: our example needs 1GB to
run (each node in the tree is an array of all
possible characters), but who cares.
21/9 - 2002
OFTI 20 - Leif & Magnus
12
Optimizations (more)


An example of moving computation to an outer
loop is to calculate the set of all context words
once, and use it for comparisons with all other
words
The set may be stored as an array of pointers to
nodes (between words in word pairs) in the letter
tree
21/9 - 2002
OFTI 20 - Leif & Magnus
13
Pronomen
21/9 - 2002
OFTI 20 - Leif & Magnus
14
Lågfrekventa ord
21/9 - 2002
OFTI 20 - Leif & Magnus
15
Vad är det för grupper?



Ingen a priori definition, som ordklasser e.dyl.
Approximation av syntaktisk funktion.
Synonymer?
21/9 - 2002
OFTI 20 - Leif & Magnus
16
Utvärdering







Ingen ”gold standard”.
Stämmer med intuition.
Fungerar även för synkategorematiska ord.
Uttalsvarianter avslöjas.
Instabilt för lågfrekventa ord och
”helyttrandeord”
Homonymer problematiskt.
När är grupperingen klar?
21/9 - 2002
OFTI 20 - Leif & Magnus
17
Slutsatser




Metoden är ett intressant sätt att hitta
ordgrupper.
Fungerar för alla sorters ord (synkategorematiska
såväl som kategorematiska).
Problem med lågfrekventa ord, ”helyttrandeord”
och homonymer.
Beräkningseffektivt?
21/9 - 2002
OFTI 20 - Leif & Magnus
18
Fortsatt forskning



Jämföra med andra klustringsmetoder.
”Använda” grupperna.
Hitta sätt att ”sluta i rätt tid”.
21/9 - 2002
OFTI 20 - Leif & Magnus
19
21/9 - 2002
OFTI 20 - Leif & Magnus
20
Funna grupper: färgord
21/9 - 2002
OFTI 20 - Leif & Magnus
21
21/9 - 2002
OFTI 20 - Leif & Magnus
22
”Kognitionsverb”
21/9 - 2002
OFTI 20 - Leif & Magnus
23
Återkopplingsord
21/9 - 2002
OFTI 20 - Leif & Magnus
24
Riktningsadverb
21/9 - 2002
OFTI 20 - Leif & Magnus
25