Taal, intelligentie en betekenis

Download Report

Transcript Taal, intelligentie en betekenis

Taal, intelligentie
en betekenis
Piek Vossen
Irion Technologies/Vrije Universiteit Amsterdam
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Taal en intelligentie
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
kantoortijden
24/7
Telefoon
burger
gemeente



GemeenteConnect
Momenteel: meer dan 80% van de telefonische
vragen in vrije tekst worden beantwoord!
GemeenteConnect is juli 2007 in gebruik genomen
door de gemeente Gilze & Rije
Gebruikt natuurlijke taal maar is het intelligent?
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Taal en intelligentie

Mechanisering van de mens:


Kunnen computers intelligent gedrag vertonen?


Descartes (17de eeuw): Discours de la Méthode
 machine met menselijk lichaam en gedrag en uitingen
die correleren met bewegingen en veranderingen in
organen
 MAAR die machine zal nooit betekenisvolle antwoorden
kunnen geven op talige vragen vergelijkbaar met de
antwoorden van de meest domme persoon
Alan Turing (1950): Turing test is een taaltest
Kunnen computers daadwerkelijk met mensen
communiceren?

John Searl (1990): Chinese room experiment is een
taaltest
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Alan Turing: een intelligentietest voor
computers






Zonder visueel contact
Communicatie in natuurlijke taal met een andere
persoon en met een computer.
Je mag vragen wat je wil
Wie is de computer and wie is de mens?
Turing dacht dat het 50 jaar zou duren voor dat
computers redelijk zouden scoren op deze test.
Maakt het niet uit hoe de computer er in slaagt om
de ondervrager ‘voor de gek te houden’.
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
John Searl: domme machine kan toch
slagen voor de test

Chinese Room Experiment:




Iemand die geen Chinees spreekt zit opgesloten in een
kamer
Een spreker van het Chinees stelt vragen in het Chinees
op een stuk papier en geeft die door een opening zonder
verder contact aan de persoon in de kamer
De persoon in de kamer stelt een antwoord op in de vorm
van een reeks Chinese karakters door de instructies op te
volgen uit een handleiding in zijn eigen taal, zonder verder
begrip van het onderwerp
De Chinese spreker zal de indruk hebben dat de
persoon in de kamer hem begrijpt en Chinees
spreekt
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Menselijke dialoog zonder begrip

Eliza





Jospeh Weizenbaum: http://www-ai.ijs.si/eliza/eliza.html
Parafraseert wat iemand intypt
Wekt de illusie dat je praat met een heel geduldige en
vriendelijke therapeut.
Eliza is bedoeld als een parodie.
Alice bot:


Animated characters: http://www.alicebot.org/
Meer animatie, meer begrip maar niet nuttig
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Nutteloze dialoog met Alice-bot
Vaagheid en meerduidigheid is inherent aan
taal


Taal medieert tussen de verwachtingen van de
Spreker en de Hoorder => een half woord is genoeg
Taal is nooit volledig descriptief maar minimaal
voldoende:


Geen onnodige informatie die al bekend is => gaat uit van
achtergrondkennis
Minimale set van woorden en uitdrukkingen om geheugen
te ontlasten => woorden en uitdrukkingen hebben
meerdere betekenissen
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Echt begrip is fundamenteel onmogelijk
Concept in ons hoofd
knuffeldier
konijn
met
worteltjes en
rozemarijn
goddelijke
verschijning ter
aankondiging
van de lente
"gavagai"
Plato met baard
W.V.O.Quine (1964): inscrutability of reference
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Het is onmogelijk om betekenis
formeel te definiëren maar:



Mensen communiceren...
Mensen communiceren met computers...
Als taal maar effectief is:

betekenis = het gewenste effect hebben !

Link taal aan bruikbare inhoud !
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Het heeft zin om betekenis te
verankeren!
Verankering vindt al plaats overal op de wereld door
standaardizatie:




maten en eenheden: meter, liter, kilo
terminologische databases, juridische definities, contracten
internationale samenwerking
ontologieën: definitie van betekenis van concepten in een
formeel kennisrepresentatie systeem, (1st order logic) zodat
een computer ermee kan redeneren
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Hoe kunnen we de betekenis van woorden
verankeren?

Aan elkaar:


semantic network or wordnet
Aan logische implicaties:

een formele ontologie
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Relationeel model van betekenis
animal
kitten
animal
man
boy
man
woman
cat
dog
cat
girl
boy
girl
kitten
puppy
dog
puppy
woman
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Wordnet van semantisch gerelateerde
woorden

Ontwikkeld door George Miller en zijn team aan de
Princeton University, als de implementatie van een
model van het mentale lexicon

Notie van een synset: set van synoniemen in een
taal die samen een concept vormen

Semantische relaties tussen concepten

115,000 concepten en 130,000 Engelse woorden
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Wordnet van semantisch gerelateerde
woorden
{conveyance;transport}
{vehicle}
{motor vehicle; automotive vehicle}
{car mirror}
{armrest}
{car door}
{doorlock}
{car; auto; automobile; machine; motorcar}
{bumper}
{car window}
{cruiser; squad car; patrol car;
police car; prowl car}
{cab; taxi; hack; taxicab}
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
{hinge;
flexible joint}
Wordnet familie
Fahrzeug
1
Auto Zug
voertuig
1
vehicle
ENGLISH
Car
…
Train
…
Vehicle
1
car
train
2
English Words
3
vehículo
1
Inter-Lingual-Index
auto tren
veicolo
2
Spanish Words
auto treno
dopravní prostředník
auto
1
2
Czech Words
vlak
2
German Words
2
Dutch Words
1
liiklusvahend
auto
3
véhicule
voiture
1
2
Italian Words
auto trein
1
train
2
French Words
killavoor
2
Estonian Words
Van EuroWordNet naar Global WordNet



Global Wordnet Association:
http://www.globalwordnet.org
Bi-annual conference: India (2002), Czech (2004),
Korea (2006), Hungary (2008), ....
Op dit moment zijn er wordnets voor meer dan 40
talen, waaronder:
Arabic, Bantu, Basque, ...., Chinese, Bulgarian, Estonian,
Hebrew, ...., Icelandic, Japanese, Kannada, Korean,
Latvian, Latin, ....Nepali, Persian, Romanian, Sanskrit,
Tamil, Thai, Turkish, .... Zulu


Veel talen genetisch en typologisch ongerelateerd
Woorden verankerd aan elkaar en alle wordnets aan
het Engels
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Engels als Inter-Lingual Index

Many-to-many relaties



Dutch:
versiersel near_synonym versiering
English: decoration.
Gaps in het Engelse WordNet:

genuine, cultural gaps: onbekend in de Engelse cultuur:


pragmatic gaps: het concept is bekend maar niet uitgedrukt door
een gelexicaliseerde uitdrukking in het Engels:



Dutch: klunen, to walk on skates over land from one frozen water
to the other
Dutch: kunstproduct = artifact substance <=> artifact object
Dutch: koffiewater, theewater = water for making coffee or tea
CONCLUSIE: lexicon van een taal is geen goed uitgangspunt omdat de
relaties tussen woorden en uitdrukkingen te complex zijn en te taalspecifiek
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Nadelen van het model





Constructie is niet uniform
Dekking verschilt
Veel van de kennis is dubbel
Geen duidelijke scheiding wereldkennis en talige kennis
Complexe en obscure equivalentie relaties als gevolg
van de linguïstische verschillen tussen Engels en andere
talen
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Next step: Global WordNet Grid
Auto Zug
Inter-Lingual
Ontology
vehicle
voertuig
1
auto trein
1
car
Object
train
2
1
Device
3
TransportDevice
véhicule
auto tren
veicolo
voiture
1
auto treno
dopravní prostředník
2
Italian Words
auto
1
vlak
2
Czech Words
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
liiklusvahend
auto killavoor
3
vehículo
1
Spanish Words
2
German Words
Dutch Words
2
English Words
2
Fahrzeug
1
1
train
2
French Words
2
Estonian Words
Global Wordnet Grid


Formele, kunstmatige ontologie die dient als een
universele index van betekenis
De lijst van concepten is niet alleen gebaseerd op de
woorden van een enkele taal maar op grond van
ontologische observaties:




Lexicalizatie in een taal is niet voldoende reden om een concept op
te nemen in de ontologie
Lexicalizatie in alle of veel talen kan voldoende zijn
Concepten gerelateerd in een type hierarchie
Concepten gedefiniëerd met axioma's: Knowledge
Interchange Format (KIF) gebaseerd op first order
predicate calculus en atomaire elementen
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Concepten door ontologische observatie


Specieke honden in Wordnet:
 bokser; mopshond; pekinees; poedel; teckel
 pup; reu; teef
 straathond; blindengeleidehond; bullebijter;
diensthond; gashond;
jachthond;lawinehond;schoothond;waakhond
Gebruikt identiteitscriteria om te bepalen wat de
dingen in de werkelijkheid zijn, bijv.:
 rigiditeit: in wat voor mate zijn eigenschappen waar in
alle mogelijke werelden?


Een mens ben je altijd, een student, reiziger kun je tijdelijk
zijn.
Je bent of een teckel of een poedel, maar iedere teckel en
poedel kan ook een waakhond zijn, of een schoothond.
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Ontologie versus wordnet/lexicon
Taalonafhankelijke hiërarchie van (Semi-)rigide
types:

Canine  PoodleDog; NewfoundlandDog; GermanShepherdDog;
Husky

Wordnet:

NAMES for TYPES:
{poodle}EN, {poedel}NL, {pudoru}JP
 ((instance x Poodle)

LABELS for ROLES:
{watchdog}EN, {waakhond}NL, {banken}JP
((instance x Canine) and (role x GuardingProcess))
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Eigenschappen van de ontologie




Minimaal: termen onderscheiden op grond
van essentiële eigenschappen
Compleet: omvat alle distinctieve concepten
van alle talen
Accepteert definities in KIF van alle
woorden die niet-rigide, niet-essentiele
eigenschappen benoemen
Logisch valide: maakt redeneren mogelijk
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Ontologie versus Wordnet

Niet toevoegen aan de type hierarchie:
{straathond}NL (a dog that lives in the streets)
 ((instance x Canine) and (habitat x Street))

Toevoegen aan de type hierarchie:
{klunen}NL (to walk on skates from one frozen body to
the next over land)
KluunProcess => WalkProcess
Axioms:
(and (instance x Human) (instance y Walk) (instance z
Skates) (wear x z) (instance s1 Skate) (instance s2
Skate) (before s1 y) (before y s2) etc…

Nationale gerechten, gewoontes, spelen,....
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Meeste woorden zijn geen typen

en {rivierwater}NL vele andere
woorden voor water:
{zeewater}NL
{theewater}NL (water used for making tea)
{koffiewater}NL (water used for making coffee)
{bluswater}NL (water used for making extinguishing
file)

Linguïstische eigenaardigheden:

gender, perspective, aspect, diminutives,
politeness, pejoratives, part-of-speech constraints
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
KIF expressies voor markering van
geslacht
{teacher}EN
((instance x Human) and (agent x
TeachingProcess))



{Lehrer}DE ((instance x Man) and (agent x
TeachingProcess))
{Lehrerin}DE ((instance x Woman) and
(agent x TeachingProcess))
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
KIF expressies voor perspectief
sell: subj(x), direct obj(z),indirect obj(y)
buy: subj(y), direct obj(z),indirect obj(x)
FinancialTransaction
(and (instance e FinancialTransaction) (instance x
Human)(instance y Human) (instance z Entity)
(source x e) (destination y e) (patient z e)
Hetzelfde proces maar een ander perspectief door
subject en object realizaties: marry in Russisch 2
wwoorden, apprendre in het Frans voor zowel teach als
learn
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Voordelen van de Global Wordnet
Grid

Gedeelde en uniforme wereldkennis:




universele inferenties
uniforme tekstanalyse en -interpretatie
Meer compacte en minder redundante
databases
Duidelijk hoe taal relateert aan kennis:


betere criteria voor de expressie van kennis
betere criteria om variatie te ondervangen
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Mogelijkheden voor taaltechnologie
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Gedachte
Objecten
in werkelijkheid
Ontologie
携帯電話
(keitaidenwa )
Tekst
Kennis &
informatie
Uitdrukking
Bruikbaar en effectief gedrag:
-redeneer over kennis
-verzamel informatie en data
-lever nuttige diensten
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Taaltechnologie: a hole in one!
golf
club(s)
thesaurus
Linguistische
analyse
golf
clubs
Synoniemen,
Wordnets
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Expansie met zuivere hyponymierelaties
hond
jachthond
pup
reu
teckel
schoothond
straathond
poedel
teef
waakhond
kortharige
teckel
langharige
teckel
Expansie van type naar rollen
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Expansie met zuivere hyponymierelaties
hond
jachthond
pup
reu
teckel
schoothond
straathond
poedel
teef
waakhond
kortharige
teckel
langharige
teckel
Expansie van rol naar types en andere rollen
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Automotive ontology: (http://www.ontoprise.de)
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Wie gebruikt ontologische kennis?
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Dialoog systeem
Vraag
Analyse
Dialoog
Manager
Zoek
Machine
Onderwerps
typering
• Kan ik u helpen?
• Mijn koptelefoon is kapot.
• Wilt u reparatie of producten?
Woord
Concept
informatie
producten
mobiel
accessoires
koptelefoon
reparatie
• Ik wil een nieuwe kopen.
• Kunt u meer vertellen over de producten?
• Het is voor mijn GSM
• Kun je meer details geven?
• Het is een Nokia 6110
• Ik heb de volgende accessoires voor u.
Bekijk ze eens.
• Dat is niet wat ik zoek!
Gebruikers
Model
-Intentie
-Satisfaction
-Emotie
Informatie
Staat:
-Positief
-Negatief
-Relaties
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Tekst
Analyse
Website
Communicatief dialoogsysteem

Voorkomt deadlocks (hopeloos vastzitten):




Detecteert vaagheid en ambiguïteit (welke betekenis van band?)
Detecteert veranderingen van onderwerp
Gebruikt negatieve informatie: “Geen muziekband, ik zoek
fietsbanden!”
Kan out-of-domain vragen aan (gebruikers weten niet wat het
systeem weet):


"We hebben geen hotelkamers maar wel electronische apparaten".
"Nee, we hebben geen portofoons maar wel andere elektronische
apparaten zoals mobiele telefoons"
ruimte
kamer
hotelkamer
voorwerp
apparaat
mobiele telefoon portofoon
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Dank u voor uw aandacht
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Engels als Inter-Lingual-Index


Wat is een woord en wat is een concept?
Engelse lexicalisatie patronen:



Is ieder woord ook een concept?


fijnstampen; fijnwrijven; fijnknijpen
Is iedere woordcombinatie ook een concept?



knippen = cut with scissors
snijden = cut with knife
kunstmatige producten => artifacts in het Engels
gebruiksvoorwerpen om iets te bevatten =>
containers in het Engels
CONCLUSIE: lexicon van een taal is geen goed uitgangspunt omdat
de relaties tussen woorden en uitdrukkingen te complex zijn en te
taalspecifiek
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007
Indexeer concepten i.p.v woorden

Betekenis van een woord in context:

Onderwerp van een document:


Juventus => football
Onderwerp van een paragraaf/zin:
transfer scandal => business, crime
Frase (linguistically-motivated combination of words):
 [wing player]football player in [police cell]jail
 [chicken wings]dish



Onderwerp van een vraag:

Can I order chicken wings? => food
45ste Lustrum van het Natuur- en Letterkundig
Genootschap Physica, 27 Oktober 2007