prezentacja PowerPoint - Instytut Podstaw Informatyki PAN

Download Report

Transcript prezentacja PowerPoint - Instytut Podstaw Informatyki PAN

Projekt systemu ram semantycznych
w słowniku Walenty
Anna Andrzejczuk, Elżbieta Hajnicz, Natalia Kocyba
Instytut Podstaw Informatyki PAN
Cel projektu
Rozbudowa słownika walencyjnego
o poziom semantyczny
Zasoby wykorzystywane w projekcie
Walenty (poziom składniowy)
Słowosieć
Składnica frazowa
wzbogacona o poziom semantyczny
Terminy
hasło słownikowe
jednostka leksykalna
predykat
argument (semantyczny)
rola semantyczna
preferencje selekcyjne
rama semantyczna
<<R1,P1>, …, <Rn, Pn>>
Czym są role semantyczne?
• Definicja: typy uczestników sytuacji, które zachowują te same
własności semantyczne w różnych realizacjach składniowych.
• Terminy: deep case, semantic case, thematic role, theta role, θ-role,
a także protorole, macrorole
Przykłady:
1) Jan (A1) biegnie.
2) Jan (P1) śpi.
3) Jan (A2) złapał ptaka (P2).
PL: Jest mi (dat) zimno.
DE: Mir (dat) ist kalt. vs EN: I (nom) am cold.
Praktyczne wykorzystanie
• Tworzenie gramatyk formalnych, parsowanie
semantyczne
• Pomoc w dezambiguacji morfoskładniowej:
Białe albo różowe
kwiatki [kwiatek:subst:pl:nom:m3] zapylają owady.
Pszczoły [pszczoła:subst:sg:gen:f] zapylają kwiaty i t
o nie podlega[...]
pomidory [pomidor:subst:pl:nom:m3] zapylają trzm
iele, a o zdrowie [...]
http://nkjp.pl/poliqarp/nkjp-full/query/
Preferencje selekcyjne
• ~ ograniczenia semantyczne (Verbnet)
• ograniczenia (tendencje) na realizacje
leksykalne dla poszczególnych par
argument/rola
• zwykle wysoki poziom abstrakcyjności:
żywotne/nieżywotne; osoba;
• czasami bardzo mocne ograniczenie: pływać
(płyn), pić, jeść, grabić (grabie)
Typowy zestaw ról
•
•
•
•
•
•
•
•
•
•
•
•
•
Agens: Jan bierze, rozbija, buduje.
Paciens: Jan śpi, choruje, starzeje się, rąbie drzewo; ściana runęła.
Experiencer (doświadczający): Jan zobaczył, poznał kogoś; Jan boi się czegoś.
Stimulus (bodziec): Jan czyta książkę; zobaczył ptaka.
Adressee: opowiedział Janowi bajkę; pokazał gościowi pokój
Recipient (odbiorca): dać Piotrowi, Piotr otrzymał coś
Beneficient: uszyto mundur żołnierzowi; osiołkowi skradziono ogon; zachorowała
mu córka/jego córka;
Instrument: młotkiem, na warsztacie tkackim
Cause (przyczyna): Stefan ucieszył się na wiadomość; strach pędził go w
niewiadome; z powodu deszczu nie odbył się mecz; przez ciebie się spóźnimy;
Source (źródło): z domu; stąd
Goal (cel): do komory; w dom
Trace (ścieżka): przez las; lasem; po moście
Location (miejsce): w Polsce; na werandzie; winda mieści 14 osób.
Wymogi do zestawu ról
• Pełność: każdy argument każdego czasownika ma jakąś
rolę.
• Niepowtarzalność: każdy argument każdego
czasownika ma przypisaną tylko jedną rolę.
• Odróżnialność: każdy argument każdego czasownika
odróżnialny od innych argumentów za pomocą
przypisanej mu roli.
Mocna: obowiązuje niepowtarzalność
Słaba
• Niezależność: rola nie zależy od znaczenia konkretnego
czasownika i innych ról.
Istniejące zestawy ról
• Ilość: od 2 (protorole Dowty’ego) do ponad 1000
(FrameNet)
• Role luźne (Verbnet) bądź w zestawie ramy
semantycznej (FrameNet)
• Wyjście od leksykonu czy od tekstu
• Lista czy hierarchia (Sowa, cz. FrameNet)
• Cechy binarne (Sowa)
• Oparcie na składni (Verbnet)/funkcjach
gramatycznych (RRG)/tylko na semantyce
(FrameNet)
Werdykt LRH-2005
• „It is not possible to impose
any structure over the set of
semantic roles that can
account for similarities in
patterning or dependencies
in cooccurrence. The small
set of unanalyzed roles that
characterizes an ideal
semantic role approach,
then, is incompatible with
linguistic reality.” (Levin and
Rappoport-Hovav 2005,
s.42)
• No generally accepted tests
Dlaczego nie FrameNet?
• Duża ilość ról robi wnioskowanie
niepraktycznym
• Trudności w ustalaniu niuansów znaczeń w
obu językach
• Robiony metodą od tekstu/korpusu
Dlaczego nie Verbnet?
• Oparty na klasyfikacji czasowników Levin-1993, gdzie
grupy były przypisywane na podstawie podobieństwa
alternacji składniowych. Mimo że składnia i semantyka
idą w parze, potrafią się rozejść w najmniej
spodziewanych miejscach, np. czasowniki 'say' i 'tell' w
klasyfikacji Levin są w różnych grupach.
• Oparcie klasyfikacji na składni robi niepraktycznym
porównywanie grup czasowników z różnych języków na
większą skale (całego leksykonu).
• Zainspirować się i przejąć metodę?
Podejście składniowe
• „Perhaps one of the most vexed issues is the distribution of
verbs across alternations. Verbs that are similar in meaning
do not always show the same alternations, yet despite this
apparent idiosyncrasy, argument alternations can be
extended to new verbs.” (Beth Levin, Malka RappaportHovav „Argument realization”, MIT, 2005, s.5.)
• Wyciąg z Słowosieci, czasowniki kontaktu:
id
level
synset
alt
conv
fnf
dev
causephas
e
laspect
maspect agent
instrument
material location
2369
2 spulchniać 1
obj-loc
n
CAUSE
DZIAŁANI
E
NDK
nom
inst
acc
acc
2370
3 orać 1, zaorywać 1, zorywać 1
obj-loc
plough n
CAUSE
DZIAŁANI
E
NDK
nom
i:inst
acc
acc
2371
4 oborywać 1
n
CAUSE
DZIAŁANI
E
NDK
nom
i:inst
2372
3 gracować 1
obj-loc
n
CAUSE
DZIAŁANI
E
NDK
nom
i:inst:'graca'
acc
acc
2373
3 przekopywać 2, kopać 3,
skopywać 1
obj-loc
n
CAUSE
DZIAŁANI
E
NDK
nom
inst
acc
acc
2374
4 przekopywać 3
obj-loc
n
CAUSE
DZIAŁANI
E
NDK
nom
inst
acc
acc
2375
3 motykować 1
obj-loc
n
CAUSE
DZIAŁANI
E
NDK
nom
i:inst:'motyka'
acc
acc
2376
3 sprężynować 1
obj-loc
n
CAUSE
DZIAŁANI
E
NDK
nom
i:inst:'kultywatorem lub broną
sprężynową'
acc:'rola' acc:'rola'
k
acc
Różnice w opisach tych samych ról
• Kupować
Locatywne teorie: Goal-Theme-Source
FN: Buyer- Goods-Means(karta kredytowa)-Money-Recipient(dla kogo)-Seller (część
ramy)
VN: Agent-Theme-Source; Agent-Theme-Beneficiary
Walenty: Focus_Agent, Focus_Object, Background_Agent, Background_Object:’środki
płatnicze’
Karta kredytowa może być potraktowana jako Instrument
• Mieć (posiadać)
VN: Pivot-Theme
FN: Owner-Possession
Walenty: Beneficiary-Object
• Mieszkać
VN klasa „lodge-46”: Theme-Location
FN rama „inhabit”: Resident-Location-co-Resident
• Istnieć: Theme, Entity, Object
Walenty - poziom semantyczny
• Metarole (atrybuty ról), dla zachowania
niepowtarzalności
• Podwójne role, np. Agent Theme
• Hierarchia ról: grupy Initiator, Undergoer, itd.
• Oparcie na Słowosieci: wiele synsetów sztucznych
łączą wspólne ramy/zestawy ról
• Częściowe oparcie na ramach:
Communicator::Adressee::Content;
Experiencer::Stimulus
• Nowe role: Benefactor, Protagonist, itd.
Podstawowe role semantyczne
Grupa
Grupa
INITIATOR
MEDIUM UNDERGOER
Kontrolujący sytuację
Niekontrolujący
Grupa
Grupa
RESULT
Nieistotne
Ożywione
Nieistotne
Ożywione
Nieistotne
Content
sytuacji
Agent
Cause
Benefactor
Experiencer
Object
Addressee
Cognizer
Effector
Instrument
Perceiver
Pacient
Beneficiary Product
Protagonist
Squirrel
Recipient
Communicator Stimulus
Theme
Material
Role uzupełniające
Attribute
State
Event
-------------------------------------------------------------Source
Goal
Location Path
Time
Duration
Atrybuty ról
Part, Collection
Phase, Scenario
Type, Instance
Background, Focus
PROCEDURA OPRACOWANIA HASŁA
NA PRZYKŁADZIE CZASOWNIKA KUPIĆ (1/3)
PROCEDURA OPRACOWANIA HASŁA
NA PRZYKŁADZIE CZASOWNIKA KUPIĆ (2/3)
PROCEDURA OPRACOWANIA HASŁA
NA PRZYKŁADZIE CZASOWNIKA KUPIĆ (3/3)
Weryfikacja zestawu ról
• Słowosiec, ponad 19 tys. synsetów czasownikowych oznakowane
półautomatycznie z częściowym sprawdzeniem ręcznym, zgodnie z
wcześniejszą wersją zestawu ról
• Asset -> Object:’srodek płatniczy’
• Manipulator -> Agent
• synsety sztuczne, odpowiadające:
a) aspektom leksykalnym (zdarzenie, czynność, działanie, itd.)
b) grupom semantycznym (ruch, posiadanie, kontakt, relacje
temporalne, itd.)
c) cecha kauzatywności
SET agent='nom' WHERE laspect IN(AKT, CZYNNOŚĆ,DZIAŁANIE) and
causephase='CAUSE' and synset NOT LIKE "* się*  6400
• Wyłonienie nowych ról w trakcie weryfikacji koncepcji zestawu
• Sprawdzian dla Słowosieci
• Wersja anotacji do wykorzystania poziomu zgody między anotatorami
Do dyskusji
• Podwójne role, np. Jan (Agent Theme albo Theme) jedzie. W jakim
stopniu narzucone z góry? Cognizer_Communicator: pisać wiersz
• Effector: zarazić, trwonić (domyślne vs możliwe)
• Ramy, role (wzajemnie) sprzężone
[The island]RECIPIENT gets [water]PRODUCT [from collected
rain]MATERIAL.
[The island]RECIPIENT gets [water]THEME [from collected
rain]SOURCE_LOCATION.
- Agent-Product-Material (rama wytwarzania)
- Recipient-Object-*Agent (transakcja)
- Agent-Theme (ruch)
• Scenario: negacja, iteracja, wartościowanie, możliwość,
interpretacja. Jak zapisywać i rozwijać?
Możliwości wnioskowania
• Jan (Agent/Effector) zaraził Piotra grypą.
• Piotr zaraził się od Jana (Source) grypą.
• Trzymać-puścić kubek: Object czy Theme? Negacja ruchu.
• Jan zabił Piotra. Pogrzeb jest jutro. Sąd odbędzie się za dwa miesiące.
• Jan zabił Piotra i teraz jest oskarżany o przestępstwo. Z powodu zabójstwa
Piotra Jan został oskarżony. Oskarżany za zabójstwo.  Scenariusze
• Jan (AGENT) wydawał pieniądze ze spadku aż wszystko (Jan-EFFECTOR))
roztrwonił.  przez relację między czasownikami, czynność vs jej
interpretacja.
• Jan (EFFECTOR) zaraził się wirusem grypy od Piotra i (Jan-EXPERIENCER)
jest teraz chory.
• Jan (EFFECTOR), spadając, stłukł szybę i teraz mu (PATIENT) nakładają szwy.
Literatura
•
•
•
•
•
•
•
•
•
•
Baker, Collin F., and Josef Ruppenhofer. FrameNet's Frames vs. Levin's Verb Classes." Proceedings of
28th Annual Meeting of the Berkeley Linguistics Society. Eds. J. Larson, and M. Paster. 2002. 27-38.
Gruber, J. S. (1965) “Studies in Lexical Relations,” Doctoral dissertation, MIT, Cambridge, MA.
(Reprinted in Gruber 1976: 1–210.)
- (1976) Lexical Structures in Syntax and Semantics, North-Holland, Amsterdam.
Fillmore, C. J. (1968) “The Case for Case,” in E. Bach and R. T. Harms, eds., Universals in Linguistic
Theory, Holt, Rinehart, and Winston, New York, 1–88.
- (1970) “The Grammar of Hitting and Breaking,” in R. Jacobs and P. Rosenbaum, eds. (1970), 120–
33.
- (1977) “The Case for Case Reopened,” in P. Cole and J. M. Sadock, eds. (1977), 59–81.
Jackendoff, R. S. (1972) Semantic Interpretation in Generative Grammar, MIT Press, Cambridge, MA.
- (1990b) Semantic Structures, MIT Press, Cambridge, MA.
Kotsyba, Natalia (2014). „Using Polish Wordnet for Predicting Semantic Roles for the Valency
Dictionary of Polish Verbs”, in Advances in Natural Language Processing. Lecture Notes in Computer
Science, Volume 8686, 2014, pp 202-207.
Levin, B. (1993) English Verb Classes and Alternations: A Preliminary Investigation, University of
Chicago Press, Chicago, IL.
Ela, Ania i Natalia
Communicator
dziękują
Państwu
Addressee
za uwagę.
State