VerbNet - profs.info.uaic.ro

Download Report

Transcript VerbNet - profs.info.uaic.ro

Semantica și
pragmatica
limbajului natural
Daniela Gîfu
[email protected]
Cursul nr. 8
Tezaur lingvistic
Tezaur lingvistic – Definiție
• - un tip de dicţionar în care cuvintele cu sensuri
asemănătoare sunt grupate la un loc (cf. Online
Cambridge Dictionary).
• - totalitatea cuvintelor unei limbi (fr., lat.,
thesaurus) – cf. www.archeus.ro, sursă neoficială?!
• - o «Catedrală a Neamului» în materie de
lingvistică, deşi, în esenţă, aş putea spune că nu este
vorba doar de lingvistică, ci şi de patrimoniul
spiritual în sensul cel mai larg şi mai adânc",
George Pruteanu, despre "Dicţionarul Academiei".
Tezaurul Roget - istoric
• http://thesaurus.com/browse/home
• 1805 - Peter Mark Roget, un medic, a început să
clasifice în scris termenii și expresiile pentru uzul
său personal.
• 1852 – prima publicare a Tezaurului Roget (15.000
cuvinte).
• a cunoscut adăugiri succesive (urmaşi ai lui Roget,
alţi specialişti), ultima ediție, 1987, peste
1.250.000 de cuvinte (v. Kendall, 2008).
Tezaurul Roget - descriere
 organizarea materialului lingvistic - în clase;
 fiecare clasă - o ierarhie internă, asemănătoare unui
arbore cu multiple ramificaţii pentru grupuri de
sensuri.
 scopul – să faciliteze găsirea cuvintelor înrudite
semantic (sinonime, antonime, hiperonime,
hiponime) şi să ajute la alegerea celui mai potrivit
cuvânt pentru exprimarea sensului dorit de
utilizator.
Tezaurul VerbNet
VerbNet (Kipper , 2005) - una dintre resursele lexicale dezvoltate
pentru limba engleză. Este un lexicon independent, care oferă
informații semantice și sintactice despre verbele englezesti.
VerbNet constă în clase verbale Levin (Levin, 1993); mapări la
Princeton WordNet (WordNet.Pr ) ( Fellbaum, 1998) .
- în special pentru cadre semantice (verbele aparțin mai multor
clase VerbNet, fiecare clasă corespunde unui sens difierit al
verbului).
- un clasificator VerbNet - esențial pentru aplicațiile curente
folosind resurse; poate constitui baza pentru un sistem de analiză
semantică profundă.
- etichetarea cadrelor verbale - o precizie de 88.67%, cu verbe
MultiClass, care este o reducere a erorii cu 49% a celor mai
frecvente clase de bază.
Descriere VerbNet
• http://verbs.colorado.edu/~mpalmer/projects/verbnet.html
VerbNet Annotation Guidelines
1. Why Verbs?
2. VerbNet: A Verb Class Lexical Resource
3. VerbNet Contents
a. The Hierarchy
b. Semantic Role Labels and Selectional Restrictions
c. Syntactic Frames
d. Semantic Predicates
4. Annotation
Guidelines
a. Does the Instance Fit the Class?
b. Annotating Verbs Represented in Multiple Classes
c. Things that look like verbs but aren’t: Nouns; Adjectives
d. Auxiliaries
e. Light Verbs
f. Figurative Uses of Verbs
VerbNet: A Verb Class Lexical Resource
• 5800 verbe și grupuri verbale (En)
• 270 clase verbale, după clasificarea lui Beth Levin:
o sg. clasă de verbe – locative alternation (spray verbs) or the
causative alternation (wrinkle verbs) etc.
Ex: spray class 9.7 (scatter, pump, hang, drizzle, cram - verbe
care implică același tip de acoperire semantică).
Componente ale claselor verbale VerbNet
Componente ale claselor verbale VerbNet
Componente ale claselor verbale VerbNet
Componente ale claselor verbale VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia verbelor - VerbNet
Ierarhia unei clase verbale - VerbNet
Componentele unei clase verbale VerbNet
Ex: clasa 9.7 – nu conține membri, dar cu cadre de la alte verbe
Componentele unei clase verbale VerbNet
Roluri semantice și restricții
Roluri semantice - "cine, ce, cum, când și unde?“
Ex:
a. Sandy shattered the glass.
b. The glass shattered.
a. [Sandy] shattered [the glass.]
[AGENT]
[PATIENT]
b. [The glass] shattered.
[PATIENT]
Restricțiile pot fi combinate cu operatori ca: (OR) și (AND).
Aceste restricții indica existenta (+)
sau absența (-) de proprietăți, cum ar fi:[CONCRETE],
[ANIMATE], [ORGANIZATION] etc. –
o parte a etichetei rolului semantic al unei clase specifice.
Roluri semantice și restricții
Roluri semantice și restricții
Rolul semantic Stimulus –
ex. în ambele clase verbale: peer-30.3 and addict-96
Tabel – Roluri semantice în VerbNet
Tabel – Roluri semantice în VerbNet
Tabel – Roluri semantice în VerbNet
Tabel – Roluri semantice în VerbNet
Tabel – Roluri semantice în VerbNet
Alinierea la alte limbi - Brazilia
• Dezoltare - Carolina Evaristo Scarton & Sandra Maria Aluísio,
Center of Computational Linguistics (NILC), Universidade de
São Paulo (USP).
• De ce?: construirea de interpretoare semantice (Shi și Mihalcea,
2005); dezambiguizare de sens (Girju et al, 2005) etc.
• Studii lingvistice (Cancado, 1996, Ávila, 2006, Ciriaco, 2007,
Moraes, 2008, Godoy, 2009; Amaral, 2010 ).
• scop - crearea VerbNet - Br, o resursă lexicală pentru portugheză
braziliană, cu aceleași caracteristici ca la VerbNet.
• tehnici de dezvoltare - învățare automată pe un corpus de
antrenare (Merlo et al, 2002; Joanis și Stevenson, 2003; Ferrer,
2004; Kipper et al, 2006 etc.) și reutilizarea resurselor dezvoltate
în altă limbă (engleză), v. clasele Levin (Jackendoff , 1980;
Merlo et al , 2002; Du et al , 2010).
Linkuri – WordNet – Br.
• VerbNet - A Class-Based Verb
Lexicon: http://verbs.colorado.edu/~mpalmer/projects/verbn
et.html
• Unified Verb Index: http://verbs.colorado.edu/verbindex/index.php
• Automatic extraction of SCF for
Portuguese: http://143.107.232.109/scf_port/
Alinierea la alte limbi - România
• România
• Implementarea – FII & Academia Română.
• Unde? – a început la Tabăra de toamnă
EUROLAN-2013, Ipotești.
• Temă – clasă. Se instalează NotePad++
EDTLR – 85.122.23.96
alinierea cadrelor din clasificatorul de verbe
VerbNet (En) la VerbNet (Ro)
E-DTLR
Referințe bibliografice
• Kendall, Joshua C. (2008) The Man Who Made Lists : Love,
Death, Madness, and the Creation of Roget’s Thesaurus, G. P.
Putnam’s Son, New York.
• Barbu Mititelu, V., Ceauşu, Al., Ion, R., Irimia, E., Ştefănescu, D.,
Tufiş, D. (2009) Resurse lingvistice pentru un sistem de întrebarerăspuns pentru limba română, Revista Română de Interacţiune
Om-Calculator 2, pp. 1-17.
• Amaral, L. L. (2010): O Verbos de Modo de Movimento no
Português Brasileiro. 53f. Trabalho de Conclusão de Curso
(Bacharel em Letras) – Faculdade de Letras, Universidade Federal
de Minas Gerais, Belo Horizonte.
• Ávila, M. C. (2006): Propriedades semânticas e alternâncias
sintáticas do verbo: um exercício exploratório de delimitação do
significado. 114f. Dissertação (Mestrado em Letras) – Faculdade
de Ciências e Letras, Universidade Estadual Paulista, Araraquara.
41
Referințe bibliografice
• Cançado, M. (1996): Verbos Psicológicos: Análise
Descritiva dos Dados do Português Brasileiro. Revista de
Estudos da Linguagem, v. 4, n. 1, pp. 89-114.
• Ciríaco, L. S. (2007): A alternância causativo/ergativa no
PB: restrições e propriedades semânticas. 114f. Dissertação
(Mestrado em Linguística) – Faculdade de Letras,
Universidade Federal de Minas Gerais, Belo Horizonte.
• Fellbaum, C. (1998). WordNet: An electronic lexical
database. MIT Press. Cambridge, Massachusetts.
• Ferrer, E. E. (2004): Towards a semantic classification of
Spanish verbs based on subcategorisation information. In
Proceedings of the Workshop on Student research
(ACLstudent 2004), in conjunction with ACL 2004.
Barcelona, Espanha.
Referințe bibliografice
• Girju, R., Roth, D. e Sammons, M. (2005): Token-level
disambiguation of VerbNet classes. In Proceedings of
Interdisciplinary Workshop on the Identification and
Representation of Verb Features and Verb Classes.
Saarbruecken, Germany.
• Godoy, L. (2009): Verbos Psicológicos: Análise Descritiva dos
Dados do Português Brasileiro. ALFA – Revista de Linguística,
v. 53, n. 1, pp. 283-299.
• Jackendoff, R. (1990): Semantic Structures. MIT Press.
Cambridge, Massachusetts.
• Joanis, E. e Stevenson, S. (2003): A general feature space for
automatic verb classification. In Proceedings of the 10th
conference on European chapter of the Association for
Computational Linguistics (EACL 2003). Budapest, Hungria,
pp. 163-170.
Referințe bibliografice
• Kipper, K. (2005): Verbnet: A broad coverage, comprehensive
verb lexicon. 146f. Ph.D. Thesis (Philosophy) - University of
Pennsylvania, USA.
• Kipper K., Korhonen A., Ryant N. e Palmer, M. (2006):
Extending VerbNet with Novel Verb Classes. In Proceedings of
the 5th International Conference on Language Resources and
Evaluation (LREC 2006). Genoa, Itália.
• Levin, B. (1993): English Verb Classes and Alternation, A
Preliminary Investigation. The University of Chicago Press.
• Merlo, P., Stevenson, S., Tsang, V. e Allaria, G. (2002): A
multilingual paradigm for automatic verb classification. In
Proceedings of the 40th Annual Meeting of the Association for
Computational Linguistics (ACL 2002). Philadelphia, PA,
USA, pp. 207-214.
Referințe bibliografice
• Moraes, H. R. (2008): Aspectos sintaticamente relevantes
do significado lexical: estudo dos verbos de movimento.
171f. Tese (Doutorado em Linguística e Língua Portuguesa)
– Faculdade de Ciências e Letras, Universidade Estadual
Paulista, Araraquara.
• Shi, L. e Mihalcea, R. (2005): Putting pieces together:
Combining FrameNet, VerbNet and WordNet for robust
semantic parsing. In Proceedings of 6th International
Conference on Computational Linguistics and Intelligent
Text Processing (CICLing 2005). Cidade do México,
México, pp. 99-110.
• Zanette, A. (2010): Aquisição de Subcategorization
Vă mulţumesc!