EusPropBankerantz Hastapeneko azterketa

Download Report

Transcript EusPropBankerantz Hastapeneko azterketa

Treebank y anotación
semántica en euskara
Grupo Ixa, UPV-EHU
KNOW. Workshop de sintaxis
Mayo, 2007
Esquema

Treebank:
 Principios
de anotación
 Metodología
 Datos y media

Anotación semántica
 Euskal
wordnet / EuSemcor
 Roles (Euskal propbank)
Treebank. Principios de anotación

Punto de partida:


Corpus anotado manualmente a nivel de
segmentación (cat. subcat., det., num., caso), y con
MLWs, Entidades y posposiciones complejas
Etiquetado superficial, pero más completo:
árbol completo de aquellos elementos presentes en el
texto -> No se marcan:
 la elipsis
 PRO/pro
Treebank. Principios de anotación

Unidad de tratamiento: oración





De punto (o principio de párrafo) a punto
De punto (o principio de párrafo) a signo de interrogación
De punto (o principio de párrafo) a signo de exclamación
De punto (o principio de párrafo) a dos puntos
Cabeza de sintagma: elemento con significado
léxico -> punto de vista semántico
Los cimientos principales de la casa vieja
Treebank. Principios de anotación

Una sola etiqueta para cada elemento de
dependencia. Excepción: las conjunciones
coordinantes

28 etiquetas de dependencia, con la siguiente
jerarquía (basada en Carroll et al., 1998b, 1999)
ncsubj
ncobj
nczobj
ez perpausa
osagarriak
perpausa
ccomp_subj
ccomp_obj
jokatua
xcomp_subj
xcomp_obj
xcomp_zobj
jokatugabea
modifikatzaileak
determinatzailea
detmod
ez perpausa
ncmod
cmod
jokatua
perpausa
jokatugabea
xmod
laguntzailea
auxmod
perpausa
root
(aditza)
aposizioa
ez perpausa
jokatua
apocmod
jokatu
gabea
apoxmod
aponcmod
gradmod
graduatzailea
partikula
prtmod
interjekzioa
itjmod
indartzaileak
galdemod
Haul-, postposizio-,
menderagailu- eta
entitate-osagaiak
haos, postos,
menos, entios
perpausa
perpaus
jokatugabea
xpred
predikatiboak
ez perpausa
juntagailuak,
lokaikuak,
puntuazio-ikurrak
lokailuak
ncpred
lot
lotat
Treebank. Metodología

Fase de prueba: 2 meses (abril-mayo). Todos los
etiquetadores




Familiarización con la herramienta informática (Abar-Hitz)
Ajustes de la herramienta
Formación lingüistica
Etiquetado masivo:

Equipo de trabajo:
2 etiquetadores (a tiempo parcial)
 1 revisor (a tiempo parcial)
 2 técnicos informáticos de la herramienta (a tiempo
parcial)

Treebank. Metodología

Elección de oraciones:
Partiendo de la lista de verbos por frecuencia, comenzar por el más
frecuente. Observaciones: se plantea etiquetar empezando por los
menos frecuentes

Etiquetado:


Un etiquetador por arriba y otro por abajo.
El revisor va guardando los ficheros en una carpeta
(revisados)
No se etiquetan aquella oraciones que:



son errores gramaticales
no están bien delimitadas
son demasiado largas (a posteriori sí)
Treebank. Datos y media




Hasta ahora se han etiquetado 55.000 palabras
Media en el etiquetado masivo: 200 palabras / h
Se ha hecho un manual de anotación
En un futuro se prevé que:
no haya revisor y éste comience a etiquetar
 se incorpore otro etiquetador

Semántica: Euskal Wordnet / EuSemcor
EuSemcor
EGINDA
EGINGABE
GUZTIRA
Hitzak
Agerpenak
Hitzak
Agerpenak
Hitzak
Agerpenak
Polisemikoak
442
39.208
2.888
29.663
3.330
68.871
Monosemikoak
192
7.281
1.618
9.325
1.810
16.606
EusWN-en ez
daude
83
487
10.987
39.449
11.070
39.936
Guztira
717
46.976
15.493
78.437
16.210
125.413
Euskal Wordnet
Guztira
Izenak
Aditzak
Adierak
50.670
41.160
9.510
Lemak
26.565
26.069
3.496
Synset-ak
32.456
28.705
3.751
Hutsune lexikalak
2.499
2.198
301
Izen bereziak
722
722
0
Semántica: roles (Euskal Propbank)
 Se
ha hecho un estudio preliminar para la
validación del modelo Propbank en euskera:
Agirre et al. 2006. A Preliminary Study for Building the Basque PropBank. In Proceedings of the
5th International Conference on Language Resources and Evaluations (LREC)
http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1141750676/publikoak/Basque_PropBank.pdf
 En
este estudio:
se ha establecido una metodología de trabajo
 se han etiquetado tres verbos: esan (‘decir’), adierazi
(‘expesar’), eskatu (‘pedir’)
 se ha demostrado que Propbank es un modelo válido para
el euskera
 se han establecido estrategias de etiquetado
semiautomático

Semántica: roles (Euskal Propbank)
 Se
preve empezar con el etiquetado semántico
después del etiquetado sintáctico, y
dependiendo de los recursos