morfotáctica

Download Report

Transcript morfotáctica

Análisis Morfológico
•
•
•
•
Introducción
Morfología
Análisis morfológico
Uso de técnicas de estados finitos en
morfología
• Aprendizaje automático de la morfología de
una lengua
PLN Análisis Morfológico
1
Morfología 1
• Morfología
• Funciones
• Flexión
• Derivación
• Composición
• Resultado
• categorización morfosintáctica
• Ej. categorías Parole
• Ej. Penn Treebank tagset
• rasgos morfológicos
ej. VMIP1S0
ej. VBD
• Problemas
• alteraciones fonológicas
• morfotáctica
PLN Análisis Morfológico
2
Morfología 2
• Problemas
• sufijos flexivos  sufijos derivativos
• la derivación implica a veces cambio semántico que
además no es siempre predecible
• ej. extensiones de significado
• reglas léxicas
• Un sufijo derivativo puede ir seguido de su flexión
• amar => amante => amantes
• La flexión no cambia la categoría gramatical, la
derivación a veces si
• La flexión afecta a otras palabras de la oración
• concordancia
PLN Análisis Morfológico
3
Morfología, Modelos Computacionales
• Funciones
• Flexión, Derivación, Composición
• Morfotáctica
• Reglas de formación de palabras
• Combinaciones posibles entre morfemas
• Encadenamiento simple
• modelos complejos raiz/patrón
• Regularidad y cercanía dependientes de la lengua
• Alteraciones fonológicas (Morfofonología)
•
•
•
•
cambios al unir los morfemas
origen: fonología, morfología, ortografía
variables en número y complejidad
p.ej. armonía vocálica
PLN Análisis Morfológico
4
Morfemas
• 1 morfema:
• evitar
• 2 morfemas:
• evitable = evitar + able
• 3 morfemas:
• inevitable = in + evitar + able
• 4 morfemas:
• inevitabilidad = in + evitar + able + idad
PLN Análisis Morfológico
5
Morfología Flexiva
• número
• house houses
• cheval chevaux
• casa casas
• tiempo verbal
• walk
• amo
walkes
amas
walked
aman
walking
...
• género
• niño
PLN Análisis Morfológico
niña
6
Morfología Derivativa
• Forma de la derivación
•
•
•
•
sin cambio
prefijación
sufijación
infijación
barcelonés
inevitable
importantísimo
• Origen
•
•
•
•
•
•
verbo => adjetivo
verbo => nombre
nombre => nombre
nombre => adjetivo
adjetivo => adjetivo
adjetivo => adverbio
PLN Análisis Morfológico
tardar
sufrir
actor
atleta
rojo
alegre
=> tardío
=> sufrimiento
=> actorazo
=> atlético
=> rojizo
=> alegremente
7
Morfología Derivativa vs Flexiva
• sufijos flexivos <> sufijos derivativos
• la derivación implica a veces cambio semántico que
además no es siempre predecible
• ej. extensiones de significado
• reglas léxicas
• Un sufijo derivativo puede ir seguido de su flexión
• amar => amante => amantes
• La flexión no cambia la categoría gramatical
• La flexión afecta a otras palabras de la oración
PLN Análisis Morfológico
8
Análisis morfológico 1
• Tipos de analizadores morfológicos
• formarios
+
+
+
+
–
–
Maco+
Atserias et al, 1998
eficiencia
poca variación (ej. inglés)
extensibilidad
construcción a partir de un generador morfológico
lenguas muy flexivas
derivación, composición
• técnicas de estados finitos
• autómatas
• analizadores de un nivel
• transductores
• analizadores de dos o más niveles
PLN Análisis Morfológico
Roche,Schabes, 1997
Kornai, 1999
Martí, 1988
Koskenniemi, 1983
Sproat, 1993
9
Modelos de cómputo 1
•
•
•
•
Mezcla de conocimiento lingüístico y procedimental
Sistemas automáticos. Multilingüismo. Corpus
Problema de la eficiencia
Problema de la sobregeneración
PLN Análisis Morfológico
10
Modelos de cómputo 2
• Criterios de clasificación
• Poder descriptivo
• Flexión, Derivación, Composición
• Análisis y Generación
• Enfoque
• Basados en léxico
• Basados en paradigma (Calder,89)
• Tratamiento de la morfotáctica
• Estados Finitos
• Unificación
• Tratamiento de la morfofonología
• Estados Finitos
• Métodos ad-hoc
• Elementos del léxico
• Morfemas
• Segmentos de palabra
PLN Análisis Morfológico
11
Morfología un nivel
Sistema AMCAS (Marti,89)
RV1
RV
RNA1
START
RNA
F
RGN
INFIJ
PLN Análisis Morfológico
12
SISTEMA AMCAS 1
DICCIONARIO
RAICES
DICCIONARIO
SUFIJOS
MODELOS
SUFIJO
MODELOS
RAIZ
REGLAS
TEXTO
ENTRADA
ANALIZADOR MORFOLOGICO
ESTADOS
TEXTO
ETIQUETADO
PLN Análisis Morfológico
AUTOMATA
13
SISTEMA AMCAS 2
DICCIONARIO DE RAICES (FRAGMENTO)
RAIZ
"d"
"de"
"del"
"deposit"
"dese"
"dich"
"dich"
"dich"
"diner"
"directori"
PLN Análisis Morfológico
MODELO
D
PREP
PREP
AM
AM
HECH
DETN
PRON
NOM
NOM
PROPIEDADES
(("B1" "DORW")("TVM" "VI")
("SEM" "DECIR-1"))
()
()
(("TGN" "OM") ("BL" "&3"))
(("TGN" "OM") ("B1" "OSOJ")
("TVM" "VI"))
(("TGN" "OM") ("CONJ" "3"))
(("DET" "DEM"))
(("PRN" "DEM") )
("B1" "DAF") ("B2" "ALM")
("SEM" "DINERO-1"))
()
DIVISIBLE
nil
nil
nil
nil
nil
nil
nil
nil
nil
nil
14
SISTEMA AMCAS 3
DICCIONARIO DE SUFIJOS (FRAGMENTO)
SUFIJO
"a"
"a
"a"
"a"
"a"
"a"
"a"
"a"
"a"
"a"
"a"
"aba"
"lo"
"me"
"&"
"&"
MODELO
PROPIEDADES
AASAM
(("NUM" "SG"))
AASFEM
(("NUM" "SG"))
GAF
(("GEN" "FEM")("NUM" "SG"))
GAM
(("NUM" "SG"))
GBAJ
(("GEN" "FEM")("NUM" "SG"))
GBAW
(("GEN" "FEM")("NUM" "SG"))
nil
GN1
(("GEN" "FEM")("NUM" "SG"))
GOAJ
(("GEN" "FEM")("NUM" "SG"))
IMP
(("NUM" "SG")("PERS" "2"))
IPO
(("NUM" "SG")("PERS" "3"))
SP2
(("NUM" "SG")("PERS" "1/3"))
IMA
(("PERS" "1")("NUM" "SG"))
PROE
(("ENCL" "LO")("BL" "&1"))
PROE
(("BL" "&1"))
GBF&1
(("NUM" "SG"))
GBM&1
(("NUM" "SG"))
PLN Análisis Morfológico
DIVISIBLE
nil
nil
nil
nil
nil
nil
nil
nil
nil
nil
nil
nil
nil
nil
nil
15
SISTEMA AMCAS 4
DICCIONARIO DE MODELOS DE RAIZ (FRAGMENTO)
MODELO
PROPIEDADES
CSS
D
DETD1
(("CAT" "CONJ") ("TCON" "CSS") ("BL" "SI"))
(("CAT" "VERB") ("TV" "D"))
(("CAT" "DET") ("PERS" "1") ("TGN" "EAO")
("BL" "SI") ("DET" "DEM"))
PLN Análisis Morfológico
16
SISTEMA AMCAS 5
DICCIONARIO DE MODELOS DE SUFIJO (FRAGMENTO)
MODELO
AASAM
AASFEM
GAF
GAM
GBAJ
GBAW
GN1
GOAJ
IMP
IPO
PROE
SP2
&
PLN Análisis Morfológico
PROPIEDADES
(("GEN" "AMBI"))
(("GEN" "FEM") ("CAT" "ADJ"))
(("CAT" "NOM") ("GEN" "FEM"))
(("CAT" "NOM") ("GEN" "MASC"))
(("CAT" "ADJ"))
(("CAT" "ADJ"))
()
(("CAT" "ADJ"))
(("CAT" "VERB") ("TEMP" "PRES") ("PROE" "SI")
("MODO" "IMP"))
(("CAT" "VERB") ("TEMP" "PRES") ("BL" "SI")
("MODO" "IND"))
()
(("CAT" "VERB") ("TEMP" "PRES") ("MODO" "SUBJ"))
()
17
SISTEMA AMCAS 6
DICCIONARIO DE REGLAS (FRAGMENTO)
EST_INI
EST_FIN
RNA1
RV
RV
RV
RV1
RV1
RV1
RV1
RV1
RV1
RGN
F
F
RV
INFIJ
RGN
RGN
RGN
RGN
RV
OOSMAS
BL
&
PROE
CC
AASFEM
GAF
GAM
GOAJ
IMP
RV1
RV
IPO
RV1
START
RV
RV1
SPB
D
PLN Análisis Morfológico
MODELO
CONDICIONES
(("TGN" "OAJ"))
(("BL" "SI"))
(("BL" "&1"))
(("PROE" "SI"))
(("U" "CCVD"))
(("T1" "OAJ"))
(("T1" "AF")("TGN" "AF"))
(("TGN" "AM"))
(("B1" "TOJ"))
(("TV" "R")("TV" "ACUE) ("TV" "ADC")
("TV" "ADZ")("TV" "D"))
(("TV" "PONG")("TV" "R")("TV" "HIZ")
("TV" "PUED"))
(("TV" "PONG")("TV" "SEP")("TV" "D"))
()
18
Morfología de dos niveles 1
• Modelo general para lenguas con encadenamiento de
morfemas
• Independencia entre información lingüística y
analizador
• Válido para análisis y generación
• Distinción entre nivel léxico y superficial
• Reglas paralelas para expresar la morfofonología
• Implementación simple
• Elementos: Sistema léxico + Reglas
PLN Análisis Morfológico
19
Morfología de dos niveles 2
• Reglas morfológicas
• Expresan las relaciones entre caracteres (superficie) y
morfemas y permiten la descomposición de una cadena de
caracteres en una estructura morfémica de la palabra
• Reglas de deletreo (spelling rules)
• Trabajan a nivel de las letras que constituyen la palabra
• Reglas gramática de la palabra (word grammar rule)
• Permiten definir la composición entre morfemas en
términos de abstracciones sobre las propiedades de éstos,
al margen de su realización léxica
• Ritchie,Pulman,Black,Russell,87
PLN Análisis Morfológico
20
reglas gramática de la palabra 1
Caracterizan la morfología abstrayendo de los detalles de las
cadenas concretas
Secuencias correctas de morfemas
Concatenaciones válidas
Categoría sintáctica de la palabra resultante
Categoría (de una palabra, morfema o fragmento) es un conjunto
de pares <atributo, valor>
Ej. (GPSG): plural noun == ((N +) (V -) (PLU +) (BAR 0))
PLN Análisis Morfológico
21
reglas gramática de la palabra 2
alias noun = ((N +) (V -) (BAR 0))
alias verb = ((N -) (V +) (BAR 0))
alias adj = ((N +) (V +) (BAR 0))
variable C = {noun, adj}
regla del plural:
(C (PLU + )) --> (C (PLU - )), ((PLU +))
gatos
lexicón:
gato
...
s
...
=> (noun (PLU -))
=> ((PLU +))
((N +) (V -) (PLU +) (BAR 0))
PLN Análisis Morfológico
22
reglas gramática de la palabra 3
regla de prefijación:
((BAR 0)) --> ((FIX PRE)), ((BAR 0)).
regla de sufijación:
((BAR 0) (N +)) --> ((BAR 0)), ((N +) (FIX SUF)).
regla de sufijación verbal:
((N -) (V +) (AUX VAL) (BAR 0)) -->
((AUX VAL) (BAR 0)),
((FIX SUF) (N -) (V +)).
PLN Análisis Morfológico
23
Análisis morfológico con FSA
• Entrada:
• forma
• Salida
• lema + rasgos morfológicos
Input
cat
cats
cities
merging
caught
PLN Análisis Morfológico
Output
cat + N + sg
cat + N + pl
city + N + pl
merge + V + pres_part
(catch + V + past) or (catch + V + past_part)
24
Elementos del analizador
• Lexicon de morfemas
• raiz (stem) + afijos
• Morfotáctica
• qué combinaciones de morfemas son válidas
• cats = cat + s
• Alteraciones fonológicas
• Reglas ortográficas (spelling rules): cambios al
producirse la combinación
• city + s = cities
PLN Análisis Morfológico
25
Ejemplo: flexión nominal en inglés
reg_noun
fox
cat
dog
irreg_pl_noun
sheep
mice
irreg_sg_noun plural
sheep
-s
mouse
plural (-s)
reg_noun
0
1
2
irreg_pl_noun
morfotáctica
PLN Análisis Morfológico
irreg_sg_noun
26
Integración de lexicón y morfotáctica
o
f
x
a
c
t
s
o
g
d
fog
cat
dog
donkey
mouse
mice
n
m
y
e
e
o
e
s
u
i

c
Letter Transducers
PLN Análisis Morfológico
27
Morfología de dos niveles
upper level
lower level
c:c
PLN Análisis Morfológico
léxico
superficie
cat + N
cat
a:a
+N:
t:t
cat + N + pl
cats
+pl:s
28
Utilización de un FST 1
• Como reconocedor
• recibe dos cadenas de entrada (una léxica y una
superficial) y responde cierto o falso según una sea
transducción de la otra
• Como generador
• genera pares de cadenas
• Como traductor
• recibe una cadena superficial y genera su transducción
léxica
PLN Análisis Morfológico
29
Utilización de un FST 2
• Simplificaciones notacionales
• default pairs
• a:a
• morpheme separator ^
• end of word #
• default correspondence pairs
abc …
abc …
z ‘^#
z ‘ 
• feasible pairs
• default correspondences + explicit correspondences in the rules
• any @
PLN Análisis Morfológico
30
Transductor con rasgos morfológicos
reg_noun
fox
cat
dog
irreg_pl_noun
sheep
m o:i u: ce
g o:e o:e se
irreg_sg_noun plural
sheep
s
mouse
goose
reg_noun
+pl:s
+N:
0
irreg_sg_noun
1
2
irreg_pl_noun
PLN Análisis Morfológico
3
4
+N:
+N:
5
6
+sg:
2
+sg:
+pl:
31
Integración de morfotáctica y variación fonológica
nivel léxico
f
o
x
+N
+pl
nivel intermedio
f
o
x
^
s
nivel superficial
f
o
x
e
s
morfotáctica
spelling rules
PLN Análisis Morfológico
32
Integración de lexicón y morfotáctica
o
f
x
a
c
t
o
g
d
n
m
fog
cat
dog
donkey
mouse
mice
PLN Análisis Morfológico
+pl:^s
+N:
y
e
o
u
e
+sg:
s
e
o:i
+u:
+sg:
c
+pl:
+N:
e
+N:
33
spelling rules
name
consonant doubling
e deletion
e insertion
y replacement
k insertion
PLN Análisis Morfológico
description
single letter consonant
doubled before -ing/-ed
silent e dropped before
-ing/-ed
e added after -s,-z,-x,-ch,-sh
before -s
-y changes to -ie before -s, to
i before -ed
verbs ending with voyel +c
add -k
example
beg/begging
make/making
watch/watches
try/tries
panic/panicked
34
Reglas de dos niveles
• a:b  Contexto_izquierdo ___ Contexto_derecho
• el item léxico a debe corresponder al item superficial b cuando se
encuentra en el contexto
• a:b  Contexto_izquierdo ___ Contexto_derecho
• el item léxico a sólo puede corresponder al item superficial b cuando se
encuentra en el contexto
• a:b  Contexto_izquierdo ___ Contexto_derecho
• el item léxico a debe corresponder al item superficial b cuando se
encuentra en el contexto y sólo entonces
• a:b / Contexto_izquierdo ___ Contexto_derecho
• el item léxico a no puede corresponder al item superficial b cuando se
encuentra en el contexto
correspondencia
PLN Análisis Morfológico
operador
contextos
35
ejemplo e-insertion
:e  [xsz]^: ___ s#

descomposición
:e [xsz]^: ___ s#
PLN Análisis Morfológico
/
: / [xsz]^: ___ s#
36
Reglas de deletreo (spelling) 1
epenthesis
+:e
<=>
{< {s:s c:c} h:h> s:s x:x z:z} --- s:s
contexto
ejemplo:
PLN Análisis Morfológico
<=>
=>
<=
context restriction
surface coercion
box
box
+
e
C: {...}
V: {a,e,i,o,u,y}
C2: {...}
=: cualquiera
s
s
37
Reglas de deletreo 2
e-deletion
e:0
<=>
or
or
or
or
= :C2
<C:C V:V>
<c:c g:g>
l:0
c:c
mov
mov
e
+
ed
ed
agre
agre
e
+
ed
ed
PLN Análisis Morfológico
-----------
<+:0 V:= >
< +:0 e:e >
< +:0 {e:e i:i} >
+:0
< +:0 a:0 t:t b:b>
38
Reglas de deletreo 3
a-deletion
a:0
redu
redu
...
c
c
<=>
e
+
<c:c e:0 +:0>
a
t
t
---
t:t
ion
ion
contexto izdo foco contexto ...
dcho
PLN Análisis Morfológico
39
Transductor :e [xsz]^: ___ s#
s:s x:x z:z ^: #: :e @:@
1
1
1
0
_
0
0
1
1
1
2
_
0
0
1
1
1
0
3
0
0
4
_
_
_
_
_
_
_
_
_
_
_
0
_
estado\input
0
1
2
3
4
^:
@:@
#:#
@:@
#:#
PLN Análisis Morfológico
z:z
s:s
x:x
s:s
:s
^:
2
1
0
#:#
@:@
#:#
z:z
s:s
x:x
3
4
z:z
s:s
x:x
40
Transductor :e / [xsz]^: ___ s#
estado\input
0
1
2
3
s:s x:x z:z ^: #:# @:@
1
1
1
0
0
0
1
1
1
2
0
0
3
1
1
0
0
0
1
1
1
0
_
0
@:@
#:#
^:
z:z
s:s
x:x
^:
@:@
#:#
s:s
^:
@:@
#:#
PLN Análisis Morfológico
z:z
s:s
x:x
3
2
1
0
@:@
^:
z:z
x:x
z:z
s:s
x:x
41
Integración de morfotáctica y variación fonológica
nivel léxico
f
o
x
+N
+pl
x
^
s
Lexicon-FST
nivel intermedio
f
FST1
FST2
nivel superficial
f
spelling rules
PLN Análisis Morfológico
o
FSTn
...
o
x
e
s
42
Intersección y composición de FST
Lexicon-FST
FST1 ...
FSTn
Lexicon-FST
FSTA= FST1  ...  FSTn
intersección
PLN Análisis Morfológico
Lexicon-FST
•
FSTA
composición
43
Aprendizaje automático de la morfología 1
• Problema
• Paradigma raiz + afijos
• Obtención de las raices
• Clasificación de las raices en modelos
• Dos aproximaciones
• Sin utilizar conocimiento morfológico alguno
• Goldsmith, 2001
• Brent, 1999
• Snover, Brent, 2001, 2002
• Cuando se dispone de conocimiento morfológico
• Oliver at al, 2002
PLN Análisis Morfológico
44
Aprendizaje automático de la morfología 2
• Análisis morfológico automático
• Identificación de fronteras entre morfemas
• Zellig Harris
• {prefix, suffix} conditional entropy
• bigrams y trigrams con alta probabilidad de
constituir un morfema
• descubrimiento de patrones o reglas de
correspondencia entre pares de palabras
• Aproximación global (top-down)
• Golsdmith, Brent, de Marcken
PLN Análisis Morfológico
45
Aprendizaje automático de la morfología 3
• Sistema de Goldsmith basado en MDL
(Minimum Description Length)
• Partición inicial: palabra -> raiz + sufijo
• split-all-words
• Un buen candidato a {raiz, sufijo} en una palabra lo es
también en (muchas) otras palabras
• MI (mutual information) strategy
• Convergencia más rápida
• Obtención de Signatures
• Regular {signatures, stem, suffixes}
• Más de una raiz, más de un sufijo
• MDL
PLN Análisis Morfológico
46
Aprendizaje automático de la morfología 4
• Análisis morfológico semi-automático
• Oliver, 2004
• Parte de un paquete de reglas morfológicas escritas a
mano
• TL:TF:Desc
• terminación del lema
• terminación de la forma
• categoría morfológica
• Lista de clases no flexivas, clases cerradas y palabras
irregulares
• Corpus
• serbo-croata 9 Mw
• ruso 16 Mw
PLN Análisis Morfológico
47