Document 7409735

Download Report

Transcript Document 7409735

Cours sur le traitement
automatique des langues :
La sémantique (1b)
Violaine Prince
Université de Montpellier 2
LIRMM-CNRS
Plan de l’exposé

Classement des approches
sémantiques
 Par
granularité
 Par paradigme


Sémantique vectorielle : un modèle
trans-granularité
Conclusion et perspectives
2
Classement des
approches sémantiques


La notion de granularité :
Taille du segment interprétable.
Sublexical (les sèmes)
 Lexical (le mot)
 Syntagmatique (syntagmes/groupes)
 Phrastique (phrase/proposition)
 Textuel (ensemble de phrases)
 Document (texte complet)
 Collection

3
Les granularités
définies

Le niveau sublexical est peu décrit :
 Théories
linguistiques de type sémantique
structurale (Pottier, Greimas)
 Travaux informatiques :
 M.
Gross : constitution de dictionnaires (Intex/
Sylberstein)
 Informatisation des travaux de F. Rastier (P;
Beust)
4
Sémantique
structurale




Ecole Française de Bernard Pottier et
ses élèves (Greimas, Rastier)
Le mot est un « ensemble » de
« sèmes » ou signes de sens.
La structuration sémantique est une
« superstructure » de la structuration
sémique.
Deux unités sont différenciées : le sème
(signe) et le sémantème (unité de sens)
5
Représentation
sémantique
structurale

Une « partie » du mot « pompe »
1. appareil
aspiration liquide
2. appareil à essence
les propriétés de l’essence
3.essence pour véhicule lieu consacré à la vente
station d’essence
4.
entreprise
6



Le niveau lexical (sémantique lexicale)
est très riche.
Mots ou groupes de mots inséparables.
Exemples :
 Pomme
 Pomme-de-terre


Sert de base aux dictionnaires
Plusieurs paradigmes défrichent ce
niveau.
7
Niveau syntagmatique/groupe : les sémantiques
n-grammes (bi ou trigrammes)
 Expression syntagmatique nominale :


N1 de N2 (B. Habert)
• Moulin à café (quasi-lexicalisé)
• Médecin de famille
• Fleur des champs, fleur de pommier…
Peu de travaux sur les groupes verbaux (sauf en
anglais en raison des suffixes)
 En gros, des sémantiques de type
« opérationnel » à base fréquentielle (Zipf,
Harris…)

8

Le niveau propositionnel est le domaine privilégié des
modèles sémantiques logiques.
La proposition est « complète » en termes de sens
 Elle est évaluable
 L’évaluation se fait après décomposition (en éléments
constitutifs) et recomposition du sens

Le rapport entre phrase et proposition n’est pas toujours
très clair (la majorité des exemples de phrases sont des
propositions).
 Les expressions figées : lexicalisation (E. Laporte).

Balayer devant sa porte.
 Tourner autour du pot (to beat around the bush).

9

Le niveau textuel sémantique commence à
se confondre avec le niveau thématique.
 Un
texte = un énoncé = un ensemble de
phrase.
 N’est pas une unité « complète »
 Possède un « thème » (ou plusieurs)
 De quoi parle le texte ?
10
 Travaux
sur les liens entre phrases (interphrastiques).
 Anaphore
pronominale : attachement syntaxesémantique.. Parfois fondé sur des
connaissances extra-sémantiques.
• Le médecin est venu voir Pierre. Il avait 39 de fièvre.
• Le médecin est venu voir Pierre. Il avait une sacoche
noire bourrée.
• Le médecin est venu voir Pierre. Il est arrivé une heure
et demie après notre appel.
• Le médecin est venu voir Pierre. Il était enrhumé.
11
Travaux de Grosz et Sidner (1986) : « focus and
attention »
 L’attachement pronominal se fait majoritairement avec le
dernier nom de même genre et nombre.

• Le médecin est venu voir Pierre. Il avait 39 de fièvre
• (1/4 exact)

Sinon, il dépend du « thème » général du texte.

Thème médecin : personne spécialiste, faisant des visites, à
l’appel des malades, portant une sacoche.
• Le médecin est venu voir Pierre. Il avait une sacoche noire
bourrée.
• Le médecin est venu voir Pierre. Il est arrivé une heure et
demie après notre appel.
• 2/4 exact.
12

Thème « Pierre est malade »

Il a de la fièvre, il est enrhumé.
• Le médecin est venu voir Pierre. Il avait 39 de fièvre
• Le médecin est venu voir Pierre. Il était enrhumé.
• 2/4 exact.

Double thème : le médecin et Pierre est malade.
Les quatre énoncés sont interprétables
 Cependant, le médecin peut-être lui aussi enrhumé.

13

Les anaphores nominales : la relation de
synonymie ou de proximité sémantique
lexicale.
 Pierre
est allé voir un ophtalmologiste. Le
spécialiste lui a donné une ordonnance
pour une nouvelle paire de lunettes.
 Qu’avez-vous fait à Marie-Hélène ? Cette
femme n’arrête pas de téléphoner.
14


Dès lors qu’on dépasse en granularité le niveau
propositionnel, des « niveaux » d’analyse autres que
sémantiques semblent être sollicités.
Trois dimensions semblent co-exister et interagir:
La syntaxe (règles de composition)
 La sémantique (règles de pré-interprétation)
 La pragmatique (stratégies d’interprétation => opérer des
choix dans les pré-interprétations sémantiques)

15

Au niveau du document :
On passe complètement dans des structures d’analyse
ou de représentation « stylistiques » ou de contenu.
 Les travaux informatiques sur le document ne
concernent que :

Sa structuration (formalisée ou pas)
 Ses liens (hypertextes…)
 Sa pertinence par rapport à une requête (recherche
d’information)
 Sa thématique représentable par des mots clés
(indexation)
 Sa catégorisation (par rapport à un thème fourni)
 Sa classification (par rapport à un thème, une collection
ou un autre document)

16

La collection : complètement dans une vision
thématique
 Collection
de textes
 Collection d’ouvrages qui sont eux-mêmes
des collections de texte
 Les travaux informatiques sont ceux de la
recherche documentaire (Salton et dérivés).
17
Conclusion sur la
notion de granularité


La sémantique s’efface avec
l’augmentation de la granularité,
graduellement, au profit de la
thématique.
La sémantique apparaît plus non pas
comme un choix univoque
d’interprétation (fonction) que comme un
choix ensembliste (application d’un
élément vers une partie d’ensemble). On
parle plutôt de « champ sémantique ».
18

En réalité, la sémantique est un mécanisme de
comparaison beaucoup qu’un mécanisme
d’affectation de valeur.
 Au
niveau sublexical : pompe : « proche »
d’appareil, d’appareil à essence, de station,
d’entreprise… proche aussi d’aspiration
(appareil aspirant) d’air(fusil à pompe), de
mouvement haut et bas (faire des pompes)….
19


Au niveau lexical : quel terme exact choisir
pour remplacer « pompe » …
Au niveau syntagme/groupe : savoir si le
syntagme à un sens différent de la
composition des sens des constituants.
 Composition
non commutative ;
 Voile
de Bateau différent de Bateau à voile
 Valeur des moyennes différent de moyenne des
valeurs
20

Composition souvent non intègre
 Moulin
à paroles -> bavard
 Pomme-de-terre -> rien à voir avec la
pomme et la terre

Les formalismes n-grammes ne
conservent pas toujours la nature même
du lien
21

Au niveau propositionnel :
L’évaluation à la valeur de vérité n’est absolument
pas pertinente.
 Une phrase est interprétée linguistiquement si on
en reconnaît le thème et on sait l’associer à des
objets du monde (interprétation extra-sémantique)
 Une phrase est interprétée informatiquement si et
seulement si elle est transcrite dans un formalisme
sans perte d’information intrinsèque, qui conserve
ses relations de proximité et son appartenance
thématique.

22
Langue référent : objet linguistique
référé: objet mental
individu
objet référé: objet du monde
monde
triangle aristotélicien
L’interprétation linguistique associe :
• pour un individu donné
• Un référent donné (objet linguistique)
• À un objet du monde
23
L’ « interprétation informatique » associe,
pour un objet linguistique donné
- un objet mathématique
Calculable par une machine
-
Langue
Formalisme
.
machine
Interprétable
Par un individu
Et représentable
Par ce dernier
24



En machine on ne fait que re-présenter et
non pas interpréter
On délègue à la machine le processus de
calcul des similitudes et des proximités
(entre énoncés)
Quand il y a de GRANDES MASSES de
données
25
Les paradigmes (de
calcul)

Le paradigme symbolique logique
On traduit l’énoncé en langue en un énoncé logique
que l’on manipule ensuite selon ses propres lois
 Au lieu d’interpréter en valeur de vérité absolue, on
vérifie que l’énoncé est valide par rapport aux
« ontologies ».
 On appelle ontologie une structure de connaissances
qui :

Relie des concepts entre eux
 Leur associe des propriétés
 Possède des propriétés exploitables par des opérateurs

26
Exemple : ontologie de
schémas (Minsky)

valeurs par défaut pour C1n sous forme d ’{attribut
(facette, valeur)} C11
Schéma
de C11
C1n-1
C1n
Schéma
de
C1n-1
Schéma
de
C1n
lien « is-a »
27
Exemple

Chaise :
meuble
chaise
fauteuil
chaise-à-porteur
fait en :
matière (organique, minérale)
type (naturelle, artificielle)
prix:
origine :
composé de:
pieds (3, 4)
dosseret (oui,non)
barreaux :( oui,non)
assise :matière
17ème siècle
mode de transport
28

Formalismes d’ontologies :
 Treillis(de
Galois)
 Arborescences
 Réseaux (sémantiques)

Ont du mal a différencier le statut
« langue» du statut « formalisme »
au niveau lexical
«
dictionnaires », « thésaurus »
29
Les modèles de
données

Les « ontologies » arborescentes
l ’échec d’une structuration trop
importante et trop large
 restriction des années 90
 après
à
une application
 à un domaine, de préférence technique et
défini
 à une structure arborescente
 plusieurs
« arbres de connaissance » plutôt
qu ’un seul réseau
30
Exemple (1)
 domaine
: chimie
 application : enseignement secondaire de la
chimie atomique:
 agrégats
« partie-de »
molécule
substance
atome
particule
31
Exemple
(2)
 domaine
: chimie
 application : enseignement secondaire de la
chimie atomique:
 agrégat
« sorte-de »
particule
particule
chargée
particule neutre
proton
électron
neutron
32
Propriétés
structurelles

relations typées
sorte-de selon un critère
 sorte-de : inclusion de classe
 sorte-de : membre-de
 partie-de



Les ontologies arborescentes supposent
:
un mot
un sens

ce qui correspond qu ’à un sousensemble très faible du langage naturel
33
Les modèles multistructure

Les graphes conceptuels (Sowa 1984)
’idée que l ’esprit et le langage s ’organisent
de la même manière (ressemblance des
contextes linguistique et mental)
 il existe une représentation en lambda-calcul
du contexte mental
 application à la langue
l
34
Graphes
conceptuels

Modèle de données
 Un
treillis de concepts
 Un treillis de relations

Lambda-formules
 Graphe
canonique
 Graphe de définition
 Graphe de phrase
35
Fonction des modèles
symboliques logiques

Actions « sémantiques » réalisées:

Transformer la phrase en LN :


En sa structure logique (ou sa lambda-expression):


La chaise est bleue
Chaise (x)  couleur (x, « bleu »)
Vérifier dans l’ontologie
Que chaise existe
 Qu’elle peut avoir une couleur
 Que la couleur « bleu » existe
 Qu’il n’existe pas de contrainte contre la couleur
bleue pour une chaise

36
Limites en LN


Reste le problème de savoir :
S’il s’agit d’un exemplaire de chaise répertorié
dans l’ensemble des connaissances
o

S’il s’agit d’un nouvel exemplaire
o

 x0 X/ chaise(x0) couleur(x0, « bleu »)
 x chaise(x) couleur(x, « bleu ») => x X
S’il s’agit d’une assertion concernant la classe
des chaises
o
x X chaise(x) => couleur(x, « bleu »)
37


Beaucoup de connaissances à intégrer
Problème des sens figurés du mot:
 jouer
aux chaises musicales
 mener une vie de bâton de chaise

Et de certains de ses dérivés :
 ambitionner

le fauteuil présidentiel.
A éviter en recherche d’information ou
indexation
38
Autres paradigmes

Le paradigme symbolique numérique
 Le
modèle connexionniste
 Le modèle vectoriel (non saltonien)

Le paradigme statistique/probabiliste
 Modèle
vectoriel de Salton
 La co-occurrence de Church
 Les mesures de similarité ou de similitude
 La sémantique distributionnaliste (Harris)
 Les chaînes de Markov
 Le modèle de Markov caché
39
Le modèle
connexionniste




Plusieurs approches connexionistes de la
sémantique
Sémantique Lexicale
Calculer le sens d’un mot en contexte (par rapport
aux autres mots co-occurents).
Un réseau mono ou bi-couche de
n cellules ayant chacune une variable d’état xn
 Des arcs entre ces cellules avec un poids qui affecte
les états des cellules qu’ils relient
 Des équations d’état pour qui sont des gradiants
d’une fonction d’énergie F(x,p,t))= grad_x(E(x,p,t)).
 Un mécanisme d’apprentissage sous forme d’équation
de modification de poids/ p’=L(x,p,t).

40





Les cellules représentent des mots
Ils sont reliés en fonction de leur présence dans
un contexte donné (fenêtre)
Les poids sont définis initialement.
Les changements d’état interviennent entre un
état initial correspondant à une définition et un
état final correspondant à la position en
contexte dans une phrase donnée.
Le mécanisme d’apprentissage recalcule le
poids en fonction de la phrase apprise.
41
Modèles connexionnistes
en sémantique : limites



Le réseau mono-couche « perd » la définition
initiale.
Le réseau bi-couche la conserve et permet de
mesurer la différence entre un sens
« dictionnairique » et un sens « en corpus », mais il
est limité en taille…
Les modèles mono-couche risquent de modifier
très fortement les relations entre les mots en
fonction des corpus rencontrés.
On peut « oublier » des sens rares
 On peut apprendre de manière biaisée.

42
Les modèles vectoriels

Le modèle vectoriel sera présenté dans le prochain
cours.

Modèle à famille génératrice de taille fixe (équipe TAL
du LIRMM)
Issu du TAL.
 Modèle sémantique.


Modèle à base de taille variable (modèle de Salton).
Issu de la recherche documentaire. Problème de la
pertinence d’un texte par rapport à une requête
 Non TAL
 Non sémantique

43
La co-occurrence de Church:
Formule de l’information
mutuelle (n-grammes)
 Modèle
fondé sur des probabilités
conditionnelles
 Notion
de fréquence d’apparition commune
entre des termes.
 Si x et y sont tous deux des mots, l’information
mutuelle I(x,y) est donnée par la formule :
I(x,y) = log2 [p(x,y)/(p(x)p(y))]
 Où,
si N est le nombre total de mots :
 p(x)
= freq(x)/N p(y)
=
freq(y)/N p(x,y) = freq(x,y)/N
44



On remarque que plusieurs bi-grammes
sont de fréquence très basse.
L’information mutuelle a des valeurs
exagérémment élevées pour des
bigrammes de basse fréquence , cad
qu’elle considère comme associés des
termes qui ne le sont pas tellement.
Formule du maximum de vraisemblance


log[ (freq(x,y)/N)/(freq(x)/N)(freq(y)/N) ]
Quand on passe aux n-grammes , la
fréquence diminue encore.
45
Les mesures de similarité ou
de similitude
 Plusieurs
mesures existent.
 Elles définissent
 La
proximité d’un document par rapport à un
autre en fonction des termes qu’ils contiennent
 La pertinence thématique d’un document par
rapport à un index, un mot-clé, une requête
 Elles
proviennent d’une approche « recherche
documentaire »/statistique (vs IA/logique ou
IA/connexionniste)
46
Les mesures de similarité ou
de similitude
 Produit
scalaire (cosinus) ou similarité de
Salton.
 Mesure
géométrique de type
distance : cos(d,d’)= d.d’/(IIdIIxIId’II)
 Coefficient
de Jaccard
 Mesure
ensembliste ou {d} est l’ensemble des
unités linguistiques du document d
 jaccard(d,d’)= I{d}{d’}I/(I{d} {d’}I)
 1- jaccard(d,d’) vérifie l’inégalité triangulaire et
donc se comporte comme une distance.
47
La sémantique
distributionaliste (Harris)
 En
France, travaux de Rajman, Habert, Bonnet
 Ailleurs : Grefenstette, Dagan, Sparck
Jones…Forte corrélation entre les
caractéristiques distributionnelles observables
des mots et leurs sens.
 Les contextes apportent suffisamment
d’information pour un lecteur humain pour être
en mesure d’affecter un sens à un mot en
contexte.
 Lemme : Deux unités linguistiques sont
sémantiquement similaires si leurs contextes
textuels sont similaires.
48
Approches
distributionalistes


Intégration de matrices de co-occurrence
Interprétation de profils de co-occurrence
probabilistes (Besançon et Rajman)
P(tiIuj) ≈ cij= f(tj,ui) / kf(tk, ui)
 En d’autres termes; la probabilité que le sens porté
par le terme tj soit associé à l’unité linguistique ui est
aussi le coefficient dans la matrice de co-occurrence
des termes d’indexation avec les contextes (unités
linguistiques) du corpus, c’est-à-dire la fréquence
d’occurrence du terme par rapport à la somme des
fréquences d’occurrences des termes dans cette
même unité.

49
Exemple

X= chat


Le X se comporte de façon
individualiste, il a une grande
gueule rose quand il baille, et est
très soucieux de sa toilette.
Les Egyptiens adoraient le X et lui
associaient des qualités de paix du
foyer et de miséricorde.
La nuit tous les X sont gris.
50
Les chaînes de Markov






A eu un impact important dans la statistique
textuelle
Usage de la la probabilité conditionnelle (ngrammes) de manière différente:
Plutôt que d'étudier le rapport entre deux
variables X et Y, on cherche à caractériser la
relation entre les états (symboles) consécutifs
d'une seule variable X.
On parlera alors de probabilité de transition d'un
symbole vers un autre:
P(ai->aj) := P(Xt+1= ai Xt= aj) (probabilité
conditionnelle)
où ai, aj  A, et Xt représente l'état du système au
temps t.
51





On appelle chaîne de Markov d'ordre 1 le
modèle défini par une matrice de transition
P de composantes
Pij = p(ai ->aj).
En généralisant, on peut construire des
modèles d'ordre k≥ 1 avec Pij = p(w i->ai)
et wi  Ak.
Conseil :
http://www.unil.ch/Jahia/site/ling/cache/offonce/
pid/12879
52
Autres modèles

Il existe de nombreux modèles mais ils
apparatiennent à une famille.
 Famille
symbolique logique
 Famille symbolique numérique
 Famille statistique/probabiliste
53
Synthèse


Les modèles symboliques logiques essaient de
représenter le sens par/pour le raisonnement
Les modèles symboliques numériques essaient d’utiliser
l’arithmétique, l’algèbre ou la géométrie pour représenter
le sens par rapport :
À d’autres sens
 À d’autres mots


Les modèles statistiques ou probabilistes représentent le
sens comme une probabilité ou une fréquence
d’occurrence d’un motif dans un contexte.
54
Synthèse (fin)


Les modèles symboliques logiques essaient de
reconstituer artificiellement le triangle aristotélicien
Les modèles symboliques numériques acceptent d’être
exclusivement dans une relation référent(langue)référent(formalisme) et considèrent que le référé est
approché par le morphisme M qui dit que :


Si x en L est relié à x1,x2,…,xn alors rep(x) dans F est relié
à rep(x1),rep(x2),…rep(xn) par une fonction sur F.
Les modèles statistiques/probabilistes ne travaillent que
dans une relation référent(langue)-référent(langue) où la
machine et les algorithmes servent de support de calcul
sur de grandes masses de données.
55