support de la présentation

Download Report

Transcript support de la présentation

Segmentation thématique de textes :
au-delà de la récurrence lexicale
Olivier Ferret
LIC2M
CEA LIST
1
Problème abordé
• Analyse thématique
– Segmentation thématique (axe syntagmatique)
• délimiter des segments de document thématiquement homogènes
– Identification thématique (axe paradigmatique)
• identifier les thèmes des documents et de leurs segments
– Structuration thématique (axe fonctionnel)
• mettre en évidence les relations thématiques entre les segments
• Applications
– segmentation d’un flot textuel continu (transcriptions audio)
• segmentation thématique
– filtrage et classification de documents
• identification thématique
– résumé automatique
• structuration thématique
2
Un exemple
Grève de vingt-quatre heures sur les plates-formes pétrolières
de mer du Nord
Segment 1
Grève
Segment 2
Marché
pétrolier
Segment 3
Grève
Les ouvriers des plates-formes de mer du Nord, qui demandent
depuis plusieurs semaines la reconnaissance officielle de leur
syndicat, l’amélioration des mesures de sécurité et la réintégration
d’employés licenciés pour faits de grève, ont entrepris mercredi 12
septembre une nouvelle grève de vingt-quatre heures.
Cette nouvelle a inquiété le marché pétrolier, sensible aux moindres
menaces pesant sur la production. Le brut brent britannique a
encore progressé mercredi à 30,95 dollars le baril, contre 30,65
dollars la veille.
Selon un représentant du syndicat, la grève a été suivie par
plusieurs centaines d’ouvriers. Shell et BP, les deux compagnies
visées, indiquaient toutefois en milieu de journée que la production
n’était pas affectée. Cinq arrêts de travail similaires avaient eu lieu
le mois dernier. (AFP)
Le Monde - 14 septembre 1990
Thème 1 : grève ; Thème 2 : marché pétrolier
3
Différents moyens de segmenter
• Segmentation fondée sur le contenu
– thème : caractérisé par un vocabulaire spécifique
– changement de vocabulaire  changement de thème
– plus généralement, ruptures de la cohésion lexicale dans les textes
• cohésion lexicale (Halliday & Hasan) : relations entre les mots d’un texte
rendant compte de son caractère textuel
– réitération (curé – prêtre) et collocation (voleur – policier)
• Repérage des marques de changement de thème
– présence de marques linguistiques explicites marquant un
changement de thème
– oral : temps de pause des locuteurs, prosodie …
– écrit : connecteurs, introducteurs de cadres thématiques …
• cadre (Charolles) : contexte d’un état ou d’une série d’événements
• introducteurs de cadre thématique
– En ce qui concerne la croissance, Au sujet des élections à venir,
4
Problématique (1)
• Base commune des méthodes de segmentation
thématique fondées sur le contenu
– définition d'unités textuelles élémentaires (phrases)
– segment = ensemble d'unités textuelles contiguës jugées
thématiquement proches
– transformation des unités textuelles en vecteurs de mots (modèle
Vector Space)
– évaluation de la proximité thématique de deux unités (ou
regroupements d'unités) grâce à une mesure de similarité entre leurs
vecteurs
• si similarité entre vecteurs > seuil  unités jugées thématiquement
proches et réunies dans le même segment
• Rôle central de la similarité entre unités textuelles
5
Problématique (2)
• Évaluation de la similarité entre unités textuelles
– critère de base : récurrence lexicale (réitération stricte)
• évaluation fondée sur le nombre de mots communs entre unités
– extensions (réitération et collocation)
• utilisation de connaissances externes pour prendre en compte les
proximités sémantiques entre mots (synonymie, hyperonymie …)
– construites manuellement : WordNet, Roget Thesaurus …
– construites automatiquement : cooccurrences lexicales
• projection dans un espace sémantique construit à partir de corpus
– Analyse Sémantique Latente, Local Context Analysis
6
Approches proposées
• Base commune
– méthode de segmentation fondée sur la récurrence lexicale
• Extension de type endogène
– utilisation du document traité comme « source de connaissances »
• construire une représentation des thèmes du document
• similarité = mots communs + mots appartenant aux mêmes thèmes
• Extension de type exogène
– utilisation des relations d’un réseau de cooccurrences lexicales
• construction du réseau de cooccurrences à partir d’un corpus
• similarité = mots communs + mots liés dans le réseau de cooccurrences
• Combinaison des approches endogène et exogène
– similarité = mots communs + mots  mêmes thèmes + mots liés dans
le réseau
7
Segmenter avec la récurrence lexicale
• Principes
– même cadre général que celui adopté par Hearst pour TextTiling +
modifications au niveau de chaque étape
• Les 3 étapes issues de TextTiling
– prétraitement linguistique du document
• normalisation des mots : analyse morphologique + étiquetage morphosyntaxique (TreeTagger)
• sélection des mots pleins (i.e. mots non grammaticaux)
• représentation des phrases sous forme de vecteurs
– évaluation de la cohésion lexicale au sein du document
– identification des changements de thèmes sur la base des ruptures
de la cohésion lexicale
8
Évaluation de la cohésion lexicale (1)
• Fenêtre glissante sur le document
– unité de déplacement : phrase
• Mesure de similarité entre les deux volets de la fenêtre
cœfficient de Dice =
2 x # mots communs
# mots volet droit + # mots volet gauche
Phrases
Cohésion
9
Évaluation de la cohésion lexicale (2)
0,3
0,25
cohésion
0,2
0,15
0,1
0,05
0
0
10
20
30
40
50
60
70
position
10
Identification des changements de thème (1)
• Score de probabilité d'un minimum de la courbe de
cohésion de correspondre à un changement de thème
– différence de cohésion entre le minimum et ses maxima environnants
max1
max2
coh(max 1 )  coh(max 2 )  2  coh(min)
score (min) 
2
min
• Suppression des changements de thème trop proches
• Sélection des changements de thème
– minima dont le score dépasse un seuil s'adaptant à la distribution des
scores
• seuil = moyenne(scores) -  . écart-type(scores)
11
Identification des changements de thème (2)
0,3
0,25
cohésion
0,2
0,15
0,1
seuil
0,05
0
0
10
20
30
40
50
60
70
position
12
Approche endogène
• Association de tâches généralement séparées
– segmentation et identification thématiques
• Principe général
– comment les résultats de l’identification thématique peuvent aider la
segmentation ?
• 2 étapes
– Découverte des thèmes d’un document
• identification thématique non supervisée
– Intégration des thèmes découverts dans le processus de
segmentation
• évaluation de la cohésion lexicale : relations de récurrence stricte +
relations thématiques
• prise en compte à un niveau local des relations lexicales existant plus
globalement dans un document
13
Identification thématique : principes
• Identification non supervisée
– pas de référence à des thèmes externes
– thème = sous-ensemble du vocabulaire du document
• Hypothèse
– les mots d’un même thème ont tendance à apparaître à proximité les
uns des autres au sein d'un document
• Méthode
– collecter les cooccurrences entre mots au sein du document
– évaluer la proximité des mots suivant leurs cooccurrents
– classifier les mots du document selon leur proximité
• classification non supervisée
• classe = thème
14
Évaluation de la proximité des mots
• Même prétraitement linguistique du document que pour la
segmentation
• Collecte des cooccurrences entre mots
– déplacement d'une fenêtre de taille fixe sur le document prétraité
(unité de déplacement : mot sélectionné)
– enregistrement des cooccurrences entre le premier mot de la
fenêtre et les suivants
– pas de prise en compte de l'ordre des cooccurrents
– résultat = un vecteur de cooccurrents / mot sélectionné
• Proximité thématique des mots du document
– calcul de la matrice de similarité des mots du document
• application de la mesure Cosinus entre leurs vecteurs de
cooccurrents
15
Découverte des thèmes d'un document
• Classification non supervisée des mots du document
– application de l'algorithme Shared Nearest Neighbors (SNN, Ertöz,
Kumar et Steinbach, 2001)
• Algorithme SNN
– Construction d’un graphe de similarité à partir de la matrice de
proximité thématique des mots du document
• nœud : mot sélectionné du document
• arête : lie deux mots de proximité non nulle ; poids de l'arête = proximité
des mots qu'elle relie
– Éclaircissement du graphe de similarité par limitation du nombre de
voisins (seuil sur les valeurs de proximité)
– Transposition des relations : proximité entre 2 mots  nombre de
voisins partagés par les 2 mots
– Détection de composantes de forte densité dans le graphe des voisins
partagés
16
Détection des composantes de forte densité (1)
• Graphe des voisins partagés
0
1
0
0
1
2
2
1
0
1
1
1
1
1
1
2
2
2
relation dans le graphe de
similarité
2
2
2
1 : nombre de voisins partagés
mot du document
19
Détection des composantes de forte densité (2)
• Sélection des liens forts
– filtrage sur le nombre de voisins partagés
• Caractérisation des mots par leur nombre de liens forts
0
0
0
1
0
1
2
3
0
0
3
3
seuil liens forts = 2
3
2 : nombre de liens forts
20
Détection des composantes de forte densité (3)
• Suppression des mots avec peu de liens forts
• Germes des thèmes : mots avec beaucoup de liens forts
• Rattachement des mots restant au germe le plus proche
(si suffisamment proche)
0
1
0
0
1
2
0
3
0
0
3
3
germe de thème
mot supprimé
3
seuil germe = 2
seuil élimination = 0
seuil rattachement = 1
21
Illustration de la découverte de thèmes
• « Mélange » de 2 textes sur des thèmes différents
 redécouverte des 2 thèmes
Thème « vache folle »
Thème « fabrication de skis »
folle, fédéral, cas,
fabricant, Streule, marché,
devenir, vache, bovin,
paire, production, ski,
infecter, maladie, ESB,
Stöckli, Suisse, indiquer,
humain, déclarer
directeur, année, entreprise
dernier
22
Segmentation intégrant les thèmes découverts
• Intégration faite au niveau de l'évaluation de la cohésion
– détermination des thèmes représentatifs du contenu de la fenêtre
• mesure Cosinus entre la représentation d'un thème et chaque volet de la
fenêtre
• thème représentatif (TR) = thème suffisamment proche de chacun des 2
volets de la fenêtre
– calcul de la cohésion selon les thèmes découverts
# (volet droit  {TRi} – Mréc) + # (volet gauche  {TRi} – Mréc)
# mots volet droit + # mots volet gauche
• Cohésion globale
Mréc = volet droit  volet gauche
– cohésion(récurrence lexicale) + cohésion(thèmes)
• Pas de changement au niveau des deux autres étapes
23
Approche exogène
• Utilisation d’un réseau de cooccurrence lexicales
– facile à construire automatiquement à partir d’un corpus
– source de connaissance privilégiée sur les relations de cohésion
lexicale au sein des textes
 associations lexicales les plus significatives observées dans les
textes
• Exploitation conjointe de 2 sources de cohésion
• récurrence lexicale
• relations issues du réseau de cooccurrences
 toute source de connaissances est nécessairement incomplète (noms
propres, termes spécialisés …)
24
Réseau de cooccurrences lexicales
• Méthode de construction
– prétraitement des textes : sélection des mots pleins
– comptage des cooccurrences au sein d'une fenêtre glissante
– accent mis sur les relations sémantiques et pragmatiques
• taille : 20 mots (environ 50 mots avant sélection)
• pas d'ordre : m1 - m2 équivalent à m2 - m1
• respect des frontières de texte
– cohésion entre mots : information mutuelle normalisée
– filtrage des cooccurrences les moins significatives
• fréquence < 10 ; cohésion < 0,1
• Réseau pour le Français
– 24 mois du journal Le Monde (~ 40 millions de mots)
• ~ 23 000 lemmes et 5 milions de cooccurrences
25
Exemples de cooccurrences
lemme 1
lemme 2
fréquence
cohésion
« type »
policier
cambriolage
13
0,19
thématique
bateau
voilier
125
0,22
hyperonymie
prendre
racine
120
0,11
collocation
collision
franc
7
0,08
« bruit »
livre
intranquilité
23
0,20
« bruit »
26
Exemple : graphe des cooccurrents de organe
27
Utiliser des cooccurrences pour segmenter
• Mêmes principes d’intégration que précédemment
– intégration au niveau de l’évaluation de la cohésion lexicale
– pas de changement au niveau des deux autres étapes
• Évaluation de la cohésion lexicale
– sélection des mots des 2 volets les + fortement liés selon le réseau
• cooccurrences : fréquence  14 ; cohésion  0,14
• mot lié à au moins 2 mots de l’autre volet par le biais du réseau
→ Mcooc(volet {droit, gauche}) : mots sélectionnés du volet {droit, gauche}
– calcul de la cohésion selon les relations de cooccurrence
# (Mcooc(volet droit) – Mréc) + # (Mcooc(volet gauche) – Mréc)
# mots volet droit + # mots volet gauche
• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(cooccurrences)
28
Combinaison des approches endogène et exogène
• Même principe que pour chaque approche
– combinaison au niveau de l’évaluation de la cohésion lexicale
• Cohésion globale
– cohésion(récurrence lexicale) + cohésion(thèmes) +
cohésion(cooccurrences)
29
Évaluation : principes (1)
• Méthodologie de référence
– retrouver les frontières de documents ou de morceaux de documents
concaténés les uns à la suite des autres (cf. corpus de Choi)
• Problème
– la découverte de thèmes n'a pas de sens sur un assemblage de
morceaux de documents sans relations thématiques
 méthodologie inadaptée à l'évaluation de l'intérêt de l'utilisation de
l'identification thématique au niveau de la segmentation
• Adaptation de la méthodologie de référence
– ensemble de couples de documents relatifs à des thèmes différents
• utilisation des documents jugés positivement / topics CLEF
– découpage de chaque document d’un couple en segments de tailles
arbitraires (entre 3 et 11 phrases ; idem Choi)
– concaténation des segments en alternant un segment d'un document
et un segment de l'autre  document d'évaluation (10 segments)
30
Évaluation : principes (2)
Document
Topic10
Document
Topic 88
Document
d’évaluation
bi-thématique
31
Évaluation : mesure
• Mesure d'erreur probabiliste Pk (Beeferman et al., 1997)
– jugement de couples de mots séparés par K mots
– K : moitié de la taille moyenne des segments de référence
– WindowDiff : variante tenant compte du nombre de frontières séparant
les couples de mots
référence (ref)
segmenteur (hyp)
p1
OK : p4-p5
ref : même segment
hyp : même segment
ou
p2-p4 ; p5-p6
ref : segments différents
hyp : segments différents
p2
p3
p4
p5
p6
p7
Fausses alarmes : p2-p3
ref : segments différents
hyp : même segment
Faux négatifs : p3-p4 ; p3-p5 ; p6-p7
ref : même segment
hyp : segments différents
32
Évaluation : résultats de l’approche endogène
Systèmes
C99 (Choi, 2000)
U00 (Utiyama et Isahara, 2001)
TextTiling*
LCSeg (Galley et al., 2003)
F06
F06T
F06 : récurrence lexicale
•
•
•
•
Français
Pk
WinDiff
27,57
35,42
25,91
27,42
21,08
27,43
20,55
28,31
21,58
27,83
18,46
24,05
Anglais
Pk
WinDiff
21,63
30,64
19,42
21,22
15,81
19,8
14,78
19,73
16,9
20,93
14,06
18,31
F06T : récurrence lexicale + thèmes
Intérêt de la prise en compte des thèmes (F06T > *)
Stabilité des résultats (Français vs Anglais)
Faibles performances de méthodes telles que C99
Forte différence du niveau moyen entre Français et Anglais
33
Évaluation : résultats globaux
F06C : récurrence
lexicale +
cooccurrences
F06CT : récurrence
lexicale +
thèmes +
cooccurrences
Systèmes
C99 (Choi, 2000)
U00 (Utiyama et Isahara, 2001)
TextTiling*
LCSeg (Galley et al., 2003)
F06
F06T
F06C
F06CT
Français
Pk
WinDiff
27,57
35,42
25,91
27,42
21,08
27,43
20,55
28,31
21,58
27,83
18,46
24,05
16,48
20,94
14,59
18,41
• Intérêt des connaissances externes
– F06C > * de façon significative (sauf pour F06T), alors que significativité des
résultats plus contrastée pour F06T / LCSeg et TextTiling*
• Intérêt de la coopération entre approches endogène et exogène
– F06C > F06T mais pas significatif pour Pk
– F06CT > F06T significativement pour toutes les mesures
– mais différence entre F06C et F06CT pas significative
34
Perspectives
• Méthode
– combiner approches endogène et exogène pour l’identification
thématique
– utiliser les résultats de cette identification « étendue » au niveau de la
segmentation
• Évaluation
– utilisation de documents segmentés manuellement
• difficultés soulevées par (Bestgen et Piérard, TALN 2006)
– accords entre deux juges tout juste significatifs
– mais bon accord général sur une segmentation « moyenne »
– mauvaises performances des segmenteurs automatiques
– critères de segmentation des juges variables (segmentation fine / à
gros grain ; préférence donnée aux marques explicites)
35