Diapositive 1

Download Report

Transcript Diapositive 1

FRE 2672
Ontology Multilingue
et Système Documentaire
Farah HARRATHI (PhD)
Rami HARRATHI (PhD)
Catherine ROUSSEY (MCF),
Sylvie CALABRETTO (HDR),
Plan
SyDoM Système Documentaire Multilingue
Passage à l’échelle
 Travaux
de Farrah HARRATHI
Documents Structurés:
contenu et la structure
 Travaux
interrogation
par
le
de Rami Harrathi
Perspectives
2
Introduction
Problématique
Recherche d’Information dans un corpus Multilingue (RIM)
 Indexation: Amélioration de la représentation de l’information
Contexte Doc ’INSA: les preprints de la SAE





Contenu textuel
Articles anglais de mécanique
Public français: étudiants ou chercheurs
Problème: indexation?, interrogation?, visualisation?
Format pérenne XML
Proposer un système capable de répondre aux besoins d'une
bibliothèque spécialisée  Système Documentaire Multilingue
3
Notice Bibliographique
RIM : les ressources linguistiques
Nécessaires
Construction
difficile
Qualité ressources  qualité résultats
Adéquation ressources / corpus :
connaissance
du domaine
terminologie du domaine
Problème
de traduction des termes
terme = "manifestation linguistique d'un concept dans un
texte"
Les objectifs du système SyDoM
manuelle (qualité / quantité)  automatisation
 Multilingue :
 Indexation
utilisation d’un langage pivot
 Améliorer
la précision des index :
prise en compte des relations
 Gérer
et normaliser les connaissances
 Différencier le terme du concept  ontologie
 Besoin
d’un modèle de représentation des connaissances
Les Graphes Sémantiques
Un arc
Un type de concept
tc1.1
2
tr1
1
tc2.1
1
tr2
2
tc1.2
Un terme label d’un type de concept
Personne
2
1
agen 1
Expérimentation
t
patien 2
t
Moteur
« Tom réalise une expérimentation sur un moteur »
Une ontologie
Ensemble des
types de concepts
Ensemble des
vocabulaires
T
Engine
Experimentation
tc1
tc1.1
tc1.2
tc1.2.1
Vocabulaire
anglais
tc2
tc2.1
Expérimentation
Moteur
Vocabulaire
français
Les Graphes Sémantiques
Le niveau conceptuel :


une modélisation du domaine
ne dépend pas d’une seule langue (type  terme)
définit le langage pivot
Le niveau terminologique :


vocabulaire = ensemble de termes d’une langue
le terme dans un contexte référence un concept
 terme = label d’un type
définit les
l’utilisateur
langages
de
présentation
pour
Les Graphes Sémantiques :
Projection étendue
Spécialise
ou généralise les types
Ne conserve pas le nombre de nœuds concepts
Conserve le nombre d ’arcs
H
Développement
G
Développement
1
but
1
2
Carburant
but
2
Diesel
Relation de
spécialisation
Projection
étendue
Carburant
2 composant
1
Moteur
monocylindre
SyDoM: 3 modules
Module Gestion de l’ontologie
Module Indexation
 Annotation
 Construction
des index
 MAJ de l’ontologie
Module Recherche
 Construction
d'une requête
 Traduction en langage pivot
 Recherche de documents
 Visualisation
Indexation
experimental
study of
combustion in
diesel engine
L’ontologie
Documentaliste
Mise à jour de l’ontologie
Index
1
2
experiment
al study of
combustion
in diesel
engine
Annotations
Annoter un document avec SyDoM
Annoter le document avec SyDoM
Construction de l'index
Construction de l'index
Résultat d'une recherche
Visualisation des résultats
Si l’utilisateur souhaite connaître l’endroit de la
deuxième annotation de « moteur diesel » dans le
texte, alors en cliquant sur « 2 » le système surligne
l’occurrence dans le texte
Si l’utilisateur clique sur un lien hypertexte
alors le système affiche la définition du
concept ou de la relation sélectionné
FRE 2672
Indexation semi automatique
de corpus multilingues
basée sur une ontologie
Farah HARRATHI
Outline
Context: SyDoM prototype
indexing semi-automatic indexing
 Large scale corpora
 Manual
A new indexing procedure
 Language
properties
 Statistical and linguistic method
Experimentation and Future works
20
State of the Art : Concept Extraction
Monolingual Corpora
1.
2.
3.
Statistical Methods : ANA, etc.
Linguistic Methods : LEXTER, NOMINO, FASTER, etc.
Hybrid Methods : XTRACT, SYNTEX, EXIT, etc.
Multilingual Corpora :


Endogenous Method
Latent Semantic Indexing Method  parallel corpora
Terms gathering:
Contextual Distribution
21
Our Proposition : Theory
General language properties
 Least
Effort Principle
 Saussure Principle
 Word Sequence
 Term Unicity
Statistic and linguistic analysis
 Mutual
Information
 Contextual Distribution
22
General Language Properties
Principle of Least Effort
Empty words are frequent and short.
Saussure Principle
Local differences help identifying empty from non empty
words
Word sequences
2 patterns are possible NEN or NEEN
Unicity Principle
In a textual unit, two occurrences of the same term cannot
be found.
23
Corpus pre processing
List of words, word frequencies, size and position
24
Simple Terms Extraction
S
A
Lexical data
available after
corpus preprocessing.
word
categorization
Candidate
terms
validation
terms
matching
ontology
25
Mutual Information
MI(x,y)=log2(P(x,y)/(P(x)P(y)) = log2(N*f(x,y)/f(x)f(y))
Term frequency « graphe »
9313
Term frequency« conceptuel »
8205
Term frequency« conceptuel » at position p+1 such 7522
as « graphe » is at the position p
If 2 words, T1 and T2, appear together in the corpus in a
significative way then the sequence of these 2 words (T1T2)
is considered as a new term of the domain untitled a
compound term.
26
Compound Term Extraction
Mutual Information is used to determine compound
terms.
Iterative and incremental process.
Addition of new
terms
Terms lists
Detection of new
terms
New terms
27
Contextual Distribution
1) T1T2
4) T3T2T5
7) T5T4T3
2) T3T4T1
5) T3T4T5
8) T3T2T1
3) T5T2T3
6) T1T4
distribution of T2 :(T1), (T5-T3), (T3-T5), (T3-T1).
distribution of T4 :(T3-T1), (T3-T5), (T1), (T5-T3).
if 2 terms have similar contextual distributions, then
they are 2 occurrences of the same concept.
28
Concept labelling
If 2 terms have the same context they are
semantically closed.
« the inventory of products in dump »
« the inventory of products in warehouse »
« the inventory of products in store »
terms « dump », « warehouse » and « store » belong to the
same concept
Ontology concept
Stocking Place
Build concept (to name)
?
Store
matching
Garage
Warehouse
Warehouse
Store
Dump
Dump
Drugstore
29
Experimentation
30 doctor’s prescriptions
Extraction of compound terms
Comparison with TerminologyExtractor
Patient âgé de 55 ans, adressé par le Dr M. pour coronarographie en vue d'une
revascularisation.
Ce patient sportif réalise régulièrement des épreuves d'effort à titre systématique.
En janvier 1990, l'épreuve d'effort était négative à 210 watts. Le 27.11.91, elle
s'avérait positive et symptomatique dès 120 watts.
La scintigraphie myocardique réalisée en décembre montrait une ischémie
antérieure.
La coronarographie a mis en évidence une sténose de l'IVA distale sub-occlusive
et la même lésion sur la circonflexe distale. Ces deux vaisseaux sont
revascularisés par collatéralité, la fonction ventriculaire gauche est normale.
30
Word categorization results
31
Compound term extraction results
32
Conclusions et perspectives
Generic method of concept extraction using large scale
multilingual corpora
Combination of linguistic and statistical approaches.
SyDoM prototype evolution
Semi automatic indexing
Tests on several corpora in order to find appropriate
thresholds.
Relation extraction method?
33
FRE 2672
A Conceptual Graph
Based Framework
For Structured Document
Retrieval
Rami HARRATHI
Proposition
Proposer un modèle logique d’interrogation de
partie de document.
Toujours basé sur les Graphes Conceptuels.
Repart des travaux de Ammar Kheirbek et Yves
Chiramella.
35
Perspectives
Classification de documents techniques à base
d’ontologies multilingues
 Prise
en compte de la structure logique, sémantique du
document.
 Différents niveau de ressources sémantiques
Ontologie
formelle pour la gestion de projet
Ontologie linguistique pour l’indexation de document.
Une bourse du ministère à la recherche d’un bon
étudiant de Master Recherche
voir liris.cnrs.fr/actu/these2008 sujet N°4.