Diapositive 1
Download
Report
Transcript Diapositive 1
FRE 2672
Ontology Multilingue
et Système Documentaire
Farah HARRATHI (PhD)
Rami HARRATHI (PhD)
Catherine ROUSSEY (MCF),
Sylvie CALABRETTO (HDR),
Plan
SyDoM Système Documentaire Multilingue
Passage à l’échelle
Travaux
de Farrah HARRATHI
Documents Structurés:
contenu et la structure
Travaux
interrogation
par
le
de Rami Harrathi
Perspectives
2
Introduction
Problématique
Recherche d’Information dans un corpus Multilingue (RIM)
Indexation: Amélioration de la représentation de l’information
Contexte Doc ’INSA: les preprints de la SAE
Contenu textuel
Articles anglais de mécanique
Public français: étudiants ou chercheurs
Problème: indexation?, interrogation?, visualisation?
Format pérenne XML
Proposer un système capable de répondre aux besoins d'une
bibliothèque spécialisée Système Documentaire Multilingue
3
Notice Bibliographique
RIM : les ressources linguistiques
Nécessaires
Construction
difficile
Qualité ressources qualité résultats
Adéquation ressources / corpus :
connaissance
du domaine
terminologie du domaine
Problème
de traduction des termes
terme = "manifestation linguistique d'un concept dans un
texte"
Les objectifs du système SyDoM
manuelle (qualité / quantité) automatisation
Multilingue :
Indexation
utilisation d’un langage pivot
Améliorer
la précision des index :
prise en compte des relations
Gérer
et normaliser les connaissances
Différencier le terme du concept ontologie
Besoin
d’un modèle de représentation des connaissances
Les Graphes Sémantiques
Un arc
Un type de concept
tc1.1
2
tr1
1
tc2.1
1
tr2
2
tc1.2
Un terme label d’un type de concept
Personne
2
1
agen 1
Expérimentation
t
patien 2
t
Moteur
« Tom réalise une expérimentation sur un moteur »
Une ontologie
Ensemble des
types de concepts
Ensemble des
vocabulaires
T
Engine
Experimentation
tc1
tc1.1
tc1.2
tc1.2.1
Vocabulaire
anglais
tc2
tc2.1
Expérimentation
Moteur
Vocabulaire
français
Les Graphes Sémantiques
Le niveau conceptuel :
une modélisation du domaine
ne dépend pas d’une seule langue (type terme)
définit le langage pivot
Le niveau terminologique :
vocabulaire = ensemble de termes d’une langue
le terme dans un contexte référence un concept
terme = label d’un type
définit les
l’utilisateur
langages
de
présentation
pour
Les Graphes Sémantiques :
Projection étendue
Spécialise
ou généralise les types
Ne conserve pas le nombre de nœuds concepts
Conserve le nombre d ’arcs
H
Développement
G
Développement
1
but
1
2
Carburant
but
2
Diesel
Relation de
spécialisation
Projection
étendue
Carburant
2 composant
1
Moteur
monocylindre
SyDoM: 3 modules
Module Gestion de l’ontologie
Module Indexation
Annotation
Construction
des index
MAJ de l’ontologie
Module Recherche
Construction
d'une requête
Traduction en langage pivot
Recherche de documents
Visualisation
Indexation
experimental
study of
combustion in
diesel engine
L’ontologie
Documentaliste
Mise à jour de l’ontologie
Index
1
2
experiment
al study of
combustion
in diesel
engine
Annotations
Annoter un document avec SyDoM
Annoter le document avec SyDoM
Construction de l'index
Construction de l'index
Résultat d'une recherche
Visualisation des résultats
Si l’utilisateur souhaite connaître l’endroit de la
deuxième annotation de « moteur diesel » dans le
texte, alors en cliquant sur « 2 » le système surligne
l’occurrence dans le texte
Si l’utilisateur clique sur un lien hypertexte
alors le système affiche la définition du
concept ou de la relation sélectionné
FRE 2672
Indexation semi automatique
de corpus multilingues
basée sur une ontologie
Farah HARRATHI
Outline
Context: SyDoM prototype
indexing semi-automatic indexing
Large scale corpora
Manual
A new indexing procedure
Language
properties
Statistical and linguistic method
Experimentation and Future works
20
State of the Art : Concept Extraction
Monolingual Corpora
1.
2.
3.
Statistical Methods : ANA, etc.
Linguistic Methods : LEXTER, NOMINO, FASTER, etc.
Hybrid Methods : XTRACT, SYNTEX, EXIT, etc.
Multilingual Corpora :
Endogenous Method
Latent Semantic Indexing Method parallel corpora
Terms gathering:
Contextual Distribution
21
Our Proposition : Theory
General language properties
Least
Effort Principle
Saussure Principle
Word Sequence
Term Unicity
Statistic and linguistic analysis
Mutual
Information
Contextual Distribution
22
General Language Properties
Principle of Least Effort
Empty words are frequent and short.
Saussure Principle
Local differences help identifying empty from non empty
words
Word sequences
2 patterns are possible NEN or NEEN
Unicity Principle
In a textual unit, two occurrences of the same term cannot
be found.
23
Corpus pre processing
List of words, word frequencies, size and position
24
Simple Terms Extraction
S
A
Lexical data
available after
corpus preprocessing.
word
categorization
Candidate
terms
validation
terms
matching
ontology
25
Mutual Information
MI(x,y)=log2(P(x,y)/(P(x)P(y)) = log2(N*f(x,y)/f(x)f(y))
Term frequency « graphe »
9313
Term frequency« conceptuel »
8205
Term frequency« conceptuel » at position p+1 such 7522
as « graphe » is at the position p
If 2 words, T1 and T2, appear together in the corpus in a
significative way then the sequence of these 2 words (T1T2)
is considered as a new term of the domain untitled a
compound term.
26
Compound Term Extraction
Mutual Information is used to determine compound
terms.
Iterative and incremental process.
Addition of new
terms
Terms lists
Detection of new
terms
New terms
27
Contextual Distribution
1) T1T2
4) T3T2T5
7) T5T4T3
2) T3T4T1
5) T3T4T5
8) T3T2T1
3) T5T2T3
6) T1T4
distribution of T2 :(T1), (T5-T3), (T3-T5), (T3-T1).
distribution of T4 :(T3-T1), (T3-T5), (T1), (T5-T3).
if 2 terms have similar contextual distributions, then
they are 2 occurrences of the same concept.
28
Concept labelling
If 2 terms have the same context they are
semantically closed.
« the inventory of products in dump »
« the inventory of products in warehouse »
« the inventory of products in store »
terms « dump », « warehouse » and « store » belong to the
same concept
Ontology concept
Stocking Place
Build concept (to name)
?
Store
matching
Garage
Warehouse
Warehouse
Store
Dump
Dump
Drugstore
29
Experimentation
30 doctor’s prescriptions
Extraction of compound terms
Comparison with TerminologyExtractor
Patient âgé de 55 ans, adressé par le Dr M. pour coronarographie en vue d'une
revascularisation.
Ce patient sportif réalise régulièrement des épreuves d'effort à titre systématique.
En janvier 1990, l'épreuve d'effort était négative à 210 watts. Le 27.11.91, elle
s'avérait positive et symptomatique dès 120 watts.
La scintigraphie myocardique réalisée en décembre montrait une ischémie
antérieure.
La coronarographie a mis en évidence une sténose de l'IVA distale sub-occlusive
et la même lésion sur la circonflexe distale. Ces deux vaisseaux sont
revascularisés par collatéralité, la fonction ventriculaire gauche est normale.
30
Word categorization results
31
Compound term extraction results
32
Conclusions et perspectives
Generic method of concept extraction using large scale
multilingual corpora
Combination of linguistic and statistical approaches.
SyDoM prototype evolution
Semi automatic indexing
Tests on several corpora in order to find appropriate
thresholds.
Relation extraction method?
33
FRE 2672
A Conceptual Graph
Based Framework
For Structured Document
Retrieval
Rami HARRATHI
Proposition
Proposer un modèle logique d’interrogation de
partie de document.
Toujours basé sur les Graphes Conceptuels.
Repart des travaux de Ammar Kheirbek et Yves
Chiramella.
35
Perspectives
Classification de documents techniques à base
d’ontologies multilingues
Prise
en compte de la structure logique, sémantique du
document.
Différents niveau de ressources sémantiques
Ontologie
formelle pour la gestion de projet
Ontologie linguistique pour l’indexation de document.
Une bourse du ministère à la recherche d’un bon
étudiant de Master Recherche
voir liris.cnrs.fr/actu/these2008 sujet N°4.