Présentation de Jamel Jridi

Download Report

Transcript Présentation de Jamel Jridi

Ontologies
dans le domaine des affaires
Jamel Eddine Jridi
10 Avril 2014
Introduction
•   Échange électronique de documents.
•   Grande quantité de documents en B2B:
•   Des relevés des transactions,
•   Des bons de commandes,
•   Des contrats, etc.
•   Différentes branches d’affaires.
•   Plusieurs définitions des documents.
2
Problématique
1
•   « Reference » :
–   (1) Transaction de paiement
–   (2) Numéro de la commande
•   « Total » :
–   (1) Montant TTC
–   (2) Montant sans taxes
2
2
3
Problématique
•   Utilisation de la même définition d’informations.
•   Comment les informations et les données sont utilisées et définies ?
•   Description: structure + sémantique + relation entre les concepts.
•   Rendre possible à la machine d’interpréter les données.
•   Création d’une ontologie partagée entre les applications d’affaire.
Ingénierie de documents
4
Définition de l’ingénierie
de documents
“ L’ingénierie de documents est une nouvelle discipline pour la
spécification, la conception et la mise en œuvre des documents échangés
électroniquement. Cette discipline est appliquée dans plusieurs domaines
afin de faciliter la communication et gérer la grande masse
d’informations qui circulent dans/et en dehors d’un organisme.”
[Glushko et al. 2005]
5
Processus d’ingénierie de
documents
•   Basé sur des méthodes d’analyse et de conception:
–   Analyse de processus d’affaire.
–   Analyse des tâches.
–   Analyse de documents.
–   Analyse de données.
6
Processus d’ingénierie de
documents
4
2
•   L’analyse de
contexte
d’utilisation
1
•   Modélisation
de processus
d’affaire
•   L’analyse de
documents et
de composantes
3
•   La conception
de modèles des
documents
•   L’implémentation
des modèles et
encodage en XML
5
[Glushko et al. 2005]
7
Processus d’ingénierie de
documents
4
2
•   L’analyse de
contexte
d’utilisation
1
•   Modélisation
de processus
d’affaire
•   L’analyse de
documents et
de composantes
3
•   La conception
de modèles des
documents
•   L’implémentation
des modèles et
encodage en XML
5
[Glushko et al. 2005]
8
Étape 1: Analyse de contexte
d’utilisation
•   Contexte général: Gestion des bons de commande
•  
Étapes: demande + traitement + confirmation de la commande
•   Participants: acheteur + vendeur
9
Processus d’ingénierie de
documents
4
2
•   L’analyse de
contexte
d’utilisation
1
•   Modélisation
de processus
d’affaire
•   L’analyse de
documents et
de composantes
3
•   La conception
de modèles des
documents
•   L’implémentation
des modèles et
encodage en XML
5
[Glushko et al. 2005]
10
Étape 2: Modélisation du
processus d’affaire (1/2)
Questions
Quel est le nom du processus?
Quel est l’objectif de ce processus?
Réponces
Gestion de bons de commande
But: gestion des bons de commande.
•   Envoi de bons de commande.
•   Traitement de la commande.
•   Confirmation de la commande.
Quelles sont les industries, les •   Services de cartes de crédit.
organisations impliquées dans le •   Fournisseur.
processus?
•   Sociétés de livraison.
Quelles sont les intervenants ou les •   Client (acteur principal)
•   Vendeur (acteur principal)
processus?
11
Étape 2: Modélisation du
processus d’affaire (2/2)
Processus d’ingénierie de
documents
4
2
•   L’analyse de
contexte
d’utilisation
1
•   Modélisation
de processus
d’affaire
•   L’analyse de
documents et
de composantes
3
•   La conception
de modèles des
documents
•   L’implémentation
des modèles et
encodage en XML
5
[Glushko et al. 2005]
13
Étape 3: L’analyse de
documents et de composantes
•   Analyse des documents basée sur:
–   Le contenu,
–   La structure,
–   La présentation et la sémantique des informations.
•   Création d’un modèle conceptuel.
–   Organiser les composantes (dépendance fonctionnelle).
–   Optimiser la réutilisation.
–   Minimiser la redondance.
14
Processus d’ingénierie de
documents
4
2
•   L’analyse de
contexte
d’utilisation
1
•   Modélisation
de processus
d’affaire
•   L’analyse de
documents et
de composantes
3
•   La conception
de modèles des
documents
•   L’implémentation
des modèles et
encodage en XML
5
[Glushko et al. 2005]
15
Étape 4 & 5: La conception
et l’implémentation des
modèles
•   Étape d’analyse
Étape de conception = Modèle conceptuel
•   Modèle conceptuel (liens entre les patterns ) = Diagramme de classes
•   Modèle conceptuel
encodage en XML = DTD, Schéma XML
16
Échange électronique en e-Business
•   EDI (Electronic Data Interchage) depuis 1960.
•   Supporté par 90% des grandes entreprises. [Huemer et al., 2002]
•   Organismes en B2B
•   Standards définis en XML
17
XML vs. OWL (Web Sémantique)
•   XML : structuration des documents.
[Hitzler et al., 2009]
•   XML ne fournit aucun moyen d’approcher la sémantique.
•   Interprétation de la sémantique de données par la machine.
•   Raisonnement sur les données (p.e. Pellet et Racer).
•   Ontologie: ensemble structuré des termes et concepts reliés
pour décrire et représenter un domaine de connaissance.
•   RDF / RDFS (2003) à OWL 1.0 (2004) à
OWL 2.0 (2012)
18
Ontologies dans le domaine
des affaires
19
Intégration de la sémantique aux
standards d’affaire
•   La sémantique dans ebXML: [Dogac et al., 2004], [Dogac et al.,
2005] et [Schulte et al., 2010]
•  
[Haller et al., 2008] et [Kotinurmi et al., 2009] : intégration des
ontologies à RosettaNet à l’aide du langage WSML.
•  
Les ontologies en ebXML et RosettaNet # la syntaxe OWL
•  
RosettaNet Ontology définis en OWL.
20
Intégration de la sémantique aux
standards d’affaire
•   Langages de modélisation des services web (OWL-S, WSML)
- Toujours dans le niveau prototypage.
- Adaptation difficile par les systèmes d’entreprises.
- Difficulté de la réalisation des raisonnements.
- Vérification de la consistance inexistante.
- Migration nécessaire vers la syntaxe OWL.
Prendre en considération les efforts mis dans la modélisation XML.
Transformation vers OWL.
21
Transformation des standards
d’affaire [Jridi et al. 2013]
Ontologies OWL 2.0
(OWL/XML)
DTD2XSD
XSD2OWL
RosettaNet: 112 PIPs parmi 132 disponibles (90 en XML Schema et 22 DTDs).
•  
xCBL: 44 documents en XML Schema.
•  
cXML: 2 documents en DTD.
•  
ebXML: 2 documents en XML Schema (ebBP et ebCPPA).
•  
23
Règles de transformation
XSD2OWL [Jridi et al. 2013]
XML Schema
OWL 2.0
24
Règles de transformation
XSD2OWL [Jridi et al. 2013]
XML Schema
OWL 2.0
25
Règles de transformation
XSD2OWL [Jridi et al. 2013]
XML Schema
OWL 2.0
26
Exemple PIP3A4
[Jridi et al. 2013]
PIP3A4
# ComplexTypes
7
# attributs (xsd:attribute)
1
@type refère à un SimpleTypes
1
# éléments ayant Element@ref
23
# éléments ayant Element@name
37
# ligne de code dans le fichier XSD
782
# ligne de code dans le fichier OWL
5565
Class. <OrderLineItemType>
Data Property. <has_UnitOfMeasure> domain: <ProductLineItemType>
range: Énumération (10P:10-pack). !
Object Property. <ShipTo>
domain: <ProductLineItemType>
range: <SpecifiedPartnerDescriptionType>
27
Transformation des standards
d’affaire
•   ReDeFer [Garcìa et al., 2007]:
- XML Schema à RDF
•  
•  
ebXML et BizOntos.
-
Certains aspects ne sont pas traités (p.e. annotations).
-
Résultats non valides sur xCBL, RosettaNet et cXML.
-
Validation de la transformation.
XS2OWL [Tsinaraki et al., 2007]!
-
Résultats non valides sur xCBL, RosettaNet et cXML.
-
Validation de la transformation
-
XML Schema à
-
Standards Multimédia MPEG-7 et MPEG-21.
OWL
JXML2OWL [Rodrigues et al., 2008]:
-
Transformation manuelle.
-
Ontologies de grande taille.
-
Qualité des règles de transformation.
-
DTD et XML Schema à
-
Intégré dans B2BISS [Cardoso et al., 2011] pour cXML.
OWL
22
Approche de regroupement
des concepts
❑ But:
① Regrouper les classes qui partageant des propriétés.
② Améliorer la représentation de l’ontologie.
③ Maintenance plus efficace.
!
❑ Analyse formelle de concepts (FCA) [Wille et al.,2005] :
Méthode mathématique d’analyse de données.
Description des relations entre des objets.
Basée sur les Treillis.
!
28
Approche de regroupement
des concepts
!
ONTOLOGIE OWL 2.0
EXTRACTION
DES PROPRIÉTÉS
EXTRACTION
DES CLASSES
CROSS TABLE
OWL API
29
Formal Concept Analysis
R
p
p
p
o
x
x
x
x
x
x
x
x
x
o
…
p
…
o
x
•
o1..k (k est le nombre des classes dans l’ontologie).
•
p1..m (m est le nombre des propriétés dans l’ontologie: data + object).
•
Ri,j marqué par “x” (si le domain de la propriété pj est la classe oi).
!
30
Approche de regroupement
des concepts
!
ONTOLOGIE OWL 2.0
EXTRACTION
DES PROPRIÉTÉS
EXTRACTION
DES CLASSES
CROSS TABLE
OWL API
GÉNÉRATEUR DES CONCEPTS GÉNÉRATEUR DES TREILLIS TREILLIS
31
Extrait du Treillis de
PIP3A4 Ontology (Purchase Order Request)
[Jridi et al., 2013]
13 + 6 = 19
Classes de l’ontologie
Concepts intermédiaire
7 + 6 = 13
ProductLineItem
7
ServiceLineItem
30
Approche de regroupement
des concepts
!
ONTOLOGIE OWL 2.0
EXTRACTION
DES PROPRIÉTÉS
EXTRACTION
DES CLASSES
CROSS TABLE
OWL API
GÉNÉRATEUR DES CONCEPTS GÉNÉRATEUR DES TREILLIS TREILLIS
33
Expérimentation sur
RosettaNet PIPs Ontology
All PIPs (Avant)
All PIPs (Après)
Définition de la métrique
noc
1252
1252 Nombre de classes.
nodp
3045
3045 Nombre de Data Property.
noop
2607
2607 Nombre d’Object Property.
nop
5652
5652 Somme de nodp et noop.
nosc
0
norc
1252
nolc
1252
384 Nombre de sous classes.
1050 Nombre de classes sans superclasses (root classes).
868 Nombre de classes (sans sousclasses).
rr
1
0.93 nop/(nop+nosc)
ir
0
0.31 Moyenne du nombre de sous classes par classe.
[Sicilia et al., 2012] 34
Expérimentation sur
RosettaNet PIPs Ontology
•
nosc et ir
, norc et nolc
• 90 concepts distincts (concepts partagés par les PIPs).
• Augmentation de la métrique d’héritage de 0 à 0.31.
• Chaque concept contient au moyenne 2 classes.
❑ Validation manuelle:
– Parmi les 90 concepts détectés: 79 ont effectivement une
sémantique commune.
– Précision : 87%.
35
Expérimentation dans la gestion
des bons de commande
RosettaNet
Request
Avant
Après
xCBL
Confirm
Avant
Après
Request
Avant
cXML
Confirm
Après
Avant
Request
Après
Avant
Confirm
Après
Avant
Après
nosc
0
60
0
58
0
0
0
0
0
0
0
0
norc
151
91
143
85
66
66
33
33
17
17
27
27
nolc
151
133
143
126
66
66
33
33
17
17
27
27
rr
1
0.86
1
0.87
1
1
1
1
1
1
1
1
ir
0
0.40
0
0.41
0
0
0
0
0
0
0
0
Précision
72%
71%
0%
0%
0%
0%
36
Problème d’hétérogénéité
•   Plusieurs ontologies résultantes.
•   Ontologies pas compatibles (structure et vocabulaire).
•   Pas d’ontologie commune ou de vocabulaire commun.
•   Bonne interopérabilité.
•   Communication fiable entre les entreprises.
37
Types d’hétérogénéité
•   Syntaxique : Utilisation des plusieurs langages de modélisation.
•  
Terminologique : Existence de la synonymie.
Concepts From de cXML et SenderType de RosettaNet semblables.
•   Conceptuelle : Niveau de détail dans la représentation de connaissance.
PaymentMethodType de xCBL.
PrePaymentDetailType et PartPaymentType de RosettaNet.
•   Pragmatique : Interprétation d’une entité selon le contexte.
38
Alignement d’ontologies
L’alignement est un processus qui trouve des liens sémantiques ou un
ensemble de correspondances entre les entités de ces ontologies (des
classes, des propriétés, etc.).
[Euzenat et al., 2008]
paramètres (p)
O1
Processus
d’alignement
A
O2
A,
ressources (r)
39
Techniques d’alignement
(Terminologique)
À base de caractères : les noms des entités est une séquence de caractères.
- Distance de Hamming !
- Distance de Levenshtein
40
Techniques d’alignement
(Terminologique)
À base des tokens : les noms des entités est une séquence de tokens.
p.e. PurchaseOrderType à
purchase, order, type
- Métrique de Jaccard
- Mesure Cosinus
où Ai et Bi sont respectivement les poids TFIDF du terme i dans A et B.
41
Techniques d’alignement
(structurelle)
- Structure interne et relationnelle des entités.
- Interne : type des propriétés (range), les cardinalités, etc.
- Propriétés ayant un domain et un range similaires seront alignées.
Le
! nombre de correspondances possibles.
!
Plusieurs propriétés partageant le même type de données.
- Relationnelle : les relations entre entités.
- Les ontologies sont des graphes conceptuels étiquetés.
- Deux noeuds sont similaires si leurs voisins sont similaires.
!
42
Outils d’alignement
[Schvaiko et al., 2013]
- Dimensions de classification des systèmes d’alignement.
Données d’entrée
• Modèle conceptuel (schéma relationnel, RDF, OWL, etc.).
• Niveau de granularité de données (schéma ou instance).
Processus d’alignement • Méthode d’alignement (terminologique, structurelle, hybride). • Mesure de similarité.
Résultat d’alignement
• Alignement de deux ontologies.
• Migration de données.
43
Outils d’alignement
[Schvaiko et al., 2013]
OLA2 (OWL Lite Alignment) [Djoufak et al., 2007]
ASMOV (Automated Semantic Mapping of Ontologies with Validation)
[Jean-Mary et al., 2009]
Falcon [Hu et al., 2008]
44
Alignement dans la chaîne
d’approvisionnement
45
Alignement dans la chaîne
d’approvisionnement
•   Alignement avec la distance Levenshtein
•  
Alignement avec TFIDF
Prendre avantage des commentaires et de la documentation.
•   Alignement avec OLA2
Meilleur performance dans les OAEI
•   Évaluation
TP : nombre de bonnes correspondances correctement identifiés.
FP : nombre de mauvaises correspondances identifiées comme bonnes.
FN :nombre de bonnes correspondances non identifiées par l’algorithme.
46
Alignement avec Levenshtein
•  
Exemple
similarite(“discountType”, “countryType”) = 1 – 5 / 12 = 0.58
47
Alignement avec TFIDF
Entité #1
OrderRequestHeaderType contains the header information of the OrderRequest
Entité #2
PurchaseOrderRequestType Top level object for a Purchase Order business document
Segmenteur
Entité #1
order request header type contains the header information of the order request
Entité #2
purchase order request type top level object for a purchase order business document
Module linguistique
Entité #2
TF
DF
purchase
2
11
order
2
24
request
1
12
top
1
1
level
1
3
object
1
26
business
1
111
document
1
47
Entité #1
order request header type contain the header information of the order request
Entité #2
purchase order request type top level object for a purchase order business document
Entité #1
Indexeur
TF
DF
order
2
24
request
2
12
header
2
2
contain
1
25
information
1
67
48
Alignement avec Levenshtein
et TFIDF
L : Levenshtein
T : TFIDF
49
Alignement avec Levenshtein
et TFIDF
Exemple OrderRequest de cXML 50
Alignement avec OLA2
[Djoufak et al., 2007]
•  
Ontologies en OWL 2.0 avec OWL/XML.
•   !RDF/XML: format accepté par OLA2.
•   owl:import non prise par OLA2.
•   Adaptation de nos ontologies au format pris par OLA2.
•   Intégration des entités définis dans owl:import .
51
Alignement avec OLA2
[Djoufak et al., 2007]
52
Alignement avec OLA2
[Djoufak et al., 2007]
53
Discussion
Levenshtein, TFIDF, OLA2
70 %
F-­‐score
53 %
Levenshtein
TFIDF
OLA
35 %
18 %
0 %
xCBL
cXML
54
Conclusion
•   Problème d’ambiguïté sémantique.
•   Partage et échanges de documents efficaces.
•   Transformation des standards d’affaire en OWL.
•   Alignement entre ces standards.
•   Instances ou un thésaurus décrivant les termes du domaine d’affaire.
24