Le langage XML : fonctionnalités et standards associés Antoine Rizk EUROCLID

Download Report

Transcript Le langage XML : fonctionnalités et standards associés Antoine Rizk EUROCLID

Le langage XML :
fonctionnalités et standards associés
Antoine Rizk
EUROCLID
Antoine.Rizk: www.euroclid.fr
1
La problèmatique

Création de l’information : 20% du PNB

90% de l’information sont des documents

Traitement de texte et PAO traditionnels
- 30% du temps sur le formattage
- 30% du temps sur la recherche d’informations

La technologie change tous les 18 mois

US : nombre de documents produits/an = 92 Mds
Antoine.Rizk: www.euroclid.fr
2
Les solutions
1998
XML
1992
HTML
1986
WWW
SGML
Internet
1960
GM
Antoine.Rizk: www.euroclid.fr
3
XML : Avantages

Productivité

Réutilisabilité

Perrenité

Integrité

Partage

Portabilité
Antoine.Rizk: www.euroclid.fr
4
XML demain
A partir du deuxième semestre de l’an 2000 :
le volume des données XML sera plus important que celui des données
HTML.

- Gartner Group

47% des entreprises utiliseront XML

47% des entreprises utiliseront Linux

90% des entreprises utiliseront Java
- Java Web Panel survey, IBM 12/98
Antoine.Rizk: www.euroclid.fr
5
Introduction à XML
Premier exemple
<?xml version="1.0" standalone="yes"?>
<IdentityCard>
<FirstName>Antoine</FirstName>
<LastName>Rizk</LastName>
<CardNumber>11437398</CardNumber>
<Photo url="ar.gif"/>
</IdentityCard>
Antoine.Rizk: www.euroclid.fr
6
Documents bien formés
A chaque balise ouvrante doit correspondre une balise fermante
Balisage spécifique pour les éléments vides
<IMG SRC="picture.gif"/>
<IMG SRC="picture.gif"></IMG>
Les balises doivent s’imbriquer correctement
Une racine doit exister
Un élément ne peut avoir des attributs vides
<DL COMPACT>
incorrecte
<DL COMPACT="">
correcte
Antoine.Rizk: www.euroclid.fr
7
Documents valides
Un document valide doit
être bien formé
ET
se conformer à une grammaire (DTD)
Antoine.Rizk: www.euroclid.fr
8
La DTD
<!ELEMENT obs (loc, date, temp?, hygro?, nebulo?, anemo?, pluvio?) >
<!ATTLIST obs num ID #REQUIRED >

Document Type Definition
- Structure générique logique
- Grammaire de la structure du document




Etablit les règles de structure de documents
Définit les noms d'éléments
Définit les relations entre éléments
Déclare les attributs ainsi que leurs types
parser
validant
Document
sortie
erreurs
DTD
Antoine.Rizk: www.euroclid.fr
9
Les parsers

Modèle événementiel (SAX)
- Callback appelé pour chaque événement :
- début balise, attribut, fin document etc..

Peut être efficace sur les gros documents
- L’arbre n’est jamais construit entièrement en mémoire
Antoine.Rizk: www.euroclid.fr
10
Les parsers (API DOM)

Un modèle d’arbre est construit en mémoire (arbres
abstraits)

L’application accède par API à l’arbre pour le
manipuler

API DOM est normalisée (recommandation W3C)
Antoine.Rizk: www.euroclid.fr
11
Limites d’une DTD




Un langage différent de celui des instances
Limité à la structure d’arbre, différent du modèle R
Pas de typage de contenu
Pas d’héritage
=> possibilité d’utiliser des schémas : XML-Schema
Antoine.Rizk: www.euroclid.fr
12
Données/documents
dept poste
labo
compta
322
456
<telephone poste="322">
LABO 322
<dept>labo</dept>
RIZK,Courtaud
<person>Rizk</person>
<person>Courtaud</person>
</telephone>
nom poste
Rizk
322
Courtaud 322
Parigot
456
Antoine.Rizk: www.euroclid.fr
13
Données ou documents ?
<chapitre>
<titre>ceci est un fragment d'un livre</titre>
<note>
<par> cette note contient deux paragraphes
</par>
<par> un autre paragraphe
</par>
</note>
<transaction>
</chapitre>
<time date="19980509"/>
<amount>123</amount>
<currency type="pounds"/>
<from id="X3543>G.Dupont</from>
<to id="X7987>J.Smith</to>
</transaction>
Antoine.Rizk: www.euroclid.fr
14
Traitement XML/XSL

Parsing et traitement applicatif
- import dans un SGBD

Regénération : export d’un SGBD

Fusion de données, génération d’arbre,
transformation
- XSL

Présentation
- CSS, XSL
Antoine.Rizk: www.euroclid.fr
15
<date>décembre, 1997</date>
XSL
Source
XML
W3C XSL
Sortie (y)
FO
Résultat
FO
Interpreter
(y)
{\c6\f12\i décembre,
1997\par}
Sortie (x)
FO
XSL
Feuille de
style XSL
Interpreter
Transformer
(x)
<P STYLE="fontstyle:italic;color:green">
décembre, 1997</P>
Sortie (z)
<fo:block font-style=
"italic" color="green"
xmlns:fo="http://www.w
3.org/TR/WDxsl/FO">décembre,
1997</fo:block>
FO
Interpreter
(z)
...
<xsl:template match="date">
<fo:block font-style="italic" color="green">
<xsl:apply-templates/>
Antoine.Rizk:
</fo:block>
</xsl:template>
www.euroclid.fr
16
XML + XSL
SGBDR
Terminal
XML
SGBDO
Fichiers
X
M
L
Internet/Intranet
XSL
Terminal
HTML
Portail/
Serveur d’intermédiation
Terminal
WAP
Antoine.Rizk: www.euroclid.fr
17
XML+XSL
SGBD-R
labo
Terminal
XML
322
<telephone poste="322">
compta
456
<dept>labo</dept>
<person>Rizk</person>
Données XML
Plus feuilles XSL
<person>Israel</person>
Internet/Intranet
Terminal
HTML
</telephone>
SGBD-O
Rizk
322
Israel
322
Parigot
456
Terminal
HTML/XML
Antoine.Rizk: www.euroclid.fr
18
XML + XSL generic architecture
Client-side XSL transform
Client-side prog. -> DOM
Query handling
Server-side XSL transform
R-DBMS
XML+HTML
Browser
Net + HTTP server(s)
HTML/XML:
graphics rendering
under CSS / XSL fo control
G
X
M
L
XML
R-DBMS
Middle-tier server
XSL
XQL
XML
OO XML Repository
Antoine.Rizk: www.euroclid.fr
19
Ex. 2 : ré-ingénierie de données
R-DBMS-1
DB2XML
XML
DBMS-2(IR)
DBMS-3
DB2XML
DB2XML
XML
XML
XML statique
Transformations (scripts)
Feuille XSLT
Processeur XSLT
XML données fusionnées
Script
python
Impression catalogue
Antoine.Rizk: www.euroclid.fr
DB-RESULTAT
20
Antoine.Rizk: www.euroclid.fr
21
Les limites









XML reste au niveau syntaxique
Pas de typage
Pas de sémantique
Pas de relations/rôles entre concepts
=>
Les liens hypertextes : XLL (Xlink+Xpath)
Les métadonnées : RDF spec et RDF schema
Les schémas typés : XML-Schema
Les topic maps
Antoine.Rizk: www.euroclid.fr
22
Liens simples
resource
Link element
Link
Document A
Antoine.Rizk: www.euroclid.fr
Document B
23
Xpath
Document A
Antoine.Rizk: www.euroclid.fr
Document B
24
Liens étendus
Link elements
Document A
Antoine.Rizk: www.euroclid.fr
Document B
25
Liens étendus “out of line”
Link elements
Document C
Document AAntoine.Rizk: www.euroclid.fr Document B
26
Topic maps
www.infoloom.com
Antoine.Rizk: www.euroclid.fr
27
L’enjeu







Définir une ontologie par domaine
Organiser les schémas de navigation
DTD + concepts + roles + sémantique = ontologie
ontologie + thesaurus = RDF schema
RDF schema => RDF specifications => métadonnées
Augmenter le taux de précision
Diminuer le taux de rappel
Antoine.Rizk: www.euroclid.fr
28
L’évolution documentaire
Structure sémantique
Structure syntaxique
Formats
monomédia
RDF
Ontologie,
Thesaurus
XML,XSL
XQL,XLL, SMIL...
Intermédiation
Production
Publication
ASCII, JPEG, MPEG...
Antoine.Rizk: www.euroclid.fr
29
L’état actuel










XML : recommandation 10 fév 1998
DOM : DOM1 (1er oct 1998), DOM2 (Candidate 10 mai 00), DOM3..
Xlink, Xpointer : WD
SVG : WD V8
SMIL : WD V3
XSLT + Xpath : recommandation 16 nov 1999
XSL : WD final
MathML : V1 (recommandation Avr 1998), V1.1 (Juil. 99), V2 (WD)
XML Schema , XMLQuery
RDF : Model&syntax (recommandation fév 1999),schema spec
(candidate Mars 2000)


XHTML
Xforms : WD 1
Antoine.Rizk: www.euroclid.fr
30
Autres applications (1)



















Channel Definition Format, CDF (Based on XML)
Web Collections using XML
Meta Content Framework Using XML (MCF)
XML-Data
ANZLIC - Metadata
XML Metadata Interchange Format (XMI) - OMG
Educom Instructional Management Systems Project (IMS)
Structured Graph Format (SGF)
Legal XML Working Group
Web Standards Project (WSP)
Open Software Description Format (OSD)
XLF (Extensible Log Format) Initiative
WAP Wireless Markup Language Specification
HTTP Distribution and Replication Protocol (DRP)
Chemical Markup Language
Bioinformatic Sequence Markup Language (BSML)
Virtual Hyperglossary (VHG)
Weather Observation Definition Format (OMF)
vCard Electronic Business Card



















Open Financial Exchange
Open Trading Protocol (OTP)
Signed Document Markup Language (SDML)
Bank Internet Payment System (BIPS)
OpenMLS - Real Estate DTD Design
Customer Support Consortium
XML for the Automotive Industry - SAE J2008
X-ACT - XML Active Content Technologies Council
OpenTag Markup
CDIF XML-Based Transfer Format
Precision Graphics Markup Language (PGML)
Vector Markup Language (VML)
WebBroker: Distributed Object Communication on the
Web
Web Interface Definition Language (WIDL)
XML/EDI - Electronic Data Interchange
XML/EDI Repository Working Group
DISA, ANSI ASC X12/XML
Information and Content Exchange (ICE)
CommerceNet Industry Initiative
Antoine.Rizk: www.euroclid.fr
31
Autres application (2)




















LACITO Projet Archivage de données linguistiques
Astronomical Markup Language
GedML: [GEDCOM] Genealogical Data in XML
Newspaper Association of America (NAA) - Classified Ads
Format
Notes Flat File Format (NFF)
Java Help API
Cold Fusion Markup Language (CFML)
Document Content Description for XML (DCD)
XSchema
WEBDAV
Tutorial Markup Language (TML)
Java Speech Markup Language (JSML)
XML and VRML (Virtual Reality Modeling Language)
XML for Workflow Management [NIST]
SWAP - Simple Workflow Access Protocol
Theological Markup Language (ThML)
XML-F ('XML for FAX')
Extensible Forms Description Language (XFDL)
Broadcast Hypertext Markup Language (BHTML)
IEEE LTSC XML Ad Hoc Group

















Open Settlement Protocol (OSP) - ETSI/TIPHON
WDDX - Web Distributed Data Exchange
Common Business Library (CBL)
Open Applications Group - OAGIS 6
Schema for Object-oriented XML (SOX)
VoxML Markup Language
Telecommunications Interchange Markup (TIM, TCIF/IPI)
Encoded Archival Description (EAD)
UML eXchange Format (UXF)
Translation Memory eXchange (TMX)
Scripting News in XML
InterX.org Initiative
NuDoc Technology
Coins: Tightly Coupled JavaBeans and XML Elements
DMTF Common Information Model (CIM)
Process Interchange Format XML (PIF-XML)
Ontology and Conceptual Knowledge Markup Languages
Antoine.Rizk: www.euroclid.fr
32
Pour aller plus loin ..
www.w3c.org
www.oasis-open.org/cover
Antoine.Rizk: www.euroclid.fr
33