XML i nowoczesne technologie zarządzania treścią

Download Report

Transcript XML i nowoczesne technologie zarządzania treścią

XML i nowoczesne technologie
zarządzania treścią
Michał Kuciapski
[email protected]
Tematyka


2
Rozwój technik znakowania tekstu
Koncepcja XML-a
Markup – znakowanie

Markup Languages:
–
–
–

3
SGML – Standard Generalized Markup Language
HTML – Hypertext Markup Language
XML – Extensible Markup Language
Markup:
the process of marking manuscript copy for
typesetting with directions for use of type
fonts and sizes, spacing, indentation, etc.
(The Chicago Manual Of Style).
Początki znakowania tekstu
Nie lubię chodzić na wybory.
Za to na imprezy jak najbardziej.
4
Znakowanie tekstu w epoce
komputerów
Treść Nie lubię chodzić na wybory.
Za to na imprezy jak najbardziej.
+
Formatowanie {pogróbienie} {wyłącz_pogrubienie} {nowy_wiersz}
{wcięcie}
=
Dokument{pogróbienie} Nie lubię {wyłącz_pogrubienie} lubię chodzić na
wybory {nowy_wiersz} {wcięcie} Za to na imprezy jak najbardziej
|
Wynik
5
Nie lubię chodzić na wybory.
Za to na imprezy jak najbardziej.
Przykłady języków znakowania

Frame (MIF)

RTF
PostScript




6
TeX/LaTeX
Ventura
HTML
<Font <FTag ‘Jan’>>
<String ‘Jan’>
{\b\f5\cf1 Jan}
/Times-BoldR 900 ff
(Jan)W
\textbf{Jan}
<B>Jan<D>
<B> Jan </B>
Korzenie

7
Lata 60-te XX wieku:
–
1967 – William Tunnicliffe, prezes Graphic
Communications Association prezentuje ideę
oddzielenia zawartości merytorycznej
dokumentów od formatu
–
Stanley Rice proponuje użycie uniwersalnych
znaczników do znakowania struktury tekstu,
Formaty aplikacji


Większość aplikacji wprowadza własny wewnętrzny
format.
Nowe wersje aplikacji często w raz z rozbudową
funkcjonalności wprowadzają zmiany do używanego
formatu:
–
–

Konwertery:
–
8
wsteczna kompatybilność
brak możliwości zapisu do formatu
poprzednich wersji
–
tylko do najpopularniejszych formatów,
możliwość utraty danych podczas
konwersji.
Standardy


Brak uznanych standardów
Istnieją pesudostandardy w różnych dziedzinach:
–
–
–
–

Standard musi być:
–
–
–
9
biurowe: Microsoft Word,
naukowe: Postscript, TeX,
Internetowe: HTML, GIF, JPG,
wymiany danych: EDIFACT.
własnością publiczną,
otwarty i jawny,
niezależny od producenta oprogramowania.
Potrzeby w zakresie standardów

10
Wiele informacji elektronicznych powoduje
potrzebę struktury:
– Trudność dopasowania jednego formatu
dokumentu do wszystkiego
– Problemy z niekompatybilnymi formatami
Ewolucja Internetu
człowiek
|
aplikacja
początek
11
aplikacja
|
człowiek
aplikacja
|
aplikacja
czas
sytuacja obecna
Historia języków uogólnionego
znakowania tekstu





12
1969: GML – Generalized Markup Language
1986: SGML – Standard Generalized Markup
Language
1991: powstaje World Wide Web.
1994: HTML 2.0 zdefiniowany jako
zastosowanie SGML-a.
1998: XML – Extensible Markup Language,
World Wide Web Consortium.
SGML


13
Pierwsze szerzej znane zastosowania SGML:
– Electronic Manuscript Project, Association of American
Publishers, 1987
– CALS – Computer-Aided Acquisition and Logistic Support,
US Department of Defense, MIL-M-28001, February 1988.
Standardy pokrewne:
– DSSSL – Document Style Semantics and Specification
Language,
– HyTime:
 meta-notacja dla linków,
 opis struktur multimedialnych, rozciągniętych w czasie.
World Wide Web Consortium
(W3C)

Wiele standardów internetowych:
–
–
–

14
HTML – Hyper Text Markup Language
HTTP – Hyper Text Transfer Protocol
CSS – Cascading StyleSheets
XML – Extensible Markup Language
World Wide Web Consortium
(W3C) - XML
–
–
–
15
Najważniejsza rekomendacja ostatnich lat
Twórcy: Tim Bray (Netscape), Jean Paoli
(Microsoft), C.M. Sperberg-McQueen
(University of Illinois)
Obecne dominują prace nad standardami
związanymi XML-em
SGML / XML
Cel - Oddzielenie znaczenia tekstu
od sposobu prezentacji
<POLITYK>Andrzej Lepper</POLITYK>
<WYPOWIEDŹ>I tak jeszcze wrócę do władzy</WYPOWIEDŹ>
16
Prezentacja – przykład 1

POLITYK
–
–
–
nowy akapit
do lewej
pobrubienie

WYPOWIEDŹ
–
–
–
Lepper
I tak jeszcze wrócę do władzy
17
nowy wiersz
wcięcie 1,5 cm
Wyrównanie do lewej
Prezentacja – przykład 2

POLITYK
–
na marginesie
tekst pionowo
kolor niebieski
–
hiperlink do biografi
–
18
LEPPER
–

WYPOWIEDŹ
–
–
nowy wiersz
kursywa
I tak jeszcze wrócę do władzy
Modele

Przykłady:
–
–
–
–
19
encyklopedia: <nazwisko>, <imie>, <ur> <zm>
<dane>
ubezpieczenie: <dataPolisy>, <wartośćPolisy>
atrykuł: <tytuł>, <autor>, <treść>, <obrazek>,
<podpis>
samochód: <marka>, <model>, <rocznik>,
<kolor>
Koncepcja metajęzyku

Stan wyjściowy:
–
–

Wspólny metajęzyk:
–
–
–

20
Brak wspólnego języka
Pytanie czy jest możliwe jego opracowanie
znana gramatyka,
jednolita metodologia
identyczne narzędzia
Tworzenie języków pochodnych
dla specyficznych zastosowań.
Genealogia XML
...
RDF
CDF
SVG
XML
SGML
HTML
VRML
21
GML
...
Czym jest XML


XML nie jest językiem programowania
XML jest sposobem zapamiętywania danych wraz ze
strukturą:
–
–
–
–


22
otwarty
elastyczny
bezpłatny
niezależny od platformy sprzętowej
XML ma format tekstowy
XML jest podstawą do tworzenia języków
specyficznych dla zastosowań.
Struktura XML
Deklaracja XML
Element główny
Atrybut
Element
Znacznik początkowy
Zawartość tekstowa
Znacznik końcowy
23
SGML vs XML
• Koncepcja: jeden duży
• Koncepcja: wiele małych
•
•
•
•
•
24
system zarządzania
treścią.
Konieczność
definiowania struktury.
Skomplikowana
składnia, wiele opcji.
Trudność tworzenia
parserów.
Bardzo drogie
narzędzia.
•
komunikujących się ze sobą
modułów.
Opcjonalne definiowanie
struktury.
Uproszczona składnia.
• Łatwość tworzenia
•
parserów.
Darmowe narzędzia.
HTML vs XML
• Znaczenie elementów i ich
atrybutów z góry określone.
• Interpretację elementów
określa standard, a w praktyce
przeglądarki internetowe.
• To, co jest poprawne również
25
określają przeglądarki
internetowe.
• Znaczenie elementów i ich
atrybutów określa użytkownik
lub aplikacja.
• <p> może w jednym
dokumencie oznaczać paragraf,
w drugim pomoc, a w trzecim
pismo odręczne.
• Poprawność XML-a jest ściśle
określona przez specyfikację.
Zastosowania XML
Zarządzanie dokumentami,
przechowywanie danych:
Elektroniczna wymiana danych i
integracja aplikacji:
 Pierwotne zastosowanie
 Nowa klasa zastosowań
SGML
 Dokumenty tworzone przez
 Dokumenty tworzone i
człowieka i przeznaczone
dla człowieka
przetwarzane automatycznie
 Długi czas życia dokumentów  Dokumenty tworzone tylko na
 Typowy model mieszany
26
zawartości

czas komunikacji – serwisy
XML
Konieczność dokładnego
kontrolowania struktury i
zawartości - SOAP
Dwie twarze XML-a
Dokument tekstowy:
27
Baza danych:
<zamowienie>
<pozycja>
<nazwa>Laptop</nazwa>
<jednostka>szt
</jednostka>
<ilosc>3</ilosc>
</pozycja>
<zamawiajacy id=”123456”>
<imie>Anna</imie>
<nazwisko>Płocka
</nazwisko>
<firma>UG
</firma>
</zamawiajacy>
</zamowienie>