HM: Grundkonzepte

Download Report

Transcript HM: Grundkonzepte

Grundlagen
— Modellierung von Dokumenten und Daten —
Anne Brüggemann-Klein
TU München
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 1
Dokumentenbegriff: Drei Entwicklungsstufen
Schriftform: kodierter Text
o Ursprüngliche Dokumente
o gebunden an Trägermedium
o Neuere Dokumente
o Informationsgehalt
o unabhängig von Informationsträger und Format
o Moderne Dokumente: Daten
o computerlesbar mit API
o computergestützt verarbeitbar: aktiv und dynamisch
o automatisierte Verarbeitung, z.B.
intelligente Anfragebearbeitung, präzise Profildienste
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 2
Zwischentest
Überlegen Sie, ob auf die folgenden Dokumente eher der
ursprüngliche, der neuere oder der moderne
Dokumentenbegriff paßt oder ob es sich vielleicht gar nicht
um Dokumente handelt
o
o
o
o
o
o
o
o
Personalausweis
Geldschein
Gemälde
Veranstaltungsplakat
Privatbrief
E-Mail-Nachricht
Memo an die Geschäftsleitung
Gedichtband
Elektronisches Publizieren: Dokumenten-Modellierung
o
o
o
o
o
Roman
Bestellung
Produktbeschreibung
Fragebogen
Nachricht in einem Protokoll
zum digitalen Zahlungsverkehr
(Electronic Banking)
25.Oktober 2006 ― 3
Leitfrage Dokumente
o
o
Was ist ein geeignetes Datenmodell für moderne Dokumente
(Dokumente als Daten)?
o aktiv
o dynamisch
o multi-channel-fähig
o cross-media-fähig
o weiterverarbeitbar
o von Programmen semantisch interpretierbar
Was macht das Wesen eines modernen Dokuments aus?
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 4
Dokumentenbestandteile …
Erarbeitung der Dokumentenbestandteile am Beispiel
o [../../compProp/Konzept.htm]
o Buchstaben, Interpunktionszeichen, Wortzwischenräume:
Inhalt
o [../../compProp/Konzept.txt]
o Typographische Ausprägungen, geometrische Anordnung
(Layout): Format (im Sinne von Präsentationsformat)
o [../../compProp/KonzeptCSS.htm]
o Rollen von Textpassagen, Strukturierung in logische
Einheiten (Strukturelemente): (logische) Struktur
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 5
… Dokumentenbestandteile …
Zusammenhang der Bestandteile für Menschen
o Präsentation des Dokuments mit Inhalt und Format
(z.B. mit Browser)
o Konstruktion von Struktur und Aussage durch gedankliche
Arbeit unter Rückgriff auf Sprachverständnis und
kulturelles Wissen um die Verwendung von
Formatmerkmalen
o Auf Basis von Struktur und Aussage weitere intellektuelle
Informationsverarbeitung
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 6
… Dokumentenbestandteile
NB:
o Konstruierte Struktur nicht eindeutig
o Konstruktion von im wesentlichen identischen Strukturen
aus verschiedenen, eventuell vom Präsentationsmedium
abhängigen Formaten
o Dokumentenidentität aus Inhalt und konstruierter
Struktur, nicht Format
o Strukturelemente und Strukturierungstiefe abhängig vom
Nutzungszweck/Informationsbedarf
(Information ist Wissen in Aktion)
 Können Maschinen das auch?
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 7
Zentrale Idee …
o
o
o
Relevante Aspekte von Dokumenten:
Inhalt, Struktur (Gliederungsebene, Semantik), Format
Informationsverarbeitung möglich auf Basis von
(1) Inhalt und Format oder (2) Inhalt und Struktur
Intelligente Computerprogramme mit Zeichenerkennung,
Sprachverstehen und Strukturerkennung in weiter Ferne

Maschinelle Bearbeitung nur möglich auf Basis von
expliziter Repräsentation von Inhalt und Struktur
Mit Einschränkungen als HTML-Code (u.a. Metadaten),
in voller Allgemeinheit als XML-Code
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 8
… Zentrale Idee
Dokumentenmodell: Modell der strukturierten Dokumente
o explizite Repräsentation von textuellem Inhalt und
(logischer) Struktur (Annotation von Textbereichen mit
semantisch bedeutsamer Metainformation)
 Dokumente als computerbearbeitbare Daten
Inhalt und Struktur für sich alleine von
intelligenten Anwendungen nutzbar
o separate, auswechselbare Formatvorlage (Stylesheet)
o Format aus beiden zusammen berechenbar
o weitere separate und ausführbare
Bearbeitungsvorschriften, mit Dokument kombinierbar
(z.B. intelligente Tags, XSP, Logicsheets in Cocoon)
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 9
Präzisierung des Dokumentenmodells
o
Wesentlich die freie Wahl der Strukturelemente
o
o
bei festem Satz von Strukturelementen Simulation von
Anwendungselementen unausweichlich

Verwässerung der Vorteile des Dokumentenmodells
Beispiele HTML, TEI  XML
o
Logische Strukturierung streng hierarchisch
o
Strukturelemente attributierbar
(hierarchische Schachtelung, keine Überlappungen von
Strukturelementen)
(Liste von Name-Werte-Paaren)
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 10
Strukturdarstellungen
o
Zwei Darstellungsweisen
o graphisch, oft Schwerpunkt auf Struktur:
[../../compProp/KonzeptTree.gif]
[../../compProp/KonzeptIcons.gif]
[../../compProp/KonzeptSpy.gif]
o mit in den Inhalt eingebetteter Klammerstruktur
(Tags, Markup):
[../../compProp/Konzept.xml]
[../../compProp/KonzeptMSIExml.gif]
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 11
Baummodell für strukturierte Dokumente
o
o
Baummodell: Konzeptuell (Domain Model, Datenmodell)
o Baum von Knoten
o benannt, optional mit Attributierung
[Elementknoten, für Strukturelemente]
o anonym, mit Stringwert (nur bei Blättern)
[Textknoten, für Inhaltstext]
o Attributierung: Menge von Schlüssel-Wert-Paaren
o Schlüssel sind Namen
o Werte haben Typ
Kodierung: z.B. XML [../../compProp/Konzept.xml]
linearisierte Kodierung als Zeichenfolge (Text)
Unterscheidung Inhaltstext/Markup durch Syntax
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 12
Baummodell und XML-Kodierung am Beispiel
o
o
o
Formatiertes Dokument [../../xmlSamples/compBook.pdf]
XML-Kodierung [../../xmlSamples/compBook.xml]
o semantisch reich
o normalisiert
o bearbeitbar
Als Baummodell [../../xmlSamples/compBookModel.pdf]
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 13
Formalisierung des Dokumentenmodells
o
o
o
o
o
o
Dokument als mathematisches Objekt
(Element einer in bestimmter Weise strukturierten Menge)
Paarweise disjunkte Ausgangsmengen
o endliche Menge Character von Zeichen
o Mengen DocSort, AttSort, DocID, AttValue
DocInstance enthält Strukturelemente (rekursiv definiert)
o
o
o
DocInstance = DocSort  DocID  Attributes  Content.
Attributes = Ffin(AttSort  AttValue  Character*  DocID).
Content = (DocInstance  Character)*.
Eindeutigkeit von IDs
Gleichheit von Strukturelementen
Erweiterungen: Typen für Attributwerte und Textinhalte
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 14
Vorteile des Dokumentenmodells
Flexibilität, besonders bei großen Dokumentenbeständen
o Dokumentenverwaltung: Automatisches Generieren von
Katalogeinträgen und Verzeichnissen, Sortieren,
automatisches Generieren von Numerierungen und
Querverweisen  Normalform
o Konsistente Formatierung innerhalb eines Dokuments und
zwischen Dokumenten gleichen Typs bei gleichem
Präsentationsmedium (n:1); angepaßte Formatierung (1:n)
o Navigationsunterstützung (logischer Cursor) und
Sichtendefinition (Outline-Sicht) beim Erstellen und
Lesen, Information Retrieval nach logischen Kriterien
o Automatische, semantisch gesteuerte Verarbeitbarkeit
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 15
Verfeinerung des Dokumentenmodells
o
o
Optional Festlegung von Strukturelementen mit formalen
Mitteln als Strukturvorgabe
(Definition des Vorrats an Strukturelementen sowie Vorschriften zu
ihrer Verwendung, Definition von Integritätsbedingungen)
o Kommunikation, Herstellen einer Verständnisbasis in Community
o Überprüfung/Validierung
o syntaxgestütztes Editieren
o Basis für die Verarbeitung
(Compilerbau: Actions in Parsergenerierung, XML: Data Binding)
In XML mit DTDs (Dokumenttypdefinitionen) oder
Satellitenstandards XML Schema und Relax NG
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 16
Klassifizierung von Strukturelementen …
o Metaelemente, z.B. Katalogdaten
o
o
o
Beispiele: AutorIn, Verlag, Titel
Status: allgemeingültig, standardisiert
Vorkommen: ein Block pro Dokument
o
o
o
Beispiele: Kapitel, Abschnitt, Anhang, Index
Status: allgemeingültig, semi-standardisiert
Vorkommen: Hierarchie mit Wiederholungen
o Gliederungselemente
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 17
… Klassifizierung von Strukturelementen …
o Informationsbausteine, in sich verständlich
o
o
o
Beispiele: Absatz, Liste, Zitat, Literatureintrag,
Aufgabe, Lösungshinweis (evtl. flach strukturiert)
Status: allgemeingültig oder anwendungsspezifisch
Vorkommen: freie Auswahl aus Grundvorrat innerhalb
von Gliederungselementen
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 18
… Klassifizierung von Strukturelementen
o Informationsschnitzel, nur im Zusammenhang
verständlich
o
o
o
Beispiele: Hervorhebung, Fachbegriff, Telefonnummer,
Status, Gültigkeitsbereich
Status: allgemeingültig oder anwendungsspezifisch
Vorkommen: freie Auswahl aus Grundvorrat innerhalb
von Bausteinen oder Schnitzeln, eingebettet in Text
 Leitlinie für Schema-Definition
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 19
Typische Klausuraufgaben
o
o
o
o
o
Aufgabe
Was sind die wichtigsten Bestandteile des Modells der
strukturierten Dokumente?
Aufgabe
Beschreiben Sie strukturierte Dokumente in
Baumterminologie.
Aufgabe
Wozu wurde das Modell der strukturierten Dokumente
eingeführt?
Aufgabe
Wie werden strukturierte Dokumente in der Praxis kodiert?
Aufgabe: Nennen Sie mindestens drei Vorteile des Modells
der strukturierten Dokumente.
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 20
Diskussion
o
o
o
o
o
o
o
Analogie zu Normalformen im Datenbankbereich
(Freiheit von Redundanzen, Datenunabhängigkeit)
Vom Document Management zum Knowledge Management
Dokumentenmodell vs. Dokumentenarchitektur
Offenlegung der Kodierung vs. Datenkapselung
Pragmatischer Kompromiss I: Positionierung des Modells im
Spektrum zwischen Bitmap-Repräsentationen und
Sprachverstehen/semantischem Verständnis
Pragmatischer Kompromiss II: Markup-Sprache
Pragmatischer Kompromiss III: Hierarchische Struktur
Aber: Overlhappens
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 23
Umsetzungen des Dokumentenmodells
Umsetzungen des Modells
o LaTeX mit Makropaketen
[../../compProp/Konzept.tex]
[../../compProp/KonzeptTeX.eps]
o MS Word durch Formatvorlagen
../../compProp/Konzept.doc
o HTML mit CSS/XSL
o Standard Generalized Markup Language (SGML)
mit DSSSL
o Extended Markup Language (XML) mit CSS oder XSL
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 24
Hausaufgabe (Abgabe Sa, 28.10., 12.00 Uhr)
o
o
Zählen Sie einige Beispiele auf, in denen Sie eine tiefere
Schachtelung von Strukturelementen für sinnvoll halten als
Word es zuläßt.
Wandeln Sie das Dokument ../../compProp/Konzept.xml mit
allen Strukturelementen und Attributen in ein
Baumdiagramm um, analog zu der Darstellung
../../xmlSamples/compBookModel.pdf.
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 25
Informatik-Paradigmen
o
o
Late Binding: Entscheidungen werden so lange
hinausgezögert, bis sie unumgänglich sind.
Beispiel: Polymorphie
Hier: Stylesheets erst zum Präsentationszeitpunkt
Separation of Concerns: Systeme werden so gestaltet, daß
unterschiedliche Aufgaben unabhängig voneinander
durchgeführt werden können.
Beispiel: Datenbankanwendungen:
Trennung in Anwendungsschicht, konzeptionelle und
physikalische Schicht (Datenunabhängigkeit)
Hier: Trennung von Inhalt+Struktur und Präsentation im
Dokumentenmodell
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 34
Literatur
o
o
Skript
J. Bosak: XML, Java and the Future of the Web.
o
J.P. Morgenthal: Portable Data / Portable Code:
XML & Java Technologies. http://java.sun.com/xml/ncfocus.html.
T. Berners-Lee, J. Hendler, O. Lassila: The Semantic Web.
Scientific American 2001.
E.R. Harold, W.S. Means: XML in a Nutshell. O'Reilly 2001.
E.T. Ray: Einführung in XML. O'Reilly 2001.
S. Abiteboul, P. Buneman, D. Suciu: Data on the Web.
Morgan Kaufmann Publishers 2000.
o
o
o
o
http://sunsite.unc.edu/pub/sun-info/standards/xml/why/xmlapps.htm.
Elektronisches Publizieren: Dokumenten-Modellierung
25.Oktober 2006 ― 35