TEI-Henny.odp - Universität zu Köln

Download Report

Transcript TEI-Henny.odp - Universität zu Köln

Universität zu Köln, SS 2009, HKI
Seminar: Daten- und Metadatenstandards
Dozent: Herr Sahle
Referentin: Ulrike Henny
Datum: 19.06.2009
Text Encoding Initiative (TEI)
Text Encoding Initiative (TEI)
TEI meint:
- das TEI-Konsortium
- ein Dokumentenformat zur Kodierung und zum
Austausch von Texten
TEI-Konsortium:
- geht auf eine 1987 gegründete Organisation zurück
- seit 2000 Konsortium zum Erhalt, Entwicklung und
Verbreitung von TEI
TEI - Ziele
- Fokus auf bereits existierenden Texten traditioneller
Medien (text capture vs. text creation)
- Anwendbarkeit für Texte jeglicher Art: jede natürliche
Sprache, jede Epoche, jedes literarische Genre,
Wörterbücher, linguistische Korpora...
- verlustfreien Datenaustausch garantieren
- dabei Unabhängigkeit von Programmen,
Computersystemen und Anwendungssoftware
- Betonung der modularen Natur von TEI: Flexibilität!
TEI - Auszeichnungssprache
verschiedene Versionen:
- P1 (P = proposal) bis P5 (aktuelle Version)
- P1 bis P3: SGML-Syntax
- P4: Wahl zwischen SGML und XML möglich
- P5: basiert auf XML, Verbindung zu XML-basierten
Schemasprachen, zu XSLT und Xquery
TEI - Auszeichnungssprache
Aufbau von TEI:
- tag set aus XML-Elementen → ca. 500!
- Attribute (z.B. @xml:id, @xml:lang, @type)
- 2 Hauptkategorien:
1. Elemente für Metadaten
2. Elemente für Merkmale des Textes selbst
- sachbezogene Module
- Elementklassen (z.B. model.biblLike, model.divPart)
- Attributklassen (z.B. att.global)
→ formale Klassifikation der Elemente, Hierarchie:
Superklassen & Subklassen, bottom-up statt top-down
TEI - Module
Module (Auswahl):
tei
→ TEI-Infrastruktur: Module, Klassen
header
→ Metadaten
core
→ Elemente für alle Dokumente
textstructure → allgemeiner Dokumentaufbau
namesdates → Namen, Daten, Personen, Orte
figures
→ Tabellen, Formulare, Graphiken
drama
→ dramatische Texte
verse
→ Lyrik
msdescription → Manuskripte
dictionaries → Wörterbücher
corpus
→ Korpora
spoken
→ gesprochene Sprache
TEI - Schema
Auswahl von Modulen zur Beschreibung eines bestimmten
Textes: Standardmodule + Zusatzmodule
Auswahl wird in einem TEI-Schema festgehalten:
- selbst TEI-Dokument
- ODD-Dokument: „one document does it all“
- kann in XML DTD, RELAX NG, W3C-Schema
umgewandelt werden
- Auswahl & Erweiterung von Klassen &
Elementen möglich
- TEI-Schema: nötig für Validität eines TEIDokuments
TEI - Schema
Beispiel für ein TEI-Schema:
<schemaSpec ident=“TEI-minimal“ start=“TEI“>
<moduleRef key=“tei“/>
<moduleRef key=“header“/>
<moduleRef key=“core“/>
<moduleRef key=“textstructure“/>
</schemaSpec>
→ ODD-Prozesser generiert aus diesen Deklarationen ein
Schema
TEI - Schema
Mögliche Änderungen:
- Unterdrückung von Elementen (z.B.< persName>
aus dem Modul namesdates)
- Umbenennung von Elementen (<pName> statt
<persName>)
- Modifikation von Attributen und Attributwerten
(@type nur Werte „person“ & „place“)
- neue Elemente hinzufügen (<song>)
- Inhaltsmodelle ändern
- Klassenzugehörigkeit ändern
Anpassung eines Schemas:
durch das Tool Roma vereinfacht!
Link: http://www.tei-c.org/Roma/
TEI - Dokument
Grundgerüst:
Header:
<TEI>
<teiHeader>
<fileDesc>
</fileDesc>
</teiHeader>
<text>
<body>
</body>
</text>
</TEI>
- enthält Metadaten
(Bibliographisches,
Kodierung, Textprofil,
Revision)
- wichtig für:
Katalogisierung,
Anwendungssoftware,
wissenschaftliche
Arbeit
TEI - Fazit
- TEI bietet ein breites Spektrum an Elementen
- detaillierte Auszeichnungen möglich
- aber: Standard zunächst nicht so leicht zugänglich
- Konzentration auf Texte aus dem
geisteswissenschaftlichen Bereich (für KoelnCampus
Sendungsbeschreibung nur bedingt geeignet)
Offizielle Website: http://www.tei-c.org/index.xml