Transcript Folie 1
Datenaustauschformate Erfahrungen und Schlüsse aus ADeX Ausschnitt aus: Horst Hussel, Das Gespräch Dr. Reiner Göldner 1 Motivation 1 ❙ Mein Arbeitsgebiet: (Kommission „Archäologie und Informationssysteme“ beim Verband der Landesarchäologen) ❙ ❙ Datenaustausch zwischen den archäologischen Landesämtern und mit anderen Fachinstitutionen ❙ Datenaustauschformat ADeX (Archäologischen DateneXport) ❙ verschiedene, unterschiedliche Systeme (z.B. mit regionalem Kontext) --> heterogene Datenbestände Ihr Arbeitsgebiet: ❙ Erfassung von (archäologischen) Sammlungsbeständen ❙ kontrolliertes Vokabular zur Beschreibung der Sammlungsobjekte ❙ verschiedene, unterschiedliche Systeme (z.B. mit regionalem Kontext) --> heterogene Datenbestände Dr. Reiner Göldner 2 ADeX ® ❙ Datenaustauschformat, bewusst einfach gehalten, nur wenige essentielle Attribute ❙ Beschränkung auf Archäologieflächen (abgegrenzte Flächen im Gelände, an denen mindestens ein archäologisch qualifiziertes bzw. relevantes Ergebnis vorliegt/vorgelegen hat oder vermutet wird) ❙ Das Format umfasst zwei Tabellen, die im csv-Format (ANSI) abgegeben werden: ❙ Datentabelle ein Datensatz pro ausgetauschter Archäologiefläche, Attributgruppen wie folgt: · Generelle Angaben, wie eindeutiger Bezeichner, Datenquelle oder Berechtigung · Georeferenz, z.B. Koordinaten und Genauigkeit. · Typ/Zeit, d.h. Angaben zur Ansprache der Fundstelle und zur Datierung. Dabei werden grobe Typ- und Zeitangaben mit einheitlichen Begriffen gespeichert, während feinere Ansprachen vorerst aus den unterschiedlichen Terminologielisten der beteiligten Institutionen übernommen werden. ❙ Begriffstabelle enthält Erklärungen zu Begriffen, die in den Textfeldern der Datentabelle verwendet werden. ❙ Näheres im Internet unter www.landesarchaeologen.de ! Dr. Reiner Göldner 3 Kontrolliertes Vokabular ❙ kontrolliertes Vokabular ❙ Sammlung von Begriffen und ihren Bezeichnungen (eindeutige Zuordnung von Bezeichnungen zu Begriffen, keine Homonyme), z.B. Schlagwortliste, Glossar, Thesaurus ❙ Schlagwortliste ❙ ❙ Glossar ❙ ❙ (gegliederte) Liste von Schlagworten, Deskriptoren (Bezeichnungen), z.B. Schlagwortnormdatei Liste von Bezeichnern (Worten) mit genauen Beschreibungen Thesaurus ❙ kontrolliertes Vokabular, dessen Begriffe über Relationen verknüpft sind (hierarchisch, polyhierarchisch, auch vernetzt), typische Relationen: Ober-/Unterbegriff, Synonym, auch Verwandschaft Dr. Reiner Göldner 4 Motivation 2 ❙ ❙ ❙ ❙ Ausgangspunkt: heterogene Datenbestände ❙ verschiedene, unterschiedliche Systeme (z.B. mit regionalem Kontext) ❙ Überregionale Fragen - was nun? Problem: Heterogenität auf mehreren Ebenen ❙ syntaktisch, strukturell ❙ inhaltlich Lösungsansatz: Harmonisierung ❙ kognitiv ❙ formell Stichwort "Semantische Interoperabilität" Dr. Reiner Göldner 5 Heterogene Systeme Realität Modell A Modell B Daten A Daten B Dr. Reiner Göldner 6 Modellieren, Harmonisieren ❙ semantische Modellierung - Semantik ist durch Fachexperten zu beschreiben (Prosa, Abbildungen, ...) - Strukturierung/Formalisierung erfolgt durch Modellierungsexperte konzeptionelles Schema ❙ Wir benötigen kohärente, also zusammenhängende Modelle! Vergleichen, Angleichen Harmonisierung der Modelle ❙ Wenn beiden Modellen verschiedene (konzeptionelle Schema-) Sprachen zugrunde liegen, gibt es Probleme (Äpfel -Birnen) also besser einheitliche Sprache verwenden! ❙ Um die Harmonisierung formell zu unterstützen (Computer), müssen die Modelle in ein gemeinsames, übergeordnetes Metamodell eingebettet werden, welches die jeweiligen Modellbestandteile miteinander in Beziehung setzt Ontologie (z.B. CIDOC-CRM) ❙ Was kann man damit anfangen? Daten harmonisieren = Datenbestände zusammenführen Inhalte harmonisieren = einheitliche Anfragen an heterogene Systeme stellen Dr. Reiner Göldner 7 Daten harmonisieren Meta-Modell Modell A Daten A Modell B Daten A‘+B‘ Daten B Daten harmonisieren Datenbestände zusammenführen statisches Transformat Dr. Reiner Göldner 8 Inhalte harmonisieren Meta-Modell Modell A Daten A Modell B Transformation Daten B Inhalte harmonisieren einheitliche Anfragen an heterogene Systeme adaptive Transformation möglich Dr. Reiner Göldner 9 Das Meta-Modell Meta-Modell Modell A Modell B Modell A Modell B 1 3 2 4 3 1 5 7 7 2 .XLS Dr. Reiner Göldner 10 Modellierungsprobleme Modelle überlappen sich nur teilweise, eine gemeinsame Semantik lässt sich nur für Teilbereiche herleiten Dr. Reiner Göldner durch unterschiedliche Sichtweisen entstehen abweichende Modelle für identische Sachverhalte 11 Umsetzung ❙ Arbeitsgruppe (engagiert und kreativ) --> kognitive Umsetzung (für kleine, übersichtliche Modelle) ❙ bei größeren Modellen weicht man auf formelle Methoden aus: - (einfache, schwach strukturierte) Identitätsbeziehungen --> Listen, Tabellen, Thesauri - komplexe, strukturierte, differenzierte Beziehungen aller Art --> Ontologie ❙ aus Identitätsbeziehungen ergeben sich einfache, leicht anwendbare Transformationen, aus differenzierten Beziehungen ergeben sich schnell sehr komplexe Transformationen, ❙ aber: geschickte Modellierung dieser Beziehungen erlaubt automatisierte Schlussmechanismen automatische Transformation ❙ Bsp. Bibliotheksbereich: Zuordnung von Deskriptoren verschiedener Systeme: - über Nachbarschaftsstrukturen in den Modellen - aus Strukturen der Instanzen (konkrete Beispiele) ❙ anwendbar auf - Objektdaten Objektbeschreibungen modellieren - Vokabular Bedeutungen modellieren Dr. Reiner Göldner ( Beispiel ADeX) ( Beispiel Thesaurus) 12 Beispiel ADeX ❙ ® Metamodell, Einheitliche Begriffe · Generelle Angaben, wie eindeutiger Bezeichner, Datenquelle oder Berechtigung, ... · Georeferenz, z.B. Koordinaten und Genauigkeit, auch Verwaltungsgliederung, .... · Typ/Zeit, d.h. Angaben zur Ansprache der Fundstelle und zur Datierung, ... . Aktivität (archäologische), Informationen z.B. zu Prospektionen, Grabungen, ... ❙ Modell A: └─ Site Generelle Angaben, Georeferenz ├─ (1:m) Objekt └─ (1:n) Aktivität ❙ Aktivität Modell B: └─ Fundplatz ❙ Typ/Zeit Generelle Angaben, Georeferenz, Typ/Zeit Modell C: └─ Aktivitätsstelle Generelle Angaben, Georeferenz, Typ/Zeit, Aktivität ❙ ADeX (Pivot-Modell / Datenaustauschformat): └─ Archäologiefläche Dr. Reiner Göldner Generelle Angaben, Georeferenz, Typ/Zeit 13 Beispiel Thesaurus ❙ Modell A (Mitteleuropa): + Bronzezeit Nutzung von Bronzegegenständen ca. 2200 – 800 v.u.Z. ❙ Modell B (Nordeuropa): + Steinzeit Nutzung von Steingegenständen endet mit Beginn der Bronzezeit + Bronzezeit Nutzung von Bronzegegenständen ca. 1800 – 400 (?) v.u.Z. ❙ mögliche Anfragen: Beginn der Bronzezeit? 2000 v.u.Z.? ❙ 1800 v.u.Z. und/oder 2200 v.u.Z. Bronzezeit und/oder Steinzeit Beispielanfrage: Holzfigur aus Dresden (Mitteleuropa), dendro-datiert auf 2000 v.u.Z. Welche vergleichbaren Stücke gibt es in Europa? Suche in Mitteleuropa Bronzezeit Suche in Nodreuropa Bronzezeit oder Steinzeit? Dr. Reiner Göldner 14 Implementierung ❙ die Implementierung der Abbildungen/Transformationen eines Metamodells ist meist hochkomplex, herkömmliche Methoden aus dem Datenbank-Bereich versagen schnell ❙ Alternativen stammen aus den Bereichen Knowledge Management / Knowledge Engineering ❙ Ontololgie: formelle Darstellung von Wissen durch Begriffe und Beziehungen ❙ ❙ OWL (Web Ontology Language): Sprache für den Aufbau von Ontologien ❙ CIDOC CRM: ISO-Standard für den Aufbau von Ontologien im Bereich Kulturerbe ❙ TOPIC Maps: ISO-Standard zur Formulierung von Wissensstrukturen für Experten stehen anspruchsvolle Werkzeuge zur Verfügung, die sich dem Laien allerdings nur schwer erschließen Dr. Reiner Göldner 15 Resümee ❙ Es gibt formelle Methoden, um heterogene Datenbestände zu harmonisieren. ❙ ❙ Bei komplexen Zusammenhängen können diese Methoden dem rein kognitiven Herangehen überlegen sein. ❙ ❙ (auch Semantik betreffend) (und wenn‘s nur die Verarbeitungsgeschwindigkeit ist) Suchen Sie die interdisziplinäre Zusammenarbeit mit Experten der Bereiche Knowledge Management / Knowledge Engineering! Dr. Reiner Göldner 16 Quellen ❙ P. Straub, Semantische Interoperabilität – Der Schlüssel zur integrierten Nutzung heterogener Geodaten. In: gis.science – Die Zeitschrift für Geoinformatik 3/2010, S 93 ff. ❙ M. Hall, Automatisierte semantische Harmonisierung von Landnutzungsdaten. In: Strobl, Blaschke, Griesebner (Hrsg.): Angewandte Geoinformatik 2006. Beiträge zum 18. AGITSymposium Salzburg. Herbert Wichman Verlag, Heidelberg. (http://users.cs.cf.ac.uk/M.M.Hall/files/papers/Hall2006.pdf) ❙ W. Gödert, Semantische Wissensrepräsentation und Interoperabilität. In: Information Wissenschaft & Praxis 61 (2010). Dinges & Frick GmbH, Wiesbaden (http://linux2.fbi.fh-koeln.de/reseda/depot/Goedert_SeTIW.pdf) ❙ J. Hubrich, Vom Stringmatching zur Begriffsexploration: Das Potential integrierter begrifflicher Interoperabilität. In: Tagungsband der 12. Tagung der Deutschen Sektion der ISKO 2009 in Bonn. Ergon-Verlag, Würzburg. [erscheint in Kürze] (http://linux2.fbi.fh-koeln.de/crisscross/publikationen/Hubrich_IntegrierteBegrifflicheInteroperabilitaet.pdf) ❙ Frauenhofer ISST, Semantische Interoperabilität. Band 1: Eine technische Einführung (http://www.isst.fraunhofer.de/Images/White-Paper_Einf%C3%BChrung_Bd1_tcm81-49792.pdf) Dr. Reiner Göldner 17 Resümee Dr. Reiner Göldner 18 Horst Hussel, Das Gespräch