Transcript Folie 1

Datenaustauschformate
Erfahrungen und Schlüsse aus ADeX
Ausschnitt aus: Horst Hussel, Das Gespräch
Dr. Reiner Göldner
1
Motivation 1
❙
Mein Arbeitsgebiet:
(Kommission „Archäologie und Informationssysteme“ beim Verband der Landesarchäologen)
❙
❙
Datenaustausch zwischen den archäologischen Landesämtern und mit anderen
Fachinstitutionen
❙
Datenaustauschformat ADeX (Archäologischen DateneXport)
❙
verschiedene, unterschiedliche Systeme (z.B. mit regionalem Kontext)
--> heterogene Datenbestände
Ihr Arbeitsgebiet:
❙
Erfassung von (archäologischen) Sammlungsbeständen
❙
kontrolliertes Vokabular zur Beschreibung der Sammlungsobjekte
❙
verschiedene, unterschiedliche Systeme (z.B. mit regionalem Kontext)
--> heterogene Datenbestände
Dr. Reiner Göldner
2
ADeX
®
❙
Datenaustauschformat, bewusst einfach gehalten, nur wenige essentielle Attribute
❙
Beschränkung auf Archäologieflächen (abgegrenzte Flächen im Gelände, an denen
mindestens ein archäologisch qualifiziertes bzw. relevantes Ergebnis vorliegt/vorgelegen hat
oder vermutet wird)
❙
Das Format umfasst zwei Tabellen, die im csv-Format (ANSI) abgegeben werden:
❙
Datentabelle
ein Datensatz pro ausgetauschter Archäologiefläche, Attributgruppen wie folgt:
· Generelle Angaben, wie eindeutiger Bezeichner, Datenquelle oder Berechtigung
· Georeferenz, z.B. Koordinaten und Genauigkeit.
· Typ/Zeit, d.h. Angaben zur Ansprache der Fundstelle und zur Datierung.
Dabei werden grobe Typ- und Zeitangaben mit einheitlichen Begriffen gespeichert, während
feinere Ansprachen vorerst aus den unterschiedlichen Terminologielisten der beteiligten
Institutionen übernommen werden.
❙
Begriffstabelle
enthält Erklärungen zu Begriffen, die in den Textfeldern der Datentabelle verwendet werden.
❙
Näheres im Internet unter www.landesarchaeologen.de !
Dr. Reiner Göldner
3
Kontrolliertes Vokabular
❙
kontrolliertes Vokabular
❙
Sammlung von Begriffen und ihren Bezeichnungen
(eindeutige Zuordnung von Bezeichnungen zu Begriffen, keine Homonyme),
z.B. Schlagwortliste, Glossar, Thesaurus
❙
Schlagwortliste
❙
❙
Glossar
❙
❙
(gegliederte) Liste von Schlagworten, Deskriptoren (Bezeichnungen),
z.B. Schlagwortnormdatei
Liste von Bezeichnern (Worten) mit genauen Beschreibungen
Thesaurus
❙
kontrolliertes Vokabular, dessen Begriffe über Relationen verknüpft sind
(hierarchisch, polyhierarchisch, auch vernetzt),
typische Relationen: Ober-/Unterbegriff, Synonym, auch Verwandschaft
Dr. Reiner Göldner
4
Motivation 2
❙
❙
❙
❙
Ausgangspunkt: heterogene Datenbestände
❙
verschiedene, unterschiedliche Systeme (z.B. mit regionalem Kontext)
❙
Überregionale Fragen - was nun?
Problem: Heterogenität auf mehreren Ebenen
❙
syntaktisch, strukturell
❙
inhaltlich
Lösungsansatz: Harmonisierung
❙
kognitiv 
❙
formell 
Stichwort "Semantische Interoperabilität"
Dr. Reiner Göldner
5
Heterogene Systeme
Realität
Modell A
Modell B
Daten
A
Daten
B
Dr. Reiner Göldner
6
Modellieren, Harmonisieren
❙
semantische Modellierung
- Semantik ist durch Fachexperten zu beschreiben (Prosa, Abbildungen, ...)
- Strukturierung/Formalisierung erfolgt durch Modellierungsexperte  konzeptionelles
Schema
❙
Wir benötigen kohärente, also zusammenhängende Modelle!  Vergleichen, Angleichen 
Harmonisierung der Modelle
❙
Wenn beiden Modellen verschiedene (konzeptionelle Schema-) Sprachen zugrunde liegen,
gibt es Probleme (Äpfel -Birnen)  also besser einheitliche Sprache verwenden!
❙
Um die Harmonisierung formell zu unterstützen (Computer), müssen die Modelle in ein
gemeinsames, übergeordnetes Metamodell eingebettet werden, welches die jeweiligen
Modellbestandteile miteinander in Beziehung setzt  Ontologie (z.B. CIDOC-CRM)
❙
Was kann man damit anfangen?
 Daten harmonisieren = Datenbestände zusammenführen
 Inhalte harmonisieren = einheitliche Anfragen an heterogene Systeme stellen
Dr. Reiner Göldner
7
Daten harmonisieren
Meta-Modell
Modell A
Daten
A
Modell B
Daten
A‘+B‘
Daten
B
Daten harmonisieren 
Datenbestände zusammenführen
 statisches Transformat
Dr. Reiner Göldner
8
Inhalte harmonisieren
Meta-Modell
Modell A
Daten
A
Modell B
Transformation
Daten
B
Inhalte harmonisieren 
einheitliche Anfragen an heterogene Systeme
 adaptive Transformation möglich
Dr. Reiner Göldner
9
Das Meta-Modell
Meta-Modell
Modell A
Modell B
Modell A
Modell B
1
3
2
4
3
1
5
7
7
2
.XLS
Dr. Reiner Göldner
10
Modellierungsprobleme
Modelle überlappen
sich nur teilweise,
eine gemeinsame
Semantik lässt sich
nur für Teilbereiche
herleiten
Dr. Reiner Göldner
durch unterschiedliche
Sichtweisen
entstehen
abweichende
Modelle für
identische
Sachverhalte
11
Umsetzung
❙
Arbeitsgruppe (engagiert und kreativ) --> kognitive Umsetzung (für kleine, übersichtliche
Modelle)
❙
bei größeren Modellen weicht man auf formelle Methoden aus:
- (einfache, schwach strukturierte) Identitätsbeziehungen --> Listen, Tabellen, Thesauri
- komplexe, strukturierte, differenzierte Beziehungen aller Art --> Ontologie
❙
aus Identitätsbeziehungen ergeben sich einfache, leicht anwendbare Transformationen,
aus differenzierten Beziehungen ergeben sich schnell sehr komplexe Transformationen,
❙
aber: geschickte Modellierung dieser Beziehungen erlaubt automatisierte
Schlussmechanismen  automatische Transformation
❙
Bsp. Bibliotheksbereich: Zuordnung von Deskriptoren verschiedener Systeme:
- über Nachbarschaftsstrukturen in den Modellen
- aus Strukturen der Instanzen (konkrete Beispiele)
❙
anwendbar auf
- Objektdaten  Objektbeschreibungen modellieren
- Vokabular
 Bedeutungen modellieren
Dr. Reiner Göldner
( Beispiel ADeX)
( Beispiel Thesaurus)
12
Beispiel ADeX
❙
®
Metamodell, Einheitliche Begriffe
· Generelle Angaben, wie eindeutiger Bezeichner, Datenquelle oder Berechtigung, ...
· Georeferenz, z.B. Koordinaten und Genauigkeit, auch Verwaltungsgliederung, ....
· Typ/Zeit, d.h. Angaben zur Ansprache der Fundstelle und zur Datierung, ...
. Aktivität (archäologische), Informationen z.B. zu Prospektionen, Grabungen, ...
❙
Modell A:
└─ Site
 Generelle Angaben, Georeferenz
├─ (1:m) Objekt

└─ (1:n) Aktivität 
❙
Aktivität
Modell B:
└─ Fundplatz
❙
Typ/Zeit
 Generelle Angaben, Georeferenz, Typ/Zeit
Modell C:
└─ Aktivitätsstelle
 Generelle Angaben, Georeferenz, Typ/Zeit, Aktivität

❙
ADeX (Pivot-Modell / Datenaustauschformat):
└─ Archäologiefläche
Dr. Reiner Göldner
 Generelle Angaben, Georeferenz, Typ/Zeit
13
Beispiel Thesaurus
❙
Modell A (Mitteleuropa):
+ Bronzezeit
 Nutzung von Bronzegegenständen
 ca. 2200 – 800 v.u.Z.
❙
Modell B (Nordeuropa):
+ Steinzeit
 Nutzung von Steingegenständen
 endet mit Beginn der Bronzezeit
+ Bronzezeit
 Nutzung von Bronzegegenständen
 ca. 1800 – 400 (?) v.u.Z.
❙
mögliche Anfragen:
Beginn der Bronzezeit?
2000 v.u.Z.?
❙
 1800 v.u.Z. und/oder  2200 v.u.Z.
 Bronzezeit und/oder  Steinzeit
Beispielanfrage: Holzfigur aus Dresden (Mitteleuropa), dendro-datiert auf 2000 v.u.Z.
Welche vergleichbaren Stücke gibt es in Europa?
Suche in Mitteleuropa
 Bronzezeit
Suche in Nodreuropa
 Bronzezeit oder Steinzeit?
Dr. Reiner Göldner
14
Implementierung
❙
die Implementierung der Abbildungen/Transformationen eines Metamodells ist
meist hochkomplex, herkömmliche Methoden aus dem Datenbank-Bereich
versagen schnell
❙
Alternativen stammen aus den Bereichen
Knowledge Management / Knowledge Engineering
❙
Ontololgie: formelle Darstellung von Wissen durch Begriffe und Beziehungen
❙
❙
OWL (Web Ontology Language): Sprache für den Aufbau von Ontologien
❙
CIDOC CRM: ISO-Standard für den Aufbau von Ontologien im Bereich Kulturerbe
❙
TOPIC Maps: ISO-Standard zur Formulierung von Wissensstrukturen
für Experten stehen anspruchsvolle Werkzeuge zur Verfügung, die sich dem Laien
allerdings nur schwer erschließen
Dr. Reiner Göldner
15
Resümee
❙
Es gibt formelle Methoden, um heterogene Datenbestände zu harmonisieren.
❙
❙
Bei komplexen Zusammenhängen können diese Methoden dem rein kognitiven
Herangehen überlegen sein.
❙
❙
(auch Semantik betreffend)
(und wenn‘s nur die Verarbeitungsgeschwindigkeit ist)
Suchen Sie die interdisziplinäre Zusammenarbeit mit Experten der Bereiche
Knowledge Management / Knowledge Engineering!
Dr. Reiner Göldner
16
Quellen
❙
P. Straub, Semantische Interoperabilität – Der Schlüssel zur integrierten Nutzung
heterogener Geodaten. In: gis.science – Die Zeitschrift für Geoinformatik 3/2010, S 93 ff.
❙
M. Hall, Automatisierte semantische Harmonisierung von Landnutzungsdaten. In: Strobl,
Blaschke, Griesebner (Hrsg.): Angewandte Geoinformatik 2006. Beiträge zum 18. AGITSymposium Salzburg. Herbert Wichman Verlag, Heidelberg.
(http://users.cs.cf.ac.uk/M.M.Hall/files/papers/Hall2006.pdf)
❙
W. Gödert, Semantische Wissensrepräsentation und Interoperabilität. In: Information
Wissenschaft & Praxis 61 (2010). Dinges & Frick GmbH, Wiesbaden
(http://linux2.fbi.fh-koeln.de/reseda/depot/Goedert_SeTIW.pdf)
❙
J. Hubrich, Vom Stringmatching zur Begriffsexploration: Das Potential integrierter
begrifflicher Interoperabilität. In: Tagungsband der 12. Tagung der Deutschen Sektion der
ISKO 2009 in Bonn. Ergon-Verlag, Würzburg. [erscheint in Kürze]
(http://linux2.fbi.fh-koeln.de/crisscross/publikationen/Hubrich_IntegrierteBegrifflicheInteroperabilitaet.pdf)
❙
Frauenhofer ISST, Semantische Interoperabilität. Band 1: Eine technische Einführung
(http://www.isst.fraunhofer.de/Images/White-Paper_Einf%C3%BChrung_Bd1_tcm81-49792.pdf)
Dr. Reiner Göldner
17
Resümee
Dr. Reiner Göldner
18
Horst Hussel, Das Gespräch